A.RDD包含DataFrameB.DataFrame包含RDDC.相互独立D.部分重合
单项选择题DataSet和DataFrame的大小关系是? ()
A.DataSet包含DataFrameB.DataFrame包含DataSetC.相互独立D.部分重合
单项选择题DataFrame类似于关系型数据库中的什么概念? ()
A.列B.一行记录C.表D.数据库
单项选择题以下哪个版本是DataSet最先出现的版本? ()
A.Spark 1.3B.Spark 1.4C.Spark 1.5D.Spark 1.6
单项选择题RDD最开始出现的版本是? ()
A.Spark 1.0B.Spark 1.1C.Spark 1.2D.Spark 1.3
单项选择题DataFrame最开始出现的版本是? ()
多项选择题Spark SQL的特点有哪些?()
A.复杂性B.效率高C.基于内存D.高兼容
单项选择题Spark SQL是转换成什么来执行的? ()
A.MapReduceB.JDBCC.RDDD.以上都不是
多项选择题Spark能读写的文件有哪些类型? ()
A.JSONB.CSVC.SequenceD.对象文件
单项选择题在读取文件中,如果读取文件夹,被看成RDD的是什么? ()
A.每一个文件B.子文件夹C.整个文件夹D.看情况而定
单项选择题在读取文件过程变成RDD过程中,元素是指文件的什么? ()
A.整个文件内容B.文件的一行C.文件的一段D.文件中特定符号
单项选择题使用collectAsMap()时如果key对应多个value,会如何处理?()
A.保留第一个valueB.保留最后一个valueC.保留所有value的值D.保留所有value的值构成的集合
多项选择题下列哪些操作会将pair RDD的数据量减少一半 ()
A.rdd.keysB.rdd.sortByKey()C.rdd.mapValues(x=>x+1)D.rdd.values
单项选择题当缓存丢失时,RDD如何处理? ()
A.全部数据重头计算B.从不计算丢失数据C.计算一部分丢失数据D.计算全部丢失数据
多项选择题下列RDD缓存级别中哪些CPU时间较高? ()
A.MEMORY_ONLYB.MEMORY_ONLY_SERC.MEMORY_ONLY_DISKD.MEMEORY_ONLY_DISK_SER
多项选择题在RDD缓存级别中哪些有部分需要磁盘上? ()