A.filter()B.groupByKey()C.reduceByKey()D.map()
单项选择题Spark与Hadoop在基于内存的运算中,说法正确的是()。
A.Spark的运算效率是Hadoop的10倍B.Spark的运算效率是Hadoop的100倍C.Hadoop的运算效率是Spark的100倍D.Hadoop的运算效率是Spark的10倍
单项选择题在Spark RDD中,划分Stage的依据是()。
A.窄依赖B.宽依赖C.窄依赖和宽依赖D.以上选项均错误
单项选择题如果一个有向图无法从任意顶点出发经过若干条边回到该点,则这个图就是()
A.有向无环图B.无环图C.有向图D.无向有环图
单项选择题在RDD的行动算子中,用于用于返回数组的第一个元素的行动算子是()。
A.first()B.count()C.take(n)D.reduce()
单项选择题下列选项中,可以支持Scala和Python编程的交互式解释器是()。
A.HBase-ShellB.Spark-ShellC.Hadoop-ShellD.Hive-Shell
单项选择题下列选项中,可以用于退出Spark-Shell客户端的命令是()。
A.:quitB.:wqC.:qD.:exit
多项选择题下列关于DStream转换描述正确的是()。
A.无状态转化操作就是把简单的RDD转化操作应用到每个批次上,也就是转化DStream中的每一个RDD 。B.有状态转换操作就是将依赖之前的批次数据或者中间结果来计算当前批次的数据,不断的把当前的计算和历史时间切片的RDD进行累计。C.Transform允许DStream上执行任意的RDD-to-RDD函数。D.updateStateByKey操作使得我们可以在用新信息进行更新时保持任意的状态。
多项选择题下列关于RDD、DataFrame和DataSet描述正确的是()。
A.RDD、DataFrame、DataSet全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利B.三者都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action如foreach时,三者才会开始遍历运算C.在对DataFrame和Dataset进行操作许多操作都需要进行引入:import spark.implicits._D.DataFrame可以通过toDS转化为DataSet
多项选择题下列关于SparkSQL描述正确的是()。
A.提供了两个编程抽象:DataFrame和DataSet。B.底层将SQL转换成RDD ,然后提交到集群执行。C.DataFrame和DataSet可以进行相互转化。D.SparkSQL兼容HQL语法。
多项选择题下列关于DAG描述正确的是()。
A.RDD通过一系列的转换就就形成了DAG。B.根据RDD之间的依赖关系的不同将DAG划分成不同的Stage。C.对于窄依赖,partition的转换处理在Stage中完成计算。D.对于宽依赖,由于有Shuffle的存在,只能在parent RDD处理完成后,才能开始接下来的计算。