A.RDD通过一系列的转换就就形成了DAG。B.根据RDD之间的依赖关系的不同将DAG划分成不同的Stage。C.对于窄依赖,partition的转换处理在Stage中完成计算。D.对于宽依赖,由于有Shuffle的存在,只能在parent RDD处理完成后,才能开始接下来的计算。
多项选择题下列属于rdd的创建方式的是()。
A.parallelize函数B.makeRDD函数C.textFile 函数D.从其它rdd转换
多项选择题下列关于宽依赖和窄依赖描述正确的是()。
A.窄依赖表示RDDs之间分区是一一对应的。B.宽依赖表示RDDs之间分区是一对多的关系。C.窄依赖经常出现在改变分区的情况下。D.宽依赖经常出现在不改变分区的情况下。
多项选择题下列关于rdd描述正确的是()。
A.弹性分布式数据集。B.逻辑上是分区的,每个分区的数据是抽象存在的。C.不能改变现有rdd中的数据。D.相邻的rdd之间存在着血缘关系。
多项选择题以下属于内置模块的是()。
A.SparkCoreB.SparkStreamingC.SparkMlibD.SparkGraphX
单项选择题下列关于spark从kafka 获取数据描述错误的是()。
A.分为ReceiverAPI和DirectAPIB.使用ReceiverAPI可能会导致计算数据的节点内存溢出C.使用DirectAPI可以增加消费的并行度D.两种API都可以手动维护offset 保存位置