A.窄依赖表示RDDs之间分区是一一对应的。B.宽依赖表示RDDs之间分区是一对多的关系。C.窄依赖经常出现在改变分区的情况下。D.宽依赖经常出现在不改变分区的情况下。
多项选择题下列关于rdd描述正确的是()。
A.弹性分布式数据集。B.逻辑上是分区的,每个分区的数据是抽象存在的。C.不能改变现有rdd中的数据。D.相邻的rdd之间存在着血缘关系。
多项选择题以下属于内置模块的是()。
A.SparkCoreB.SparkStreamingC.SparkMlibD.SparkGraphX
单项选择题下列关于spark从kafka 获取数据描述错误的是()。
A.分为ReceiverAPI和DirectAPIB.使用ReceiverAPI可能会导致计算数据的节点内存溢出C.使用DirectAPI可以增加消费的并行度D.两种API都可以手动维护offset 保存位置
单项选择题下列不可以直接作为spatkStreaming数据源的是()。
A.RDD队列B.Kafka消息队列C.本地数据D.自定义socket数据源
单项选择题下列关于累加器描述不正确的是()。
A.实现所有分片处理时更新共享变量的功能。B.工作节点上的任务不能访问累加器的值。C.累加器是一个只读变量。D.累加器中的共享变量会发往每一个Executor。
单项选择题下列关于rdd分区描述错误的是()。
A.rangeB.range robinC.hashD.自定义
单项选择题下列关于spark的cache算子默认缓存机制描述错误的是()。
A.多次使用同一个RDD ,可以将该RDD缓存起来。B.缓存的计算结果,可以在后期得到重用。C.重用计算结果的前提是当前进程JVM不能停止工作。D.将数据持久化到硬盘,使用时再加载的策略。
单项选择题下列关于spark 的local模式描述错误的是()。
A.local[*]表示直接使用最大cpu核数。B.不需要启动master和worker守护进程。C.driver程序在应用程序结束后就会终止。D.SparkSubmit进程只充当客户提交任务的Client进程。
单项选择题以下不支持用来编写spark程序的语言是()。
A.JavaB.PythonC.ScalaD.C#
单项选择题下面哪个算子是Transformation算子?()
A.collectB.reduceC.reduceByKeyD.countByKey
单项选择题spark读取一个200M的文件,生成的RDD会有几个分区?()
A.1B.2C.3D.4
单项选择题对Spark中RDD的描述,错误的是:()。
A.RDD默认存储到内存中,内存不足时也会存储到磁盘中B.RDD表示一批元素的集合C.RDD中的数据是被分区的D.RDD中的数据不会丢失
单项选择题spark的master和worker的作用错误的是?()
A.master负责分配jobB.worker执行jobC.spark的计算是在内存中进行D.spark的计算是在硬盘中进行
单项选择题哪个不是kafka的组件?()
A.生产者B.消费者C.reduceByKeyD.kafka集群
单项选择题flume的作用?()
A.从日志中读取数据B.从mysql读取数据C.从Oracle读取数据D.从sqlserver读取数据