多项选择题

A.窄依赖表示RDDs之间分区是一一对应的。B.宽依赖表示RDDs之间分区是一对多的关系。C.窄依赖经常出现在……

下列关于宽依赖和窄依赖描述正确的是（）。

A.窄依赖表示RDDs之间分区是一一对应的。
B.宽依赖表示RDDs之间分区是一对多的关系。
C.窄依赖经常出现在改变分区的情况下。
D.宽依赖经常出现在不改变分区的情况下。

<上一题目录下一题>

热门试题

多项选择题下列关于rdd描述正确的是（）。

A.弹性分布式数据集。
B.逻辑上是分区的，每个分区的数据是抽象存在的。
C.不能改变现有rdd中的数据。
D.相邻的rdd之间存在着血缘关系。

多项选择题以下属于内置模块的是（）。

A.SparkCore
B.SparkStreaming
C.SparkMlib
D.SparkGraphX

单项选择题下列关于spark从kafka 获取数据描述错误的是（）。

A.分为ReceiverAPI和DirectAPI
B.使用ReceiverAPI可能会导致计算数据的节点内存溢出
C.使用DirectAPI可以增加消费的并行度
D.两种API都可以手动维护offset 保存位置

单项选择题下列不可以直接作为spatkStreaming数据源的是（）。

A.RDD队列
B.Kafka消息队列
C.本地数据
D.自定义socket数据源

单项选择题下列关于累加器描述不正确的是（）。

A.实现所有分片处理时更新共享变量的功能。
B.工作节点上的任务不能访问累加器的值。
C.累加器是一个只读变量。
D.累加器中的共享变量会发往每一个Executor。

单项选择题下列关于rdd分区描述错误的是（）。

A.range
B.range robin
C.hash
D.自定义

单项选择题下列关于spark的cache算子默认缓存机制描述错误的是（）。

A.多次使用同一个RDD ，可以将该RDD缓存起来。
B.缓存的计算结果，可以在后期得到重用。
C.重用计算结果的前提是当前进程JVM不能停止工作。
D.将数据持久化到硬盘，使用时再加载的策略。

单项选择题下列关于spark 的local模式描述错误的是（）。

A.local[*]表示直接使用最大cpu核数。
B.不需要启动master和worker守护进程。
C.driver程序在应用程序结束后就会终止。
D.SparkSubmit进程只充当客户提交任务的Client进程。

单项选择题以下不支持用来编写spark程序的语言是（）。

A.Java
B.Python
C.Scala
D.C#

单项选择题下面哪个算子是Transformation算子？（）

A.collect
B.reduce
C.reduceByKey
D.countByKey

单项选择题spark读取一个200M的文件，生成的RDD会有几个分区？（）

A.1
B.2
C.3
D.4

单项选择题对Spark中RDD的描述，错误的是：（）。

A.RDD默认存储到内存中，内存不足时也会存储到磁盘中
B.RDD表示一批元素的集合
C.RDD中的数据是被分区的
D.RDD中的数据不会丢失

单项选择题spark的master和worker的作用错误的是？（）

A.master负责分配job
B.worker执行job
C.spark的计算是在内存中进行
D.spark的计算是在硬盘中进行

单项选择题哪个不是kafka的组件？（）

A.生产者
B.消费者
C.reduceByKey
D.kafka集群

单项选择题flume的作用？（）

A.从日志中读取数据
B.从mysql读取数据
C.从Oracle读取数据
D.从sqlserver读取数据