判断题对于迭代式计算和交互式数据挖掘,RDD可以将中间计算的数据结果保存在本地磁盘中,若是后面需要中间结果参与计算时,则可以直接从磁盘中读取,从而可以极大地提高计算速度。
判断题Spark不支持在各种集群管理器(Cluster Manager)上运行。
判断题Cluster Manager负责整个集群的统一资源管理,Worker节点中的Executor是应用执行的主要进程,内部含有多个Task线程以及内存空间。
判断题在数据科学应用中,数据工程师可以利用Spark进行数据分析与建模。
判断题Spark计算框架在处理数据时,所有的中间数据都保存在磁盘中。
判断题Worker Node为执行器的工作单元。
多项选择题下列选项中,属于Spark生态圈的组件有()。
A.Spark SQLB.Spark StreamingC.GraphXD.MLlib
多项选择题下列选项中,属于RDD行动算子的有()。
A.foreach(func)B.collect()C.take(n)D.reduceByKey()
多项选择题Spark编程支持的语言有()。
A.JavaB.JavaScriptC.RD.Scala
单项选择题下列选项中,用于提交和监控Task任务的是()。
A.DAG SchedulerB.Task SchedulerC.Cluster ManagerD.SparkContext
单项选择题在Spark运行过程中,每个Job可以划分为更小的Task集合,每组任务被称为()。
A.DAGB.BlockC.ApplicationD.Stage
单项选择题Spark集群的任务是由()进行调度的。
A.驱动器B.执行器C.集群管理器D.应用管理器
单项选择题持久化RDD的存储级别中,将RDD分区全部存储到磁盘上的存储级别是()。
A.MEMORY_ONLYB.MEMORY_AND_DISKC.DISK_ONLYD.MEMORY_ONLY_SER
单项选择题在RDD的转换算子中,用于将每个元素传递到函数func中,并将结果返回为一个新的数据集的转换算子是()。
A.filter()B.groupByKey()C.reduceByKey()D.map()
单项选择题下列选项,不属于集群管理器的有()。
A.Hadoop YarnB.Apache MesosC.LocalD.Spark自带的独立调度器