判断题RDD的分区原则是分区的个数尽量等于集群中的CPU核心(Core)数目。
判断题Application中包含了多个驱动器(Driver)进程和集群上的单个执行器(Executor)进程。
判断题flatMap(func)与map(func)相似,应用于(Key,Value)键值对的数据集时,返回一个新的Key,Iterable。
判断题Spark可以运行在Hadoop模式、Mesos模式、Standalone独立模式或Cloud中。
判断题Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分析引擎,它是基于内存计算的大数据并行计算框架,适用于各种各样的分布式平台的系统。
判断题RDD的持久化操作有两种方法,分别是cache()方法和persist()方法。
判断题对于迭代式计算和交互式数据挖掘,RDD可以将中间计算的数据结果保存在本地磁盘中,若是后面需要中间结果参与计算时,则可以直接从磁盘中读取,从而可以极大地提高计算速度。
判断题Spark不支持在各种集群管理器(Cluster Manager)上运行。
判断题Cluster Manager负责整个集群的统一资源管理,Worker节点中的Executor是应用执行的主要进程,内部含有多个Task线程以及内存空间。
判断题在数据科学应用中,数据工程师可以利用Spark进行数据分析与建模。
判断题Spark计算框架在处理数据时,所有的中间数据都保存在磁盘中。
判断题Worker Node为执行器的工作单元。
多项选择题下列选项中,属于Spark生态圈的组件有()。
A.Spark SQLB.Spark StreamingC.GraphXD.MLlib
多项选择题下列选项中,属于RDD行动算子的有()。
A.foreach(func)B.collect()C.take(n)D.reduceByKey()
多项选择题Spark编程支持的语言有()。
A.JavaB.JavaScriptC.RD.Scala