判断题RDD是分布式的。
判断题RDD是可变数据集。
判断题当RDD内的元素需要建立JDBC连接时,可以使用mapPartition操作。
判断题当RDD内的元素需要建立JDBC连接时,可以使用map操作。
判断题Spark on K8s可以使用多种部署模式(deploy-mode)。
判断题Spark on Yarn的应用并行度受内存使用量影响。
判断题Spark on Yarn支持动态资源分配。
多项选择题下列选项中属于Alluxio特性的是()
A.缓存加速B.统一命名空间C.消除上层计算引擎与异构UFS间的访问差异D.在多个计算引擎间共享数据
多项选择题以下哪项属于Spark SQL的优化方式()
A.基于规则的优化B.基于代价的优化C.自适应优化D.基于索引的优化
多项选择题Spark SQL适合以下哪种场景()
A.ETLB.数据加工C.OLTPD.联机事务分析
多项选择题RDD依赖关系可分为()
A.宽依赖B.窄依赖C.胖依赖D.瘦依赖
多项选择题下列关于RDD的说法正确的是()
A.RDD是分区的B.RDD是可序列化的C.RDD可以修改D.RDD可以持久化
多项选择题可以使用如下哪种包管理工具构建Spark工程()
A.MavenB.SBTC.ModD.Cargo
多项选择题Spark官方API中常用于统计分析的语言是()
A.PythonB.RC.C++D.Go
单项选择题Alluxio检查一致性的命令是()
A.alluxio checkConsistencyB.alluxio -checkConsistencyC.alluxio fs checkConsistencyD.alluxio fs -checkConsistency