判断题Spark使用sortMergeJoin处理多个大表关联。
判断题Spark SQL中,广播关联往往是速度最快的。
判断题Spark SQL支持基于规则的优化。
判断题RDD是分布式的。
判断题RDD是可变数据集。
判断题当RDD内的元素需要建立JDBC连接时,可以使用mapPartition操作。
判断题当RDD内的元素需要建立JDBC连接时,可以使用map操作。
判断题Spark on K8s可以使用多种部署模式(deploy-mode)。
判断题Spark on Yarn的应用并行度受内存使用量影响。
判断题Spark on Yarn支持动态资源分配。
多项选择题下列选项中属于Alluxio特性的是()
A.缓存加速B.统一命名空间C.消除上层计算引擎与异构UFS间的访问差异D.在多个计算引擎间共享数据
多项选择题以下哪项属于Spark SQL的优化方式()
A.基于规则的优化B.基于代价的优化C.自适应优化D.基于索引的优化
多项选择题Spark SQL适合以下哪种场景()
A.ETLB.数据加工C.OLTPD.联机事务分析
多项选择题RDD依赖关系可分为()
A.宽依赖B.窄依赖C.胖依赖D.瘦依赖
多项选择题下列关于RDD的说法正确的是()
A.RDD是分区的B.RDD是可序列化的C.RDD可以修改D.RDD可以持久化