判断题spark任务中,action算子只能有1个。
判断题spark任务中如果没有Transformation算子,任务是不会执行的。
判断题spark中要持久化一个RDD,只能调用其cache()方法。
判断题spark中基于序列化的持久化方式,主要是为了减少内存空间的占用。
判断题spark中的累加器可以实现优化性能,减少网络传输以及内存消耗。
判断题spark中使用累加器的时候,只能在Driver进程中才能获取累加器的结果。
判断题spark中的持久化,只是将数据保存在内存中或者本地磁盘文件中,RDD的lineage(血缘关系)是不变的。
判断题spark中在划分Stage的时候,遇到窄依赖就会划分出前后两个Stage。
判断题RDD是spark提供的核心抽象,全称为Resillient Distributed Dataset,只能通过文件创建。
判断题RDD是一个提供了许多操作接口的数据集合。
判断题spark只支持用Scala语言进行开发。
判断题scala是一种既面向函数又面向对象的语言。
判断题scala中必须用return关键字指明返回值。
判断题scala中可以支持匿名函数。
判断题scala中常量的值可以修改。