填空题使用()方法重新设置RDD分区个数。
填空题使用()方法将一个RDD标记为持久化。
填空题py spark命令中参数()是使用k个Worker线程本地化运行spark。
填空题py spark命令中参数()是使用一个Worker线程本地化运行spark。
填空题spark支持4种不同类型的部署方式,包括()、Standalone、spark on Mesos和spark on YARN。
填空题RDD是()的简称。
填空题spark生态系统主要包括:()、spark SQL、()、Structured Streaming、spark Mlib和GraphX。
填空题大数据计算模式主要有:()、()、图计算和查询分析计算。
填空题大数据的“4V”概念包含四个层面,分别是:()、数据类型繁多、()和价值密度低。
判断题spark任务中,action算子只能有1个。
判断题spark任务中如果没有Transformation算子,任务是不会执行的。
判断题spark中要持久化一个RDD,只能调用其cache()方法。
判断题spark中基于序列化的持久化方式,主要是为了减少内存空间的占用。
判断题spark中的累加器可以实现优化性能,减少网络传输以及内存消耗。
判断题spark中使用累加器的时候,只能在Driver进程中才能获取累加器的结果。