A.spark.yarn.queueB.spark.yarn.lineC.spark.yarn.seatD.spark.yarn.priority
单项选择题以下哪项不属于Spark组件()
A.Spark SQLB.Spark StreamingC.PySparkD.SparkC
单项选择题RDD的默认Storage Level是()
A.MEMORY_ONLYB.MEMORY_AND_DISKC.MEMORY_ONLY_SERD.MEMORY_AND_DISK_SER
单项选择题sc是已创建的SparkContext实例,data是已创建的数组,使用data创建RDD的代码是()
A.sc.fromArray(data)B.sc.parallelize(data)C.sc.copyFromArray(data)D.sc.rdd(data)
单项选择题下列Spark算子中不会产生shuffle的算子是()
A.mapB.distinctC.groupByKeyD.reduceByKey
单项选择题Spark用于描述RDD依赖关系的模型是()
A.DAGB.DBGC.DCGD.DDG
单项选择题以下哪项不属于Spark SQL的关联类型()
A.BroadcastJoinB.ShuffledHashJoinC.SortMergeJoinD.StreamHashJoin
单项选择题下列哪项可作为spark.sql.orc.impl参数的值()
A.arrowB.orc1.5C.nativeD.orc1.6
单项选择题spark.sql.autoBroadcastJoinThreshold参数的默认值是()
A.5MBB.10MBC.15MBD.20MB
单项选择题以下不属于spark.sql.parquet.compression.codec可选值的是()
A.snappyB.gzipC.lz4D.rar
单项选择题df是已创建的DataFrame实例,写入parquet文件的正确代码是()
A.df.write.format("parquet")B.df.write("parquet")C.df.parquetD.df.write.format.parquet
单项选择题spark是已创建的SparkSession实例,读取json文件的正确代码是()
A.spark.read.format("json")B.spark.read("json")C.spark.jsonD.spark.read.format.json
单项选择题Dataset创建临时表的方法()
A.createOrReplaceTempTableB.createOrReplaceTempViewC.createOrReplaceViewD.createOrReplaceTable
单项选择题Spark2.0版本之后,DataFrame类与Dataset类的关系是()
A.DataFrame是Dataset的特例B.DataFrame是Dataset的别名C.DataFrame与Dataset没有关系D.Dataset是DataFrame的特例
单项选择题语句“SELECT date_format(’2016-04-08’,’y’);”的结果是()
A.2016-04-08B.2016/04/08C.2016D.2016-01-01
单项选择题语句“SELECT slice(array(1,2,3,4),-2,2);”的结果是()
A.[2,3]B.[3,4]C.[1,2]D.[1,4]