A.Spark ShellB.Spark StreamingC.Spark SQLD.BlinkDB
单项选择题将RDD((’a’,1),(’b’,1))和RDD((’a’,1),(’d’,1))连接,得到RDD((’a’,1),(’b’,1,Some(None)),是以下哪种连接方法?()
A.fullOuterJionB.joinC.leftOuterJoinD.rightOuterJoin
单项选择题运行在Worker的Task执行器是()。
A.sparkcontextB.ExecutorC.DriverD.Worker
单项选择题spark中控制整个生命周期的是()。
A.sparkcontextB.taskC.DriverD.Worker
单项选择题使用union和join连接RDD((’a’,1),(’b’,1))和RDD((’a’,1),(’b’,1))的结果分别为哪项?()
A.都为((’a’,1),(’b’,1),(’a’,1),(’b’,1))B.都为((’a’,1),(’b’,1))C.union为((’a’,1),(’b’,1),(’a’,1),(’b’,1)),join为((’a’,(1,1)),(’b’,(1,1)))D.join为((’a’,1),(’b’,1),(’a’,1),(’b’,1)),union为((’a’,(1,1)),(’b’,(1,1)))
单项选择题下面哪种按键操作的方法返回值可以与输入类型不同?()
A.reduceByKeyB.combineByKeyC.sortByKeyD.groupByKey
单项选择题下面哪一组全部都是转化操作?()
A.map,take,reduceByKeyB.map,filter,collectC.map,zip,reduceBykeyD.join,map,take
多项选择题关于Spark streaming和storm描述正确的是?()
A.Storm逐条处理数据,而streaming有一定的时间窗口B.storm是亚秒级,而streaming有一定的延迟C.storm和streaming都是由scala开发D.streaming可以完全替代storm
多项选择题Spark Streaming的数据来源有哪些?()
A.KafkaB.FlumeC.HDFSD.Twitter/Kinesis
多项选择题Spark Streaming具有哪些特性?()
A.可伸缩B.高吞吐量C.容错D.实时流处理
多项选择题关于spark应用程序部署,描述正确的有()。
A.使用java开发的spark程序,需要编译,部署到服务器执行B.使用scala开发的spark程序,需要编译,部署到服务器执行C.使用python开发的spark程序,需要编译,部署到服务器执行D.使用scala开发的spark程序,不需要编译,直接部署到服务器执行
多项选择题开发spark应用程序,常用的开发语言有哪些?()
A.PythonB.ScalaC.JavaD.objectC
多项选择题对于spark开发环境搭建,所依赖的环境必须要有哪些?()
A.jdkB.scalaC.pythonD.spark
多项选择题在spark中,以下选项,描述正确的有()。
A.一个应用程序,可能会有多个jobB.一个job,可能对应一个stageC.一个stage,可能会对应多个taskD.一个job,可能对应多个stage
多项选择题关于spark可视化程序,默认端口,描述正确的有()。
A.8080显示master运行情况B.4040可以看到job相关的信息C.8081显示的是worker运行的情况D.4040可以看到storage相关的信息
多项选择题Spark RDD持久化存储数据来源,有哪些?()
A.HDFSB.CassandraC.HbaseD.S3