存在如下业务场景:用户上网日志文件已经存放在HDFS上,日志文件内容格式是:每条上网记录三个字段,分别是姓名,性别,上网时间,字段之间用“,”护分隔;要求打印输出所有上网总时间大于两小时的女性网友。请问如下哪些代码片段能实现上述业务场景?()
A.A B.B C.C D.D
多项选择题在Kafka中,如下关于Producer发送数据的说法错误的是?()
A.Producer负责生产数据,Consumer负责消费数据,Producer和Consumer之间需要建立Socket链接 B.Producer既可以发送数据到Broker上,又可以发送数据到Consumer上 C.Producer作为消息生产者,可以直接将数据写入Zookeeper D.Producer连接任意一个正常的Broker实例就可以生产数据
多项选择题在Solr的应用查询场景中,当对查询结果深度翻页时,需使用游标进行深度翻页。下面对游标说法正确的是?()
A.必须对查询字段进行排序 B.必须对uniqueKey字段进行排序 C.第一次查询请求时,需指定查询参数,操作方法如下,solrQuery.set(CursorMarkParams.CURSOR_MARK_PARAMCursorMarkParams.CURSOR_MARK_START) D.查询时,请求中不能带有start参数,Solr的返回结果中会有nextCursorMark,在下次调动使用这个值为oursorMark
单项选择题在Spark应用开发中,以下哪项的代码能正确进行单词统计?()
A.valcounts=textFile.map(line=>line.split(“”)).map(-rd=>(word,1)).reduceByKey(_+_) B.valcounts=textFile.flatMap(line=>line.split(“”)).map(word=>(word,1)).reduceByKey(_+_) C.valcounts=textFile.map(line=>line.split(“”)).map(word=>(word,1)).groupByKey(_+_) D.valcounts=textFile.flatMap(line=>line.split(“”)).map(word=>(word,1)).groupByKey(_+_)
单项选择题Fiume支持实时采集数据的source类型是哪项?()
A.taildir B.Log4j C.JMS D.Thrift
多项选择题Fusionlnsight HD关于Oozie的作业操作命令,下列哪几项叙述是正确的?()
A.submit命令可以让作业的状态变为PREP B.statr命令可以让PREP状态的作业变为RUNNING C.run命令可以让作业状态变为Running D.kill命令可以作用在PREP/SUSPEND/RUNNING状态的作业上