在Spark中,假设lines是一个DStream对象,filter语句可以过滤掉80%的数据,针对以下两个语句说法正确的是:() X:lines.filter(...).groupByKey(...) Y:lines.groupByKey(...).filter(...)
A.X比Y的性能更高 B.X比Y的性能更低 C.X和Y和性能一样 D.无法确性X和丫的性能差异
单项选择题存在如下场景:每天由线上系统产生新数据500G,需要对这些数据按天、周、月等维度做统计汇总。请问它适合用Hive哪种表来处理?()
A.分桶表,按照天分桶 B.分区表,按天分区 C.倾斜表,倾斜字段选择日期,倾斜值随机 D.分区+分桶表,按照时间分区,每个分区2560个桶
多项选择题在线日志查询方案中,采用了流处理来完成计算工作,整个计算过程中,需要将中间计算结果暂时存放,下列哪些组件适合存放中间计算结果?()
A.HDfS B.HBase C.Kafka D.Redis
多项选择题FusionInsight HD中,哪些组件对外提供SQL或类SQL能力?()
A.HBase B.Hive C.Spark D.Redis
多项选择题对HBase的列族,可以设置如下哪些属性?()
A.Versions B.TTL C.Coprocessor D.Compression
多项选择题FusionInsigt HD中,一个应用程序若要完成Kerberos安全认证,以下哪些选项是必须用到的?()
A.krb5.conf配置文件 B.在FusionInsight Manager上申请的用户账号 C.用户账号的keytab文件 D.jaas.conf