A.大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。 B.大数据是人们获得新的认知、创造新的价值的源泉。 C.大数据还是改变市场、组织机构,以及政府与公民关系的方法。 D.无效的数据越来越多。
多项选择题哪些属于HDFS架构包含的主要部分()。
A.NameNode B.DateNode C.Block D.Client
多项选择题关于spark说法正确的是()。
A.调用RDD的Transformation算子可以立即发起job B.NodeManager负责整个集群的资源统一调度和分配。 C.Yarn-client适合测试,Yarn-cluster适合生产。 D.Dataset具有RDD和DataFrame的优点,又避免它们的缺点。
多项选择题MapReduce的计算过程中,Shuffle阶段对Map Task的输出进行的处理包括()。
A.分区 B.排序 C.组合 D.合并
多项选择题RDD的Transformation不包括以下哪些操作()。
A.map B.filter C.save D.count
多项选择题下列说法正确的是()。
A.非结构化数据包括图片、位置信息、网络日志、模型、文档以及关系数据库中的数据。 B.Container是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU等。 C.HDFS的写入流程中,客户端通过自有协议向各个DataNode写入数据。 D.ApacheSpark是一种基于内存的快速、通用、可扩展的大数据计算引擎。
多项选择题以下属于Hadoop的安装模式是()。
A.单机模式 B.伪分布式模式 C.多机模式 D.分布式模式
多项选择题下面关于Storm和Spark Streaming说法正确的是()。
A.Strom实时计算延迟度为毫秒级 B.Strom吞吐量高 C.SparkStreaming不支持且完善事务机制 D.SparkStreaming支持动态调整并行度
多项选择题消息传输保障通常有以下几种?()
A.最多一次 B.任意几次 C.最少一次 D.仅有一次
多项选择题Flink特点()。
A.流处理引擎 B.容错,可靠性 C.可扩展性,1000节点以上 D.低吞吐量,高延迟
多项选择题Loader特点()。
A.图形化 B.高性能 C.安全 D.实时更新