A.调用RDD的Transformation算子可以立即发起job B.NodeManager负责整个集群的资源统一调度和分配。 C.Yarn-client适合测试,Yarn-cluster适合生产。 D.Dataset具有RDD和DataFrame的优点,又避免它们的缺点。
多项选择题MapReduce的计算过程中,Shuffle阶段对Map Task的输出进行的处理包括()。
A.分区 B.排序 C.组合 D.合并
多项选择题RDD的Transformation不包括以下哪些操作()。
A.map B.filter C.save D.count
多项选择题下列说法正确的是()。
A.非结构化数据包括图片、位置信息、网络日志、模型、文档以及关系数据库中的数据。 B.Container是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU等。 C.HDFS的写入流程中,客户端通过自有协议向各个DataNode写入数据。 D.ApacheSpark是一种基于内存的快速、通用、可扩展的大数据计算引擎。
多项选择题以下属于Hadoop的安装模式是()。
A.单机模式 B.伪分布式模式 C.多机模式 D.分布式模式
多项选择题下面关于Storm和Spark Streaming说法正确的是()。
A.Strom实时计算延迟度为毫秒级 B.Strom吞吐量高 C.SparkStreaming不支持且完善事务机制 D.SparkStreaming支持动态调整并行度