A.C语言 B.C++ C.java D.Scala
单项选择题大数据的最显著特征是()。
A.数据规模大 B.数据类型多样 C.数据处理速度快 D.数据价值密度高
单项选择题下列有关RDD的说法中错误的是()。
A.RDD是一个只读的,可分区的分布式数据集。 B.RDD默认存储在磁盘,当磁盘不足时,溢写到内存。 C.RDD数据以分区的形式在集群中存储。 D.RDD具有血统机制,发生数据丢失时,可快速进行数据恢复。
单项选择题Map与Reduce之间的关系是()。
A.Map的输出=Reduce的输出 B.Map的输入=Reduce的输出 C.Map的输出=Reduce的输入 D.Map的输入=Reduce的输入
单项选择题HDFS中默认块的大小为()。
A.32MB B.64MB C.128MB D.128GB
单项选择题HDFS读取流程中,共读取()次。
A.1 B.2 C.3 D.4
单项选择题大数据数据类型中,非结构化数据占总数据量的()。
A.10%-20% B.50%-60% C.70%-80% D.80%-90%
多项选择题下面关于大数据的解说正确的是()。
A.大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。 B.大数据是人们获得新的认知、创造新的价值的源泉。 C.大数据还是改变市场、组织机构,以及政府与公民关系的方法。 D.无效的数据越来越多。
多项选择题哪些属于HDFS架构包含的主要部分()。
A.NameNode B.DateNode C.Block D.Client
多项选择题关于spark说法正确的是()。
A.调用RDD的Transformation算子可以立即发起job B.NodeManager负责整个集群的资源统一调度和分配。 C.Yarn-client适合测试,Yarn-cluster适合生产。 D.Dataset具有RDD和DataFrame的优点,又避免它们的缺点。
多项选择题MapReduce的计算过程中,Shuffle阶段对Map Task的输出进行的处理包括()。
A.分区 B.排序 C.组合 D.合并
多项选择题RDD的Transformation不包括以下哪些操作()。
A.map B.filter C.save D.count
多项选择题下列说法正确的是()。
A.非结构化数据包括图片、位置信息、网络日志、模型、文档以及关系数据库中的数据。 B.Container是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU等。 C.HDFS的写入流程中,客户端通过自有协议向各个DataNode写入数据。 D.ApacheSpark是一种基于内存的快速、通用、可扩展的大数据计算引擎。
多项选择题以下属于Hadoop的安装模式是()。
A.单机模式 B.伪分布式模式 C.多机模式 D.分布式模式
多项选择题下面关于Storm和Spark Streaming说法正确的是()。
A.Strom实时计算延迟度为毫秒级 B.Strom吞吐量高 C.SparkStreaming不支持且完善事务机制 D.SparkStreaming支持动态调整并行度
多项选择题消息传输保障通常有以下几种?()
A.最多一次 B.任意几次 C.最少一次 D.仅有一次