单项选择题

大数据数据类型中，非结构化数据占总数据量的（）。……

大数据数据类型中，非结构化数据占总数据量的（）。

A.10%-20%
B.50%-60%
C.70%-80%
D.80%-90%

<上一题目录下一题>

热门试题

多项选择题下面关于大数据的解说正确的是（）。

A.大数据是人们在大规模数据的基础上可以做到的事情，而这些事情在小规模数据的基础上是无法完成的。
B.大数据是人们获得新的认知、创造新的价值的源泉。
C.大数据还是改变市场、组织机构，以及政府与公民关系的方法。
D.无效的数据越来越多。

多项选择题哪些属于HDFS架构包含的主要部分（）。

A.NameNode
B.DateNode
C.Block
D.Client

多项选择题关于spark说法正确的是（）。

A.调用RDD的Transformation算子可以立即发起job
B.NodeManager负责整个集群的资源统一调度和分配。
C.Yarn-client适合测试，Yarn-cluster适合生产。
D.Dataset具有RDD和DataFrame的优点，又避免它们的缺点。

多项选择题MapReduce的计算过程中，Shuffle阶段对Map Task的输出进行的处理包括（）。

A.分区
B.排序
C.组合
D.合并

多项选择题RDD的Transformation不包括以下哪些操作（）。

A.map
B.filter
C.save
D.count

多项选择题下列说法正确的是（）。

A.非结构化数据包括图片、位置信息、网络日志、模型、文档以及关系数据库中的数据。
B.Container是YARN中的资源抽象，它封装了某个节点上的多维度资源，如内存、CPU等。
C.HDFS的写入流程中，客户端通过自有协议向各个DataNode写入数据。
D.ApacheSpark是一种基于内存的快速、通用、可扩展的大数据计算引擎。

多项选择题以下属于Hadoop的安装模式是（）。

A.单机模式
B.伪分布式模式
C.多机模式
D.分布式模式

多项选择题下面关于Storm和Spark Streaming说法正确的是（）。

A.Strom实时计算延迟度为毫秒级
B.Strom吞吐量高
C.SparkStreaming不支持且完善事务机制
D.SparkStreaming支持动态调整并行度

多项选择题消息传输保障通常有以下几种？（）

A.最多一次
B.任意几次
C.最少一次
D.仅有一次

多项选择题Flink特点（）。

A.流处理引擎
B.容错，可靠性
C.可扩展性，1000节点以上
D.低吞吐量，高延迟

多项选择题Loader特点（）。

A.图形化
B.高性能
C.安全
D.实时更新

多项选择题Streaming与SparkStreaming的区别有哪些（）。

A.SparkStreaming的吞吐量高于Streaming
B.SparkStreaming实时性高于Streaming
C.Streaming的事件实时处理
D.SparkStreaming的事件实时处理

多项选择题HBase适合具有如下需求的应用（）。

A.海量数据
B.低吞吐量
C.能够同时处理结构化和非结构化数
D.需要良好的性能伸缩能力

多项选择题HDFS适合如下哪些工作（）。

A.大文件的存储与访问
B.随机写入
C.流式数据访问
D.低延迟读取

多项选择题zookeeper关键特性有哪些（）。

A.原子性
B.最终一致性
C.实时性
D.可靠性