A.分布式文件系统 B.分布式并行计算 C.关系型数据库 D.分布式数据库
多项选择题关于Spark和Mapreduce,下列说法正确的是()。
A.性能上提升高于100倍(全内存计算) B.Spark的中间数据放在内存中,对于迭代运算、批处理计算的效率更高,延迟更低。 C.提供更多的数据集操作类型,编程模型更灵活,开发效率更高。 D.更低的容错能力(血统机制)。 E.Spark用十分之一的资源,获得10倍与Mapreduce的性能。
多项选择题下面关于行存储和列存储说法正确的是()。
A.行存储,数据按行存储在底层文件系统中。通常,每一行会被分配固定的空间。 B.列存储有利于增加/修改整行记录等操作;有利于整行数据的读取操作。 C.列存储整行读取时,可能需要多次I/O操作。
多项选择题FusionInsight HD系统高可靠性体现在哪些方面()。
A.所有组件无单点故障 B.所有管理节点HA C.软硬件健康状态监控 D.网络平面隔离
多项选择题有关HDFS说法正确的有()。
A.HDFS不适合存储大量小文件 B.HDFS不适合有低延迟数据访问要求的业务 C.HDFS适合流式数据访问 D.基于HDFS的应用应该使用WORN的数据读写模型编程
多项选择题数据挖掘的常见任务有()。
A.关联分析 B.聚类分析 C.回归 D.分类
多项选择题有关HBase说法正确的有()。
A.分布式 B.列式数据库 C.非关系型数据库 D.不适合存储非结构化数据
多项选择题hadoop的两大核心组件是()。
A.HDFS B.HBase C.ZooKeeper D.MapReduce
多项选择题以下哪个操作属于shuffle过程()。
A.Sort B.Combine C.Merge D.Partition
多项选择题在信息化过程中产生的大量数据,根据其产生来源可分为两类,这两类数据是()。
A.社交数据 B.互联网数据 C.机器数据 D.统计数据
多项选择题Yarn-client与Yarn-cluster的区别包含:()。
A.Yarn-client适合测试,Yarn-cluster适合生产。 B.Yarn-client适合生产,Yarn-cluster适合测试。 C.Yarn-client任务提交节点宕机,整个任务会失败。Yarn-cluster不会。 D.Yarn-cluster任务提交节点宕机,整个任务会失败。Yarn-client不会。
多项选择题以下哪些场景是Spark应用场景?()
A.机器学 B.交互式分析 C.增量修改 D.流处理
多项选择题Spark具有以下哪些特性?()
A.代码量少 B.处理速度快 C.有不同层面的灵活性 D.巧妙借力现有大数据组件
多项选择题MapReduce基于Google发布的MapReduce论文设计开发,其具有如下哪些特点?()
A.易于编程 B.高速度 C.良好的扩展性 D.高容错性
多项选择题HDFS其除具备其它分布式文件系统相同特性外,还有自己特有的特性,以下哪些是他的特性()?
A.高容错性 B.高吞吐量 C.高随机性 D.大文件存储
多项选择题大数据的特征有以下哪个?()
A.体量巨大 B.处理速度快 C.类型繁多 D.价值密度低