A.ResourceManager B.NodeManager C.ApplicationMaster D.Jobtracker
单项选择题spark是用以下哪种编程语言实现的()。
A.C语言 B.C++ C.java D.Scala
单项选择题大数据的最显著特征是()。
A.数据规模大 B.数据类型多样 C.数据处理速度快 D.数据价值密度高
单项选择题下列有关RDD的说法中错误的是()。
A.RDD是一个只读的,可分区的分布式数据集。 B.RDD默认存储在磁盘,当磁盘不足时,溢写到内存。 C.RDD数据以分区的形式在集群中存储。 D.RDD具有血统机制,发生数据丢失时,可快速进行数据恢复。
单项选择题Map与Reduce之间的关系是()。
A.Map的输出=Reduce的输出 B.Map的输入=Reduce的输出 C.Map的输出=Reduce的输入 D.Map的输入=Reduce的输入
单项选择题HDFS中默认块的大小为()。
A.32MB B.64MB C.128MB D.128GB
单项选择题HDFS读取流程中,共读取()次。
A.1 B.2 C.3 D.4
单项选择题大数据数据类型中,非结构化数据占总数据量的()。
A.10%-20% B.50%-60% C.70%-80% D.80%-90%
多项选择题下面关于大数据的解说正确的是()。
A.大数据是人们在大规模数据的基础上可以做到的事情,而这些事情在小规模数据的基础上是无法完成的。 B.大数据是人们获得新的认知、创造新的价值的源泉。 C.大数据还是改变市场、组织机构,以及政府与公民关系的方法。 D.无效的数据越来越多。
多项选择题哪些属于HDFS架构包含的主要部分()。
A.NameNode B.DateNode C.Block D.Client
多项选择题关于spark说法正确的是()。
A.调用RDD的Transformation算子可以立即发起job B.NodeManager负责整个集群的资源统一调度和分配。 C.Yarn-client适合测试,Yarn-cluster适合生产。 D.Dataset具有RDD和DataFrame的优点,又避免它们的缺点。