相关考题
判断题 一个进程中只能有一个线程在工作,可以处理多个数据分区(例如运...
判断题 DAG是一种非常重要的图论数据结构。
判断题 join算子操作既可以属于窄依赖,也可以属于宽依赖。
判断题 Hadoop的MapReduce进行计算时,每次产生的中间结果都是存储在内...
判断题 RDD采用了惰性调用。
判断题 RDD的分区原则是分区的个数尽量等于集群中的CPU核心(Core)数目...
判断题 Application中包含了多个驱动器(Driver)进程和集群上的单个执...
判断题 flatMap(func)与map(func)相似,应用于(Key,Value)键值对...
判断题 Spark可以运行在Hadoop模式、Mesos模式、Standalone独立模式或Cl...
判断题 Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分...
判断题 RDD的持久化操作有两种方法,分别是cache()方法和persist()...
判断题 对于迭代式计算和交互式数据挖掘,RDD可以将中间计算的数据结果...
判断题 Spark不支持在各种集群管理器(Cluster Manager)上运行。
判断题 Cluster Manager负责整个集群的统一资源管理,Worker节点中的Ex...
判断题 在数据科学应用中,数据工程师可以利用Spark进行数据分析与建模。
判断题 Spark计算框架在处理数据时,所有的中间数据都保存在磁盘中。
判断题 Worker Node为执行器的工作单元。
多项选择题 下列选项中,属于Spark生态圈的组件有()。
多项选择题 下列选项中,属于RDD行动算子的有()。
多项选择题 Spark编程支持的语言有()。
单项选择题 下列选项中,用于提交和监控Task任务的是()。
单项选择题 在Spark运行过程中,每个Job可以划分为更小的Task集合,每组任务...
单项选择题 Spark集群的任务是由()进行调度的。
单项选择题 持久化RDD的存储级别中,将RDD分区全部存储到磁盘上的存储级别是...
单项选择题 在RDD的转换算子中,用于将每个元素传递到函数func中,并将结果...
单项选择题 下列选项,不属于集群管理器的有()。
单项选择题 在RDD的转换算子中,主要用于(Key,Value)键值对的数据集,将...
单项选择题 Spark与Hadoop在基于内存的运算中,说法正确的是()。
单项选择题 在Spark RDD中,划分Stage的依据是()。
单项选择题 如果一个有向图无法从任意顶点出发经过若干条边回到该点,则这个...
单项选择题 在RDD的行动算子中,用于用于返回数组的第一个元素的行动算子是()。
单项选择题 下列选项中,可以支持Scala和Python编程的交互式解释器是()。
单项选择题 下列选项中,可以用于退出Spark-Shell客户端的命令是()。
填空题 Spark支持的操作可以分为Transformation和Action两种,其中()...
填空题 spark生态圈的核心是()。
填空题 scala中获取数组第一个元素可以用()。
填空题 scala中声明常量的关键词为()。
填空题 scala的REPL提供了()模式,用于粘贴大量的代码。
填空题 scala解释器也称为()。
填空题 词频TF(t,d)是指词语t在()中出现的次数。
填空题 标注点是一种()的本地向量。
填空题 本地向量分为稠密向量和()两种。
填空题 DataFrame操作中()操作可以实现条件查询。
填空题 DataFrame即带有()信息的RDD。
填空题 使用()方法重新设置RDD分区个数。
填空题 使用()方法将一个RDD标记为持久化。
填空题 py spark命令中参数()是使用k个Worker线程本地化运行spark。
填空题 py spark命令中参数()是使用一个Worker线程本地化运行spark。
填空题 spark支持4种不同类型的部署方式,包括()、Standalone、spark...
填空题 RDD是()的简称。
填空题 spark生态系统主要包括:()、spark SQL、()、Structured S...
填空题 大数据计算模式主要有:()、()、图计算和查询分析计算。
填空题 大数据的“4V”概念包含四个层面,分别是:()、数据类型繁多...
判断题 spark任务中,action算子只能有1个。
判断题 spark任务中如果没有Transformation算子,任务是不会执行的。
判断题 spark中要持久化一个RDD,只能调用其cache()方法。
判断题 spark中基于序列化的持久化方式,主要是为了减少内存空间的占用。
判断题 spark中的累加器可以实现优化性能,减少网络传输以及内存消耗。
判断题 spark中使用累加器的时候,只能在Driver进程中才能获取累加器的...
判断题 spark中的持久化,只是将数据保存在内存中或者本地磁盘文件中,R...
判断题 spark中在划分Stage的时候,遇到窄依赖就会划分出前后两个Stage...
判断题 RDD是spark提供的核心抽象,全称为Resillient Distributed Dat...
判断题 RDD是一个提供了许多操作接口的数据集合。
判断题 spark只支持用Scala语言进行开发。
判断题 scala是一种既面向函数又面向对象的语言。
判断题 scala中必须用return关键字指明返回值。
判断题 scala中可以支持匿名函数。
判断题 scala中常量的值可以修改。
判断题 scala中变量名可以使用美元符号($)。
判断题 scala中声明常量是必须显示的说明数据类型。
判断题 和Java一样,scala也有原生的数据类型。
判断题 MapReduce是一种分布式并行编程模型。
判断题 在对spark streaming的测试中,使用nc -lk 9999,可以向...
判断题 由于spark提供一站式的解决方案,而且spark streaming和apache...
判断题 编写spark应用程序,首先需要创建sparkcontext对象。
判断题 在spark对RDD的操作中,每个action操作,可以看成是一个job。
判断题 在spark的web图形界面master:4040,可以看到执行persist后...
判断题 在spark的web图形界面master:8080,可以看到master的运行情...
判断题 在spark中,如果RDD数据大于内存空间,那么执行persist()方法...
判断题 在spark中,对RDD的transformation操作,是延迟执行的。
判断题 在spark中,RDD的数据来源,可以是持久化的存储,也可以来自于RD...
判断题 在spark中,对RDD数据执行cache()方法,数据默认缓存在磁盘中...
判断题 在spark中,对rdd执行transformation操作后,现有的RDD并不会立...
判断题 spark运行模式中,local这种模式,可以应用于生产环境中。
判断题 spark运行模式中,on yarn这种模式,可以应用于生产环境中。
判断题 spark是由java语言开发。
判断题 spark是2009年诞生于伯克利大学AMPLab的基于内存计算框架。
多项选择题 下列关于DStream转换描述正确的是()。
多项选择题 下列关于RDD、DataFrame和DataSet描述正确的是()。
多项选择题 下列关于SparkSQL描述正确的是()。
多项选择题 下列关于DAG描述正确的是()。
多项选择题 下列属于rdd的创建方式的是()。
多项选择题 下列关于宽依赖和窄依赖描述正确的是()。
多项选择题 下列关于rdd描述正确的是()。
多项选择题 以下属于内置模块的是()。
单项选择题 下列关于spark从kafka 获取数据描述错误的是()。
单项选择题 下列不可以直接作为spatkStreaming数据源的是()。
单项选择题 下列关于累加器描述不正确的是()。
单项选择题 下列关于rdd分区描述错误的是()。
单项选择题 下列关于spark的cache算子默认缓存机制描述错误的是()。