20Newsgroups数据集是机器学习研究中常用的标准数据集,它使用20个Usenet新闻单位上几个月发布的18828个消息,共18828个文件,如果对该数据集使用mahout进行文本分类,分类后得到的混淆矩阵中,部分结果如下图所示:图中第一行是类别名称,第二行是属于a类的分类情况(a类文本原有168篇),第三行是属于b类的分类情况(b类文本原有180篇),第四行是c类的分类情况(c类文本原有189篇),根据各行的分类情况,以下分析正确的是()
A.分类算法对a类文本分类情况较好 B.分类算法对c类文本分类情况较好 C.分类算法对b类文本分类情况较好 D.分类算法对c类文本分类情况较差
多项选择题SparkStreaming可以对多种数据源()进行类似Map、Reduce和Join等复杂操作。
A.Kdfka B.Flume C.Twitter D.Zero
多项选择题以下属于MLlib中能够实的接口有()
A.KMeans B.SVMWithSGD C.ALS D.LinearRegressionWithSGD
多项选择题对于MLlib中向量与LabledPoint,以下描述正确的是()
A.LabledPoint是一种基于向量扩展得到的数据结构 B.向量既可以是本地的也可以是分布式的 C.MLlib中既可以定义稀疏向量也可以定义密集向量 D.在LabledPoint中除了包含一个向量成员外,还包含一个Double类型的标识成员
多项选择题对MLlib的特点描述正确的是()
A.运算速度快,适用于具有较多迭代次数的算法 B.具有易用性,RDD中封装了大量的操作,ᨀ供了经典机器学习算法的API C.集成度高,能够与Spark上的其他组件进行无缝对接 D.运行原理是将Spark程序转换为MapReduce程序运行,并行度高
多项选择题以下对于GraphX中triangleCount()的描述错误的是()
A.用以实现三角形计数功能 B.返回的数据是顶点集合 C.要求边是规范的指向(srcId〈dstId) D.返回的数据是图