多项选择题

20Newsgroups数据集是机器学习研究中常用的标准数据集，它使用20个Usenet新闻单位上几个月发布的18828个消息，共18828个文件，如果对该数据集使用mahout进行文本分类，分类后得到的混淆矩阵中，部分结果如下图所示：图中第一行是类别名称，第二行是属于a类的分类情况（a类文本原有168篇），第三行是属于b类的分类情况（b类文本原有180篇），第四行是c类的分类情况（c类文本原有189篇），根据各行的分类情况，以下分析正确的是（）

A.分类算法对a类文本分类情况较好
B.分类算法对c类文本分类情况较好
C.分类算法对b类文本分类情况较好
D.分类算法对c类文本分类情况较差

<上一题目录下一题>

热门试题

多项选择题SparkStreaming可以对多种数据源（）进行类似Map、Reduce和Join等复杂操作。

A.Kdfka
B.Flume
C.Twitter
D.Zero

多项选择题以下属于MLlib中能够实的接口有（）

A.KMeans
B.SVMWithSGD
C.ALS
D.LinearRegressionWithSGD

多项选择题对于MLlib中向量与LabledPoint，以下描述正确的是（）

A.LabledPoint是一种基于向量扩展得到的数据结构
B.向量既可以是本地的也可以是分布式的
C.MLlib中既可以定义稀疏向量也可以定义密集向量
D.在LabledPoint中除了包含一个向量成员外，还包含一个Double类型的标识成员

多项选择题对MLlib的特点描述正确的是（）

A.运算速度快，适用于具有较多迭代次数的算法
B.具有易用性，RDD中封装了大量的操作，ᨀ供了经典机器学习算法的API
C.集成度高，能够与Spark上的其他组件进行无缝对接
D.运行原理是将Spark程序转换为MapReduce程序运行，并行度高

多项选择题以下对于GraphX中triangleCount（）的描述错误的是（）

A.用以实现三角形计数功能
B.返回的数据是顶点集合
C.要求边是规范的指向（srcId〈dstId）
D.返回的数据是图