A.seqdirectory B.seq2sparse C.trainnb D.trainlogistic
多项选择题下列关于大数据的分析理念的说法中,正确的是()
A.在数据基础上倾向于全体数据而不是抽样数据 B.在分析方法上更注重相关分析而不是因果分析 C.在分析效果上更追究效率而不是绝对精确 D.在数据规模上强调相对数据而不是绝对数据
多项选择题数据清洗的方法包括()
A.缺失值处理 B.噪声数据清除 C.一致性检查 D.重复数据记录处理
多项选择题20Newsgroups数据集是机器学习研究中常用的标准数据集,它使用20个Usenet新闻单位上几个月发布的18828个消息,共18828个文件,如果对该数据集使用mahout进行文本分类,分类后得到的混淆矩阵中,部分结果如下图所示:图中第一行是类别名称,第二行是属于a类的分类情况(a类文本原有168篇),第三行是属于b类的分类情况(b类文本原有180篇),第四行是c类的分类情况(c类文本原有189篇),根据各行的分类情况,以下分析正确的是()
A.分类算法对a类文本分类情况较好 B.分类算法对c类文本分类情况较好 C.分类算法对b类文本分类情况较好 D.分类算法对c类文本分类情况较差
多项选择题SparkStreaming可以对多种数据源()进行类似Map、Reduce和Join等复杂操作。
A.Kdfka B.Flume C.Twitter D.Zero
多项选择题以下属于MLlib中能够实的接口有()
A.KMeans B.SVMWithSGD C.ALS D.LinearRegressionWithSGD