知识发掘处理(Knowledge Discovery Process)的执行顺序,下列何者是正确的()A:数据清洗B:数据选择C:数据编码D:数据扩充E:数据挖掘F:结果呈现
A.D→C→A→B→E→FB.A→B→C→D→E→FC.D→A→C→B→E→FD.B→A→D→C→E→F
单项选择题数据挖掘的发展历程,下列何者是正确的()A:数据统计B:数据挖掘C:数据查询D:数据搜集
A.D→C→A→BB.A→B→C→DC.D→A→C→BD.C→D→A→B
单项选择题下列何者不是聚类分析的算法()
A.Two-StepB.FP-GrowthC.Centroid MethodD.Ward‘s Method
单项选择题下列何种算法可以了解各产品间的先后购买的关系及概率值()
A.关联规则(AssociationRules)B.序列模式(Sequential Patterns)C.时间序列(Time Series)D.聚类分析(Cluster Analysis)
单项选择题在KNN算法上进行预测概率的推估时,会采用哪一种方法,以保证每一类的预测概率不为0()
A.数据正规化(Data Normalization)B.拉普拉斯修正法(Laplace Correction)C.数据一般化(Data Generalization)D.以上皆非
多项选择题20Newsgroups数据集是机器学习研究中常用的标准数据集,它使用20个Usenet新闻单位上几个月发布的18828个消息,共18828个文件,如果要对该数据集使用mahout进行文本分类,错误的做法是()
A.直接使用mahout算法,在namenode机器的本地文件系统中调用这18828个文件 B.将这18828个文件上传到hdfs上,然后使用mahout算法分析 C.使用mahoutᨀ供的seqdirectory命令将18828个文件序列化成一个大文件上传到hdfs上,然后使用mahout算法分析 D.将这18828个文件rar压缩软件将其压缩成一个大文件上传到hdfs上,然后使用mahout算法分析