A.轮廓系数 B.共性分类相关系数 C.熵 D.F度量
多项选择题在分类问题中,我们经常会遇到正负样本数据量不等的情况,比如正样本为10w条数据,负样本只有1w条数据,以下最合适的处理方法是()?
A.将负样本重复10次,生成10w样本量,打乱顺序参与分类 B.直接进行分类,可以最大限度利用数据 C.从10w正样本中随机抽取1w参与分类 D.将负样本每个权重设置为10,正样本权重为1,参与训练过程
多项选择题在统计模式识分类问题中,当先验概率未知时,可以使用()?
A.最小损失准则 B.N-P判决 C.最小最大损失准则 D.最小误判概率准则
多项选择题在整个随机森林的算法过程中,以下哪两个随机过程可使随机森林很大程度上避免了过拟合现象的出现?()
A.构建决策树输入数据的随机选取 B.构建决策树分裂节点的随机选取 C.构建决策树树的数量的随机选取 D.构建决策树所需特征的随机选取
多项选择题假定某同学使用Naive Bayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中正确的是?()
A.这个被重复的特征在模型中的决定作用会被加强 B.模型效果相比无重复特征的情况下精确度会降低 C.如果所有特征都被重复一遍,得到的模型预测结果相对于不重复的情况下的模型预测结果一样 D.当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题
多项选择题关于线性回归的描述,以下正确的有?()
A.基本假设包括随机干扰项是均值为0,方差为1的标准正态分布 B.基本假设包括随机干扰项是均值为0的同方差正态分布 C.在违背基本假设时,普通最小二乘法估计量不再是最佳线性无偏估计量 D.在违背基本假设时,模型不再可以估计