A.实际观测值与理论推断值之间的偏离程度就决定卡方值的大小B.卡方值越大,说明实际观测值和理论推断之偏差程度越大C.卡方检验是一种假设检验D.卡方检验主要针对连续变量
单项选择题在关键词的撷取中为什么要引入逆向文本频率idf ()
A.在越多的文章中出现过,说明重要性越高,则进行加权B.在越多的文章中出现过的次数越多,说明对我们的分析和统计没什么帮助,利用该数值进行降权C.一个词在一篇文章中出现的次数越多,说明越重要,利用该指数进行加权D.一个词如果是常用词,则统计时说明很重要,进行加权
单项选择题关于min-max特征缩放的描述错误的是()
A.会将数据缩放到0-1范围之内B.如果数据存在异常值,数据缩放效果很可能不好C.作用是将不同量纲数据的l量纲进行统一D.缩放后数据标准差为1
单项选择题以下不属于特征工程的涵盖范围的是()
A.特征转换B.特征储存C.特征选择D.特征学习
单项选择题随机森林是一种常用的缺失值填补方法,以下关于随机森林描述中错误的是()
A.随机森林是一种集成算法B.随机森林是有多棵决策树共同构成C.随机森林算法通常可以防止过拟合D.随机森林算法中的基分类器都是回归树
单项选择题Xgboost也可以用于缺失值填补,下面关于Xgboost描述错误的是()
A.Xgboost是在GBDT的基础上改造而来的B.Xgboost是一个提升算法C.Xgboost中的基分类器只能是树模型D.GBDT在模型训练时只使用了代价函数的一阶导数信息,XGBoost对代价函数进行二阶泰勒展开