A.在越多的文章中出现过,说明重要性越高,则进行加权B.在越多的文章中出现过的次数越多,说明对我们的分析和统计没什么帮助,利用该数值进行降权C.一个词在一篇文章中出现的次数越多,说明越重要,利用该指数进行加权D.一个词如果是常用词,则统计时说明很重要,进行加权
单项选择题关于min-max特征缩放的描述错误的是()
A.会将数据缩放到0-1范围之内B.如果数据存在异常值,数据缩放效果很可能不好C.作用是将不同量纲数据的l量纲进行统一D.缩放后数据标准差为1
单项选择题以下不属于特征工程的涵盖范围的是()
A.特征转换B.特征储存C.特征选择D.特征学习
单项选择题随机森林是一种常用的缺失值填补方法,以下关于随机森林描述中错误的是()
A.随机森林是一种集成算法B.随机森林是有多棵决策树共同构成C.随机森林算法通常可以防止过拟合D.随机森林算法中的基分类器都是回归树
单项选择题Xgboost也可以用于缺失值填补,下面关于Xgboost描述错误的是()
A.Xgboost是在GBDT的基础上改造而来的B.Xgboost是一个提升算法C.Xgboost中的基分类器只能是树模型D.GBDT在模型训练时只使用了代价函数的一阶导数信息,XGBoost对代价函数进行二阶泰勒展开
单项选择题以下对于数据泛化描述错误的是()
A.数据泛化针对的对象是类别型字段B.数据泛化j就是将数据库中的数据集从较低的概念层抽象到较高的概念层的过程C.用省代替市是一种数据泛化D.将连续的年龄值变成区间范围是数据泛化