单项选择题

在关键词的撷取中为什么要引入逆向文本频率idf （）

A.在越多的文章中出现过，说明重要性越高，则进行加权
B.在越多的文章中出现过的次数越多，说明对我们的分析和统计没什么帮助，利用该数值进行降权
C.一个词在一篇文章中出现的次数越多，说明越重要，利用该指数进行加权
D.一个词如果是常用词，则统计时说明很重要，进行加权

<上一题目录下一题>

热门试题

单项选择题关于min-max特征缩放的描述错误的是（）

A.会将数据缩放到0-1范围之内
B.如果数据存在异常值，数据缩放效果很可能不好
C.作用是将不同量纲数据的l量纲进行统一
D.缩放后数据标准差为1

单项选择题以下不属于特征工程的涵盖范围的是（）

A.特征转换
B.特征储存
C.特征选择
D.特征学习

单项选择题随机森林是一种常用的缺失值填补方法，以下关于随机森林描述中错误的是（）

A.随机森林是一种集成算法
B.随机森林是有多棵决策树共同构成
C.随机森林算法通常可以防止过拟合
D.随机森林算法中的基分类器都是回归树

单项选择题Xgboost也可以用于缺失值填补，下面关于Xgboost描述错误的是（）

A.Xgboost是在GBDT的基础上改造而来的
B.Xgboost是一个提升算法
C.Xgboost中的基分类器只能是树模型
D.GBDT在模型训练时只使用了代价函数的一阶导数信息，XGBoost对代价函数进行二阶泰勒展开

单项选择题以下对于数据泛化描述错误的是（）

A.数据泛化针对的对象是类别型字段
B.数据泛化j就是将数据库中的数据集从较低的概念层抽象到较高的概念层的过程
C.用省代替市是一种数据泛化
D.将连续的年龄值变成区间范围是数据泛化