判断题异常值(Outlier)指样本中的个别值,其数值明显偏离它(或他们)所属样本的其余观测值,也称异常数据,离群值。目前人们对异常值的判别与剔除主要采用物理判别法和统计判别法两种方法。
判断题假设一个公司的薪资水平中位数是$35,000,排名第25%和75%的薪资分别是$21,000和$53,000。如果某人的薪水是$1,但是它不一定被看成是异常值(Outlier)。
判断题在模型中增加更多特征一般会增加训练样本的准确率,减小bias。但是测试样本准确率不一定增加,除非增加的特征是有效特征。
判断题两个变量相关,它们的相关系数r可能为0。
判断题求解线性回归系数,我们一般最常用的方法是梯度下降,利用迭代优化的方式。除此之外,还有一种方法是使用正规方程,原理是基于最小二乘法。