过拟合定义
在给定的一个假设空间
H
,一个假设属于
h
,如果存在其他的假设
h,
,属于
H
,使得在训练样例上
h
的错误率比
h,
小,但在整个实例分布上
h,
比
h
错误率小,那么说假设
h
过度拟合了训练数据。
通俗一点说,就是在提升模型(上面所说的假设)在训练数据上的表现,在测试集上的表现反而变差。或者说将不仅学习到了数据的一般规律,还将非一般规律(数据的特异点或者离群点)学习到了。
通常有几种说法来描述过拟合:
- 泛化能力,如果发生了过拟合,对于训练数据集的拟合程度自然而然会比较好,那么在测试集上的泛化能力就会变差,也就是模型推广到其他数据的效果变差。
- 方差和偏差描述,发生过拟合会导致在训练数据集上发生低偏差和高方差。低偏差代表对训练数据拟合的很好。高方差表示,如果训练数据发生一点变化或者扰动,模型本身的变化较大,稳定性变差
过拟合的原因
- 通常发生在特征(参数)较多的时候,如果特征过多实际上,相当于扩展了特征空间。
2.有限的训练数据。训练数据太少,导致可以将训练数据进行正确划分的模型不唯一。
过拟合的解决方法:
减少特征数目
人工检查每一个变量,并确定哪些变量更为重要,从而保留重要的特征
模型选择算法
正则化
背后思想:奥卡姆剃刀理论,拉普拉斯正则化,高斯正则化。模型总是趋于简单,也就是如果能用简单的模型来描述输入和输出之间的关系,就不用复杂的模型来描述。
通过岭回归公式来简单分析一下:
λ
因子是平衡误差项和正则项的参数。在这里,
θ3
和
θ4
并不会变为0,而会变为非常小的数字。通常参数越小,对应的函数越光滑,在上面这个例子中,就是近似一个二次函数。 如果是L1正则化,则会产生稀疏解,部分分量就会变成0,相当于对原始特征做了特征提取,可以划分到嵌入式特征选择这一类当中。 3. 适当的stopping criterion 4. 交叉验证: