过拟合问题

时间 2021-01-02

过拟合定义

在给定的一个假设空间 H ,一个假设属于 h ,如果存在其他的假设 h, ，属于 H ，使得在训练样例上 h 的错误率比 h, 小，但在整个实例分布上 h, 比 h 错误率小，那么说假设 h 过度拟合了训练数据。
通俗一点说，就是在提升模型（上面所说的假设）在训练数据上的表现，在测试集上的表现反而变差。或者说将不仅学习到了数据的一般规律，还将非一般规律（数据的特异点或者离群点）学习到了。

通常有几种说法来描述过拟合：

泛化能力，如果发生了过拟合，对于训练数据集的拟合程度自然而然会比较好，那么在测试集上的泛化能力就会变差，也就是模型推广到其他数据的效果变差。
方差和偏差描述，发生过拟合会导致在训练数据集上发生低偏差和高方差。低偏差代表对训练数据拟合的很好。高方差表示，如果训练数据发生一点变化或者扰动，模型本身的变化较大，稳定性变差

过拟合的原因

通常发生在特征（参数）较多的时候，如果特征过多实际上，相当于扩展了特征空间。

2.有限的训练数据。训练数据太少，导致可以将训练数据进行正确划分的模型不唯一。

过拟合的解决方法:

减少特征数目

人工检查每一个变量，并确定哪些变量更为重要，从而保留重要的特征
模型选择算法
正则化

背后思想：奥卡姆剃刀理论，拉普拉斯正则化，高斯正则化。模型总是趋于简单，也就是如果能用简单的模型来描述输入和输出之间的关系，就不用复杂的模型来描述。
通过岭回归公式来简单分析一下：

λ 因子是平衡误差项和正则项的参数。在这里， θ3 和 θ4 并不会变为0，而会变为非常小的数字。通常参数越小，对应的函数越光滑，在上面这个例子中，就是近似一个二次函数。如果是L1正则化，则会产生稀疏解，部分分量就会变成0，相当于对原始特征做了特征提取，可以划分到嵌入式特征选择这一类当中。 3. 适当的stopping criterion 4. 交叉验证：