过拟合问题

过拟合定义

在给定的一个假设空间 H ,一个假设属于 h ,如果存在其他的假设 h, ,属于 H ,使得在训练样例上 h 的错误率比 h, 小,但在整个实例分布上 h, h 错误率小,那么说假设 h 过度拟合了训练数据。
通俗一点说,就是在提升模型(上面所说的假设)在训练数据上的表现,在测试集上的表现反而变差。或者说将不仅学习到了数据的一般规律,还将非一般规律(数据的特异点或者离群点)学习到了。

通常有几种说法来描述过拟合:

  1. 泛化能力,如果发生了过拟合,对于训练数据集的拟合程度自然而然会比较好,那么在测试集上的泛化能力就会变差,也就是模型推广到其他数据的效果变差。
  2. 方差和偏差描述,发生过拟合会导致在训练数据集上发生低偏差和高方差。低偏差代表对训练数据拟合的很好。高方差表示,如果训练数据发生一点变化或者扰动,模型本身的变化较大,稳定性变差

过拟合的原因

  1. 通常发生在特征(参数)较多的时候,如果特征过多实际上,相当于扩展了特征空间。
    这里写图片描述
    这里写图片描述
    2.有限的训练数据。训练数据太少,导致可以将训练数据进行正确划分的模型不唯一。

过拟合的解决方法:

  1. 减少特征数目

    人工检查每一个变量,并确定哪些变量更为重要,从而保留重要的特征
    模型选择算法

  2. 正则化

    背后思想:奥卡姆剃刀理论,拉普拉斯正则化,高斯正则化。模型总是趋于简单,也就是如果能用简单的模型来描述输入和输出之间的关系,就不用复杂的模型来描述。
    通过岭回归公式来简单分析一下:

这里写图片描述

λ 因子是平衡误差项和正则项的参数。在这里, θ3 θ4 并不会变为0,而会变为非常小的数字。通常参数越小,对应的函数越光滑,在上面这个例子中,就是近似一个二次函数。 如果是L1正则化,则会产生稀疏解,部分分量就会变成0,相当于对原始特征做了特征提取,可以划分到嵌入式特征选择这一类当中。 3. 适当的stopping criterion 4. 交叉验证: