机器学习常用概念辨析

目录

Bagging & Boosting

方差 & 偏差

近似误差 & 估计误差

判别模型 & 生成模型

期望风险 & 经验风险 & 结构风险

上采样 & 下采样

先验概率 & 后验概率

信息增益 & 基尼系数


机器学习有好多概念需要理解,这里做个总结

Bagging & Boosting

Bagging: Bagging 在每次迭代过程中通过bootstrap(有放回抽样)的方式生成一个训练集,最后将所有子分类器结果的平均值作为最终的结果,代表算法为随机森林

Boosting: Boosting 在每次迭代过程中增加被分错样本的权重,最终将所有子分类器的结果相加得到最终的结果,代表算法为AdaBoost

 

方差 & 偏差

方差:描述模型对于给定值的输出稳定性,高方差类似与过拟合,降低方差主要通过增加数据量,增大正则化项,降维等方式

偏差:描述模型输出结果的期望与样本真实结果的差距,高偏差类似与欠拟合,通过增加特征数量,减小正则化项实现

 

近似误差 & 估计误差

近似误差:近似误差是训练集上的训练误差。如果近似误差较小,表示对训练集拟合效果较好,可能发生过拟合

估计误差:估计误差是测试集上的预测误差。如果估计误差较小,那么表示所训练的模型具有很好的泛化能力

 

判别模型 & 生成模型

判别模型:判别模型直接学习判别函数f\left(x\right )或者条件概率分布P\left(Y|X \right ),代表算法有K邻法、感知机、决策树、逻辑回归、最大熵模型、支持向量机、提升方法、条件随机场

生成模型:生成模型学习联合概率分布P\left(X,Y \right ),然后求出条件概率P\left(Y|X\right)作为预测模型,代表的算法有贝叶斯模型和隐马尔科夫模型

 

期望风险 & 经验风险 & 结构风险

期望风险:对所有样本(包含未知样本和已知的训练样本)的预测能力,是全局概念。(经验风险则是局部概念,仅仅表示决策函数对训练数据集里的样本的预测能力。)

经验风险:对所有训练样本都求一次损失函数,再累加求平均。即,模型f(x)对训练样本中所有样本的预测能力。所谓经验风险最小化即对训练集中的所有样本点损失函数的平均最小化。经验风险越小说明模型f(x)对训练集的拟合程度越好。

结构风险:结构风险是经验风险和期望风险的折中,在经验风险函数后面加一个正则化项(惩罚项),是一个大于0的系数lamada,表示的是模型的复杂度。

 

上采样 & 下采样

上采样:从少类别中复制样本使得数据达到平衡

下采样:从多数类中随机抽取样本(抽取的样本数量与少数类别样本量一致)从而减少多数类别样本数据,使数据达到平衡

 

先验概率 & 后验概率

先验概率:是指根据以往经验和分析得到的概率,就是在训练集中得到的概率分布

后验概率:后验概率是指在得到“结果”的信息后重新修正的概率,从训练集的分布中计算样本属于哪种类别的概率

 

信息增益 & 基尼系数

信息增益:信息增益的定义为集合的经验熵与特征给定条件下的经验条件熵之差,计算公式为

g\left(D,A \right )=H\left(D\right)-H\left(D|A \right )

根据特征A将数据集D分成两部分D_{1},D_{2}时,有

g\left(D|A \right )=H\left(D\right)-\alpha H\left(D_{1}\right )-\left(1-\alpha \right )H\left(D_{2} \right )

其中

\alpha=\frac{\left|D_{1}\right|}{\left|D\right|}

基尼系数:基尼不纯度表示一个随机选中的样本在子集中被分错的可能性。基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。这和信息增益是相反的,计算公式为:

Gini\left(p \right )=\sum_{k=1}^{K}p_{k}\left(1-p_{k} \right )=1-\sum_{k=1}^{K}p_{k}^{2}

根据特征A将数据集D分成两部分时,有

Gini\left(D,A \right )=\alpha Gini\left(D_{1} \right )+\left(1-\alpha \right )Gini\left(D_{2} \right )