贝叶斯估计和极大似然估计到底有何区别

在开始接触最大似然估计和贝叶斯估计时,你们都会有个疑问:最大似然估计和贝叶斯估计两者很类似,到底有何区别?本文便来讲说两者的不一样之处以及求参模型的公式推导!web

预热知识必知

如何求类条件几率密度:
咱们知道贝叶斯决策中关键便在于知道后验几率,那么问题便集中在求解类条件几率密度!那么如何求呢?答案即是:将类条件几率密度进行参数化。算法

最大似然估计和贝叶斯估计参数估计:
鉴于类条件几率密度难求,咱们将其进行参数化,这样咱们便只须要对参数进行求解就好了,问题难度将大大下降!好比:咱们假设类条件几率密度p(x|w)是一个多元正态分布,那么咱们就能够把问题从估计彻底未知的几率密度p(x|w)转化成估计参数:均值u、协方差ε机器学习

因此最大似然估计和贝叶斯估计都属于参数化估计!……固然像KNN估计、Parzen窗这些就是非参数话估计啦!可是参数化估计也天然有它的缺点,下面会说的!svg

简述两者最大的区别

若用两个字高度归纳两者的最大区别那就是:参数函数

最大似然估计和贝叶斯估计最大区别便在于估计的参数不一样,最大似然估计要估计的参数θ被看成是固定形式的一个未知变量,而后咱们结合真实数据经过最大化似然函数来求解这个固定形式的未知变量!学习

贝叶斯估计则是将参数视为是有某种已知先验分布的随机变量,意思即是这个参数他不是一个固定的未知数,而是符合必定先验分布如:随机变量θ符合正态分布等!那么在贝叶斯估计中除了类条件几率密度p(x|w)符合必定的先验分布,参数θ也符合必定的先验分布。咱们经过贝叶斯规则将参数的先验分布转化成后验分布进行求解!优化

同时在贝叶斯模型使用过程当中,贝叶斯估计用的是后验几率,而最大似然估计直接使用的是类条件几率密度。3d

下面会详细分析最大似然估计和贝叶斯估计求解模型!xml

从其余方面谈谈两者的异同

在先验几率能保证问题有解的状况下,最大似然估计和贝叶斯估计在训练样本趋近于无穷时获得的结果是同样的!可是实际的模式识别问题中,训练样本老是有限的,咱们应如何选择使用哪一种模型呢?下面简单分析分析:blog

(1) 计算复杂度:就实现的复杂度来讲,确定是有限选择最大似然估计,最大似然估计中只须要使用到简单的微分运算便可,而在贝叶斯估计中则须要用到很是复杂的多重积分,不只如此,贝叶斯估计相对来讲也更难理解;

(2)准确性:当采用的样本数据颇有限时,贝叶斯估计偏差更小,毕竟在理论上,贝叶斯估计有很强的理论和算法基础。

参数化估计的缺点:
贝叶斯估计和最大似然估计都是属于参数化估计,那么两者存在着一个共同的缺点:参数化估计虽然使得类条件几率密度变得相对简单,但估计结果的准确性严重依赖于所假设的几率分布形式是否符合潜在的真实数据分布。在现实应用中,与作出能较好的接近潜在真实分布中的假设,每每须要必定程度上利用关于应用任务自己的经验知识,不然若仅凭“猜想”来假设几率分布形式,极可能产生误导性的结果!因此没有什么算法是十全十美的啦!

下面便推导一下最大似然估计和贝叶斯估计所使用的模型,最大似然简单些,贝叶斯估计就比较复杂了!

最大似然估计模型推导

假设样本集D={x1 、x2 、…、xn},假设样本之间都是相对独立的,注意这个假设很重要!因而便有:

这里写图片描述

因此假设似然函数为:
这里写图片描述

接下来咱们求参的准则即是如名字同样最大化似然函数喽:
这里写图片描述

下面有一个优化,专业名词为 拉布拉斯修正

简单说:就是防止先验几率为0,那么上面的L(θ|D)整个式子便都成0 了,那确定是不行的啊,不能由于一个数据偏差影响了整个数据的使用。同时那么多先验几率相乘,可能出现下溢出。因此引入拉普拉斯修正,也就是取对数ln,想必你们在数学中都用过这种方法的。

因此作出下面变换:

这里写图片描述

因此最大化的目标即是:

这里写图片描述

求解上面问题便很少说了,使用数学中的微分知识即可:

这里写图片描述

而后使得偏导数为0:

自此便求出了参数θ,而后便获得了类条件几率密度,即可进行判别等接下来的工做了。

下面讲解贝叶斯模型推导,略微复杂些,下伙伴们仔细看啊!

贝叶斯估计模型推导

先说一句,贝叶斯估计最终也是为了得出后验几率。因此贝叶斯最终所要的获得推导的是:

(1)

正如上面所说咱们即是要参数的先验分布经过贝叶斯规则转化成后验几率,也就是上面这个公式,接下来咱们一块儿看看如何推导出上面后验几率的公式经过参数的先验几率。

上式中有:

这里写图片描述

带入后验几率的式子可得:
这里写图片描述

你们注意啦!!!这里也有个重要的假设,那就是样本之间是相互独立的,同时类也是相互独立的。因此有以下假设:

这里写图片描述

同时因为类之间相互独立,因此咱们不用区分类了,便有:
这里写图片描述

这里给你们顺一下思路,因此咱们要求后验几率即是要求出P(x|D)即可:
下面说明P(x|D)的推导:

这里写图片描述

正如咱们前面所说上式中p(x| θ),咱们假设它是一个已知的知足必定先验分布的,咱们如今即是要知道:

这里写图片描述

下面给出其推导过程:

这里写图片描述

对于上式中的P(D|θ),还记得上面说的很重要的样本之间是独立的吗,因此和最大似然函数相似有:

这里写图片描述

所以最终咱们即可以求得P(x|D):
这里写图片描述

这样咱们将P(x|D)待会后验几率的式子即可求出后验几率了,因此咱们完成了上面的说法,即是将参数θ 服从的先验几率分布转化成了后验几率分布了。

本文参考资料: 【1】Pattern Classification Second Edition 【2】Machine Learining in Action 【3】机器学习 著周志华