最大似然估计学习笔记
贝叶斯定理及最大(极大)似然估计(
maximum−likelihood)是机器学习的数理基础。
① 条件概率
定义1 若A、B是独立事件,即AB事件相互独立,则有:
P(AB)=P(A)P(B)
定义2 若A、B为事件且事件A为正概率,在事件A发生的条件下事件B发生的条件概率为:
P(B∣A)=P(A)P(AB)
公式1 (乘法公式)设
A1、A2....An为事件且均为正概率,则有
P(A1A2...An)=P(A1)P(A2∣A1)P(A3∣A1A2)...P(An∣A1A2...An)
公式2 (全概率公式)若
B1、B2....Bn均为正概率事件且两两不相容,即
BiBj=∅(i≠j;i,j=1,2,...n),又有
⋃i=1nBi=Ω,其中
Ω为样本空间,则称
Bn为该样本空间中的划分。对于样本空间内的随机事件
A则有
P(A)=i=1∑nP(Bi)P(A∣Bi)
公式3 (贝叶斯公式)设
Ω为样本空间,
A为其中的随机事件,
B1...Bn为该样本空间中的划分,
P(A)>0,P(Bi)>0,由全概率公式和条件概率的定义得:
P(Bi∣A)=∑j=1nP(Bj)P(A∣Bj)P(Bi)P(A∣Bi)=P(A)P(ABi)
② 贝叶斯(Beyes)公式笔记
利用贝叶斯公式求解的步骤一般分为以下几步:
- 贝叶斯公式的核心在于找到问题的样本空间
Ω
- 找到样本空间内的划分,计算各划分的概率
P(Bi)
- 找到样本空间内的随机事件
A,并利用全概率公式计算
P(A)
- 利用贝叶斯公式计算
P(Bi∣A)
例题:
某工厂有四个车间生产某种产品,产量分别占15%、20%、30%、35%,次品率分别为5%、4%、3%、2%,求若取出的是次品,其为第一车间生产的产品概率。
求解:
1.样本空间
Ω为四个车间生产的产品
2.该产品是某个车间生产的产品的事件为划分,分别记录为
B1、B2、B3、B4。计算各划分的概率:
P(B1)=0.15、P(B2)=0.20、P(B3)=0.30、P(B4)=0.35
3.某产品为次品为随机事件
A。根据和概率公式计算随机事件
A的概率:
P(A)=i=1∑4P(Bi)P(A∣Bi)=0.15∗0.05+0.20∗0.04+0.30∗0.03+0.35∗0.02=0.0315
4.根据贝叶斯公式计算:
P(B1∣A)=P(A)P(B1)P(A∣B1)=0.03150.15∗0.05=0.238
一般的,针对朴素贝叶斯公式:
P(A∣B)=P(A)P(B)P(B∣A)
可以通过韦恩图来理解公式:
- 当已知绿点落入
A或
B时,即已知发生
A或
B事件之后,要想知道同时发生另一个事件的概率(即落入
A∩B区域的概率)
- 从
A的视角来看,若已发生
B事件,则同时发生
A事件的概率应为
P(A∣B),也就是
P(A)∗P(B)P(B∣A);反之亦然。
- 在上述情况中,
P(A∣B)称为后验概率、
P(A)称为先验概率;
P(B∣A)被称为类条件概率,
P(B)被称为知识。
- 后验概率一般较难通过统计获得,而先验概率则较为容易得到。例如上文例题中,统计某抽样[产品]产于某车间的概率远简单于统计某抽样[次品]产于某车间的概率。
- 在已获得的知识的基础上,通过统计调查得到先验概率和类条件概率,并计算得到后验概率,是一种确定性概率推理。
- 事件B(绿点落入B区域)的发生提高了绿点落入
A∩B(或者说其超集
A)区域的概率,即先验概率
P(A)(原本一个绿点落入区域
A的概率)乘以放大因子(类条件概率/知识)
P(B)P(B∣A)。
先验概率和后验概率的一些理解
不妨把贝叶斯公式理解成:在已知某种“结果”发生的情况下,去推测哪一种“原因”导致了它的发生。
- 先验概率 从常识等现有知识,得到的“起因”的概率;
- 后验概率 知道“结果”之后反推“起因”的概率;
- 类条件概率 得到“结果”后,由某个类(原因)导致该结果的概率。
以"瓜熟蒂落"为例,当看到一个西瓜瓜蒂落下,有多大可能性得知该西瓜已经成熟。(因果关系为:西瓜成熟为起因,结果为西瓜蒂落)
A:西瓜成熟
B:西瓜蒂落
解:
1.要得到后验概率
P(A∣B),可以简单通过统计学方法获知西瓜的成熟率即先验概率
P(A),也就是“起因”的发生概率,作为新获取的知识储备;
2.而结果的发生概率
P(B)作为固有知识,因为某件事情发生后,它的一切都定下来了,根据观察实验即可获取其自然概率作为常识类的知识储备;
3.现在,通过统计调查类条件概率,即西瓜蒂落是由西瓜成熟导致的概率
P(B∣A)
P(A∣B)=P(A)∗P(B)P(B∣A)
③ 最大似然估计
先导知识:[数理知识]机器学习入门: 概率论与信息论基础
最大似然估计常用于点估计中,我们把要顾及的值记为
θ,它是一个确定但未知的量(待定量),我们对它的估计
θ^(x1,x2,⋯,xn) 表示从已知的数据集
(x1,x2,⋯,xn)∈X 得到对原待定参数值的推测。我们假设数据的分布满足独立同分布条件(i.i.d assumption)。
独立同分布条件:每个数据集中的样本都是相互独立的,且各个数据集中的样本满足同一个概率分布。
假设给定数据集(样本集)
X、待定参数为
θ,在以概率密度
p(x∣θ) 时获得此样本集
X的概率即出现
X 中的各个样本的联合概率为:
l(θ)=p(X∣θ)=px1,x2,⋯,xn∣θ)=p(x1∣θ)p(x2∣θ)⋯p(xn∣θ)=i=1∏np(xi∣θ)
似然函数 记总体样本X的分布形式
p(x;θ)为已知,其中
θ∈Ω是未知参数,
Ω是
θ可能的取值范围,
X1...Xn是来自总体的一个样本,
x1...xn是样本
X1...Xn的一组样本值,则似然函数的定义为:
L(θ)=i=1∏np(xi;θ)使得似然函数取得最大值的一组
θ^(x1,....xn)称为最大似然估计
θ的最大似然估计值;相对的
θ^(X1,....Xn)称为最大似然估计量。
求取最大似然概率
容易注意到,
L(θ)与
lnL(θ)在同一
θ处取得最大值,所以求取最大似然估计的步骤为:
- 写出似然函数:
L(θ)=∏i=1np(xi;θ)
- 取自然对数:
lnL(θ)=ln∏i=1np(xi;θ)
- 令
∂θi∂lnL(θ)=0(i=1,2..n),求解即可得到
θi^(x1,....xn)
似然和概率 (非严格定义)似然和概率并不是一个东西,因此不能称其为似然概率。似然函数是指,在某一假设下,已知数据发生的可能性,来评价哪一个假设更接近真实"似然概率"
θ的值。例如,抛三次硬币,结果为"正正反",那么硬币正面向上的"似然概率"为
32;随着数据的增多(实验结果的增多),该值将趋近于0.5。