[数理知识]贝叶斯公式和最大似然估计笔记


最大似然估计学习笔记

贝叶斯定理及最大(极大)似然估计( m a x i m u m l i k e l i h o o d maximum-likelihood )是机器学习的数理基础。


① 条件概率

定义1 若A、B是独立事件,即AB事件相互独立,则有:
P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B)

定义2 若A、B为事件且事件A为正概率,在事件A发生的条件下事件B发生的条件概率为: P ( B A ) = P ( A B ) P ( A ) P(B|A)=\frac{P(AB)}{P(A)}

公式1 (乘法公式)设 A 1 A 2 . . . . A n A_1、A_2....A_n 为事件且均为正概率,则有
P ( A 1 A 2 . . . A n ) = P ( A 1 ) P ( A 2 A 1 ) P ( A 3 A 1 A 2 ) . . . P ( A n A 1 A 2 . . . A n ) P(A_1A_2...A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)...P(A_n|A_1A_2...A_n)

公式2 (全概率公式)若 B 1 B 2 . . . . B n B_1、B_2....B_n 均为正概率事件且两两不相容,即 B i B j = ( i = ̸ j ; i , j = 1 , 2 , . . . n ) B_iB_j=\emptyset(i =\not j;i,j=1,2,...n) ,又有 i = 1 n B i = Ω \bigcup_{i=1}^{n} B_i=\Omega ,其中 Ω \Omega 为样本空间,则称 B n B_n 为该样本空间中的划分。对于样本空间内的随机事件 A A 则有
P ( A ) = i = 1 n P ( B i ) P ( A B i ) P(A)=\sum_{i=1}^{n}P(B_i)P(A|B_i)

公式3 (贝叶斯公式)设 Ω \Omega 为样本空间, A A 为其中的随机事件, B 1 . . . B n B_1...B_n 为该样本空间中的划分, P ( A ) > 0 , P ( B i ) > 0 P(A)>0 ,P(B_i)>0 ,由全概率公式和条件概率的定义得:
P ( B i A ) = P ( B i ) P ( A B i ) j = 1 n P ( B j ) P ( A B j ) = P ( A B i ) P ( A ) P(B_i|A)=\frac{P(B_i)P(A|B_i)}{\sum_{j=1}^{n}P(B_j)P(A|B_j)}=\frac{P(AB_i)}{P(A)}


② 贝叶斯(Beyes)公式笔记

利用贝叶斯公式求解的步骤一般分为以下几步:

  1. 贝叶斯公式的核心在于找到问题的样本空间 Ω \Omega
  2. 找到样本空间内的划分,计算各划分的概率 P ( B i ) P(B_i)
  3. 找到样本空间内的随机事件 A A ,并利用全概率公式计算 P ( A ) P(A)
  4. 利用贝叶斯公式计算 P ( B i A ) P(B_i|A)

例题:
某工厂有四个车间生产某种产品,产量分别占15%、20%、30%、35%,次品率分别为5%、4%、3%、2%,求若取出的是次品,其为第一车间生产的产品概率。

求解:
1.样本空间 Ω \Omega 为四个车间生产的产品
2.该产品是某个车间生产的产品的事件为划分,分别记录为 B 1 B 2 B 3 B 4 B_1、B_2、B_3、B_4 。计算各划分的概率:
P ( B 1 ) = 0.15 P ( B 2 ) = 0.20 P ( B 3 ) = 0.30 P ( B 4 ) = 0.35 P(B_1)=0.15、P(B_2)=0.20、P(B_3)=0.30、P(B_4)=0.35
3.某产品为次品为随机事件 A A 。根据和概率公式计算随机事件 A A 的概率:
P ( A ) = i = 1 4 P ( B i ) P ( A B i ) = 0.15 0.05 + 0.20 0.04 + 0.30 0.03 + 0.35 0.02 = 0.0315 \begin{aligned} P(A)&=\sum_{i=1}^{4}P(B_i)P(A|B_i) \\ &=0.15*0.05+0.20*0.04+0.30*0.03+0.35*0.02\\ &=0.0315 \end{aligned}
4.根据贝叶斯公式计算:
P ( B 1 A ) = P ( B 1 ) P ( A B 1 ) P ( A ) = 0.15 0.05 0.0315 = 0.238 \begin{aligned} P(B_1|A)&=\frac{P(B_1)P(A|B_1)}{P(A)}\\ &=\frac{0.15*0.05}{0.0315}\\ &=0.238 \end{aligned}

一般的,针对朴素贝叶斯公式:
P ( A B ) = P ( A ) P ( B A ) P ( B ) P(A|B)=P(A)\frac{P(B|A)}{P(B)}
可以通过韦恩图来理解公式:
在这里插入图片描述

  • 当已知绿点落入 A A B B 时,即已知发生 A A B B 事件之后,要想知道同时发生另一个事件的概率(即落入 A B A\cap B 区域的概率)
  • A A 的视角来看,若已发生 B B 事件,则同时发生 A A 事件的概率应为 P ( A B ) P(A|B) ,也就是 P ( A ) P ( B A ) P ( B ) P(A)*\frac{P(B|A)}{P(B)} ;反之亦然。
  • 在上述情况中, P ( A B ) P(A|B) 称为后验概率 P ( A ) P(A) 称为先验概率 P ( B A ) P(B|A) 被称为类条件概率 P ( B ) P(B) 被称为知识
  • 后验概率一般较难通过统计获得,而先验概率则较为容易得到。例如上文例题中,统计某抽样[产品]产于某车间的概率远简单于统计某抽样[次品]产于某车间的概率。
  • 在已获得的知识的基础上,通过统计调查得到先验概率类条件概率,并计算得到后验概率,是一种确定性概率推理。
  • 事件B(绿点落入B区域)的发生提高了绿点落入 A B A\cap B (或者说其超集 A A )区域的概率,即先验概率 P ( A ) P(A) (原本一个绿点落入区域 A A 的概率)乘以放大因子(类条件概率/知识) P ( B A ) P ( B ) \frac{P(B|A)}{P(B)}

先验概率和后验概率的一些理解

不妨把贝叶斯公式理解成:在已知某种“结果”发生的情况下,去推测哪一种“原因”导致了它的发生。

  1. 先验概率 从常识等现有知识,得到的“起因”的概率;
  2. 后验概率 知道“结果”之后反推“起因”的概率;
  3. 类条件概率 得到“结果”后,由某个类(原因)导致该结果的概率。

以"瓜熟蒂落"为例,当看到一个西瓜瓜蒂落下,有多大可能性得知该西瓜已经成熟。(因果关系为:西瓜成熟为起因,结果为西瓜蒂落)

A:西瓜成熟
B:西瓜蒂落
解:
1.要得到后验概率 P ( A B ) P(A|B) ,可以简单通过统计学方法获知西瓜的成熟率即先验概率 P ( A ) P(A) ,也就是“起因”的发生概率,作为新获取的知识储备;
2.而结果的发生概率 P ( B ) P(B) 作为固有知识,因为某件事情发生后,它的一切都定下来了,根据观察实验即可获取其自然概率作为常识类的知识储备;
3.现在,通过统计调查类条件概率,即西瓜蒂落是由西瓜成熟导致的概率 P ( B A ) P(B|A)
P ( A B ) = P ( A ) P ( B A ) P ( B ) P(A|B)=P(A)*\frac{P(B|A)}{P(B)}


③ 最大似然估计

先导知识:[数理知识]机器学习入门: 概率论与信息论基础

最大似然估计常用于点估计中,我们把要顾及的值记为 θ \theta ,它是一个确定但未知的量(待定量),我们对它的估计 θ ^ ( x 1 , x 2 ,   , x n ) \hat \theta(x_1,x_2,\cdots,x_n) 表示从已知的数据集 ( x 1 , x 2 ,   , x n ) X (x_1,x_2,\cdots,x_n) \in X 得到对原待定参数值的推测。我们假设数据的分布满足独立同分布条件(i.i.d assumption)。

独立同分布条件:每个数据集中的样本都是相互独立的,且各个数据集中的样本满足同一个概率分布。

假设给定数据集(样本集) X X 、待定参数为 θ \theta ,在以概率密度 p ( x θ ) p(x|\theta) 时获得此样本集 X X 的概率即出现 X X 中的各个样本的联合概率为:
l ( θ ) = p ( X θ ) = p x 1 , x 2 ,   , x n θ ) = p ( x 1 θ ) p ( x 2 θ ) p ( x n θ ) = i = 1 n p ( x i θ ) \begin{aligned} l(\theta)&=p(X|\theta)\\ &=px_1,x_2,\cdots,x_n|\theta)\\ &=p(x_1|\theta)p(x_2|\theta)\cdots p(x_n|\theta)\\ &=\prod_{i=1}^np(x_i|\theta) \end{aligned}

似然函数 记总体样本X的分布形式 p ( x ; θ ) p(x;\theta) 为已知,其中 θ Ω \theta\in\Omega 是未知参数, Ω \Omega θ \theta 可能的取值范围, X 1 . . . X n X_1...X_n 是来自总体的一个样本, x 1 . . . x n x_1...x_n 是样本 X 1 . . . X n X_1...X_n 的一组样本值,则似然函数的定义为:
L ( θ ) = i = 1 n p ( x i ; θ ) L(\theta)=\prod_{i=1}^{n}p(x_i;\theta) 使得似然函数取得最大值的一组 θ ^ ( x 1 , . . . . x n ) \hat{\theta}(x_1,....x_n) 称为最大似然估计 θ \theta 最大似然估计值;相对的 θ ^ ( X 1 , . . . . X n ) \hat{\theta}(X_1,....X_n) 称为最大似然估计量

求取最大似然概率

容易注意到, L ( θ ) L(\theta) ln L ( θ ) \ln{L(\theta)} 在同一 θ \theta 处取得最大值,所以求取最大似然估计的步骤为:

  1. 写出似然函数: L ( θ ) = i = 1 n p ( x i ; θ ) L(\theta)=\prod_{i=1}^{n}p(x_i;\theta)
  2. 取自然对数: ln L ( θ ) = ln i = 1 n p ( x i ; θ ) \ln{L(\theta)}=\ln{\prod_{i=1}^{n}p(x_i;\theta)}
  3. ln L ( θ ) θ i = 0 ( i = 1 , 2.. n ) \frac{\partial\ln{L(\theta)}}{\partial\theta_i}=0(i=1,2..n) ,求解即可得到 θ i ^ ( x 1 , . . . . x n ) \hat{\theta_i}(x_1,....x_n)

似然和概率 (非严格定义)似然和概率并不是一个东西,因此不能称其为似然概率。似然函数是指,在某一假设下,已知数据发生的可能性,来评价哪一个假设更接近真实"似然概率" θ \theta 的值。例如,抛三次硬币,结果为"正正反",那么硬币正面向上的"似然概率"为 2 3 \frac{2}{3} ;随着数据的增多(实验结果的增多),该值将趋近于0.5。