[数理知识]贝叶斯公式和最大似然估计笔记

时间 2021-01-16

文章目录

最大似然估计学习笔记

先验概率和后验概率的一些理解

③ 最大似然估计

求取最大似然概率

最大似然估计学习笔记

贝叶斯定理及最大(极大)似然估计( $maximum-likelihood$ )是机器学习的数理基础。

① 条件概率

定义1 若A、B是独立事件，即AB事件相互独立，则有：
$P(AB)=P(A)P(B)$

定义2 若A、B为事件且事件A为正概率，在事件A发生的条件下事件B发生的条件概率为： $P(B|A)=\frac{P(AB)}{P(A)}$

公式1 (乘法公式)设 $A_1、A_2....A_n$ 为事件且均为正概率，则有
$P(A_1A_2...A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)...P(A_n|A_1A_2...A_n)$

公式2 (全概率公式)若 $B_1、B_2....B_n$ 均为正概率事件且两两不相容，即 $B_iB_j=\emptyset(i =\not j;i,j=1,2,...n)$ ，又有 $\bigcup_{i=1}^{n} B_i=\Omega$ ，其中 $\Omega$ 为样本空间，则称 $B_n$ 为该样本空间中的划分。对于样本空间内的随机事件 $A$ 则有
$P(A)=\sum_{i=1}^{n}P(B_i)P(A|B_i)$

公式3 (贝叶斯公式)设 $\Omega$ 为样本空间， $A$ 为其中的随机事件， $B_1...B_n$ 为该样本空间中的划分， $P(A)>0 ,P(B_i)>0$ ，由全概率公式和条件概率的定义得：
$P(B_i|A)=\frac{P(B_i)P(A|B_i)}{\sum_{j=1}^{n}P(B_j)P(A|B_j)}=\frac{P(AB_i)}{P(A)}$

② 贝叶斯(Beyes)公式笔记

利用贝叶斯公式求解的步骤一般分为以下几步：

贝叶斯公式的核心在于找到问题的样本空间 $\Omega$
找到样本空间内的划分，计算各划分的概率 $P(B_i)$
找到样本空间内的随机事件 $A$ ，并利用全概率公式计算 $P(A)$
利用贝叶斯公式计算 $P(B_i|A)$

例题：
某工厂有四个车间生产某种产品，产量分别占15%、20%、30%、35%，次品率分别为5%、4%、3%、2%，求若取出的是次品，其为第一车间生产的产品概率。

求解:
1.样本空间 $\Omega$ 为四个车间生产的产品
2.该产品是某个车间生产的产品的事件为划分，分别记录为 $B_1、B_2、B_3、B_4$ 。计算各划分的概率：
$P(B_1)=0.15、P(B_2)=0.20、P(B_3)=0.30、P(B_4)=0.35$
3.某产品为次品为随机事件 $A$ 。根据和概率公式计算随机事件 $A$ 的概率：
$\begin{aligned} P(A)&=\sum_{i=1}^{4}P(B_i)P(A|B_i) \\ &=0.15*0.05+0.20*0.04+0.30*0.03+0.35*0.02\\ &=0.0315 \end{aligned}$
4.根据贝叶斯公式计算：
$\begin{aligned} P(B_1|A)&=\frac{P(B_1)P(A|B_1)}{P(A)}\\ &=\frac{0.15*0.05}{0.0315}\\ &=0.238 \end{aligned}$

一般的，针对朴素贝叶斯公式：
$P(A|B)=P(A)\frac{P(B|A)}{P(B)}$
可以通过韦恩图来理解公式：

当已知绿点落入 $A$ 或 $B$ 时，即已知发生 $A$ 或 $B$ 事件之后，要想知道同时发生另一个事件的概率(即落入 $A\cap B$ 区域的概率)
从 $A$ 的视角来看，若已发生 $B$ 事件，则同时发生 $A$ 事件的概率应为 $P(A|B)$ ，也就是 $P(A)*\frac{P(B|A)}{P(B)}$ ；反之亦然。
在上述情况中， $P(A|B)$ 称为后验概率、 $P(A)$ 称为先验概率； $P(B|A)$ 被称为类条件概率， $P(B)$ 被称为知识。
后验概率一般较难通过统计获得，而先验概率则较为容易得到。例如上文例题中，统计某抽样[产品]产于某车间的概率远简单于统计某抽样[次品]产于某车间的概率。
在已获得的知识的基础上，通过统计调查得到先验概率和类条件概率，并计算得到后验概率，是一种确定性概率推理。
事件B(绿点落入B区域)的发生提高了绿点落入 $A\cap B$ (或者说其超集 $A$ )区域的概率，即先验概率 $P(A)$ (原本一个绿点落入区域 $A$ 的概率)乘以放大因子(类条件概率/知识) $\frac{P(B|A)}{P(B)}$ 。

先验概率和后验概率的一些理解

不妨把贝叶斯公式理解成：在已知某种“结果”发生的情况下，去推测哪一种“原因”导致了它的发生。

先验概率 从常识等现有知识，得到的“起因”的概率；
后验概率 知道“结果”之后反推“起因”的概率；
类条件概率 得到“结果”后，由某个类(原因)导致该结果的概率。

以"瓜熟蒂落"为例，当看到一个西瓜瓜蒂落下，有多大可能性得知该西瓜已经成熟。(因果关系为：西瓜成熟为起因，结果为西瓜蒂落)

A：西瓜成熟
B：西瓜蒂落
解：
1.要得到后验概率 $P(A|B)$ ，可以简单通过统计学方法获知西瓜的成熟率即先验概率 $P(A)$ ，也就是“起因”的发生概率，作为新获取的知识储备;
2.而结果的发生概率 $P(B)$ 作为固有知识，因为某件事情发生后，它的一切都定下来了，根据观察实验即可获取其自然概率作为常识类的知识储备；
3.现在，通过统计调查类条件概率，即西瓜蒂落是由西瓜成熟导致的概率 $P(B|A)$
$P(A|B)=P(A)*\frac{P(B|A)}{P(B)}$

③ 最大似然估计

先导知识：[数理知识]机器学习入门: 概率论与信息论基础

最大似然估计常用于点估计中，我们把要顾及的值记为 $\theta$ ，它是一个确定但未知的量（待定量），我们对它的估计 $\hat \theta(x_1,x_2,\cdots,x_n)$ 表示从已知的数据集 $(x_1,x_2,\cdots,x_n) \in X$ 得到对原待定参数值的推测。我们假设数据的分布满足独立同分布条件(i.i.d assumption)。

独立同分布条件：每个数据集中的样本都是相互独立的，且各个数据集中的样本满足同一个概率分布。

假设给定数据集（样本集） $X$ 、待定参数为 $\theta$ ，在以概率密度 $p(x|\theta)$ 时获得此样本集 $X$ 的概率即出现 $X$ 中的各个样本的联合概率为：
$\begin{aligned} l(\theta)&=p(X|\theta)\\ &=px_1,x_2,\cdots,x_n|\theta)\\ &=p(x_1|\theta)p(x_2|\theta)\cdots p(x_n|\theta)\\ &=\prod_{i=1}^np(x_i|\theta) \end{aligned}$

似然函数 记总体样本X的分布形式 $p(x;\theta)$ 为已知，其中 $\theta\in\Omega$ 是未知参数， $\Omega$ 是 $\theta$ 可能的取值范围， $X_1...X_n$ 是来自总体的一个样本， $x_1...x_n$ 是样本 $X_1...X_n$ 的一组样本值，则似然函数的定义为：
$L(\theta)=\prod_{i=1}^{n}p(x_i;\theta)$ 使得似然函数取得最大值的一组 $\hat{\theta}(x_1,....x_n)$ 称为最大似然估计 $\theta$ 的最大似然估计值；相对的 $\hat{\theta}(X_1,....X_n)$ 称为最大似然估计量。

求取最大似然概率

容易注意到， $L(\theta)$ 与 $\ln{L(\theta)}$ 在同一 $\theta$ 处取得最大值，所以求取最大似然估计的步骤为：

写出似然函数: $L(\theta)=\prod_{i=1}^{n}p(x_i;\theta)$
取自然对数: $\ln{L(\theta)}=\ln{\prod_{i=1}^{n}p(x_i;\theta)}$
令 $\frac{\partial\ln{L(\theta)}}{\partial\theta_i}=0(i=1,2..n)$ ，求解即可得到 $\hat{\theta_i}(x_1,....x_n)$

似然和概率 （非严格定义）似然和概率并不是一个东西，因此不能称其为似然概率。似然函数是指，在某一假设下，已知数据发生的可能性，来评价哪一个假设更接近真实"似然概率" $\theta$ 的值。例如，抛三次硬币，结果为"正正反"，那么硬币正面向上的"似然概率"为 $\frac{2}{3}$ ；随着数据的增多(实验结果的增多)，该值将趋近于0.5。