《机器学习(周志华)》Chapter7 贝叶斯分类

1、贝叶斯决策论算法

    贝叶斯分类器通俗点理解就是在给定样本的状况下使得分类正确的几率越大,则分类器越好。反之分类错误的几率越小分类器越好。举个例子:以西瓜数据3.0为例,对编号为1的数据进行预测,预测是好瓜的几率越大分类器越好,这很容易理解。
网络


咱们能够将问题转化为最小化分类错误的几率,对于多分类类别咱们考虑分类成全部不一样类别指望损失(能够简单考虑为类别的平均值),假设有N种可能的假设,即y={c1, c2, ......cN},λij是将一个真实标记为cj的样本误分类为ci所产生的损失,就能够得出给定样本x的指望损失为(条件风险):函数


咱们训练的目的是经过训练数据寻找一个断定准则h使得总体样本指望损失最小:3d


显然若h能使每一个样本x都能最小化条件风险R(h(x)|x),则整体风险R(h)也将被最小化。blog


若是将λij写成:ci


即分类正确为0,分类错误为1变量

由于x分类为全部类别的几率为1,分类正确的几率只真实类别p(c|x),则条件风险为:im



咱们知道p(c|x)为后验几率,显示任务中一般难以直接得到,经过贝叶斯定位可获得后验几率:d3


可是又引出了求p(x|c)的问题,显示中的整体空间远大于样本空间,不少样本取值在训练集中根本没有出现,直接用评率来估计p(x|c)显然不行,由于“未被观测到”与“出现几率为零”一般是不一样的。极大似然估计是解决该问题的方式之一。统计


2、极大似然估计:

    要求条件几率p(x|c)先假定其具备某种肯定的几率分布形式,再机遇训练样本对几率分布的参数进行估计。假设p(x|c)具备肯定的形式而且被参数θc惟一肯定,则咱们的任务就是利用训练集D估计参数θc。将p(x|c)标记为p(x|θc)。

注意:(若对极大似然估计不熟悉的同窗能够参考浙江大学的《几率论与数理统计》,这里只作简单记录)




对LL(θc)求导等于零便可解出最大似然估计



可解出:


进而能够求出p(x|c)。


3、朴素贝叶斯分类器:

    计算P(x|c)的方式不一样,朴素贝叶斯分类器采用了属性条件独立性假设,类条件几率P(x|c)是全部属性上的联合几率,可得:









可是须要注意对未出现过的属性集会形成几率为0:


经常使用拉普拉斯修正:



4、半朴素贝叶斯分类器:

    朴素贝叶斯分类器采用了属性条件独立性假设,但现实任务中这个假设每每很难成立,由此产生了半朴素贝叶斯分类器。

    基本思想是适当考虑一部分属性间的相互依赖信息。“独依赖估计”(ODE)是半朴素贝叶斯分类器最经常使用的一种策略。


其中pai为属性xi所依赖的属性,称为xi的父属性。如何肯定pai这个父属性产生了以下几种算法法:


AODE计算公式以下:




其中TAN最大带权生成树算法,经过如下步骤生成树:



5、贝叶斯网:

    贝叶斯网用来刻画属性间的依赖关系,简单点说就是假设将相关属性用有向线段连接起来表示属性相互关联,而相互独立独立属性不链接,造成的图称为贝叶斯网,而后计算出属性的联合几率分布。而这个贝叶斯网的结构是未知的,经过训练数据来肯定结构,以下图:


上图表示x一、x2独立、x3和x4在给定x1的状况下独立、x4和x5在给定x2的状况下独立。

为根蒂的条件几率表,例如:

一个贝叶斯网B由结构G和参数θ两部分构成,即B=(G,θ),G是一个有向无环图,参数θ包含了每一个属性的条件几率表



由图能够看出贝叶斯网中三个变量之间的典型依赖关系:



就生成了道德图:


为了经过训练数据肯定贝叶斯网结构,经常使用评分函数

其中|B|是贝叶斯网的参数个数,f(θ)表示描述每一个参数θ所需的字节数;


是贝叶斯网B的对数似然。目标就是最小化s(B|D)。

f(θ)=1获得AIC评分函数:


获得BIC评分函数:


贝叶斯网络训练好以后就能经过一些属性变量的观测值来推测其余属性变量的取值。

对于属性值不完整的训练样本一般使用EM算法。