深度学习基础知识——信息论(自信息、信息熵与马尔科夫链)

信息论是在信息或不确定性可度量的前提下,研究有效、可靠、安全地传输信息的科学。
(【注】:符号约定:大写字母表示集合,小写字母表示集合中的事件)

1.前言

从常识来看,小概率事件的不确定性大,一旦出现必然使人感到意外,因此产生的信息量就大,特别是几乎不可能出现的事件一旦出现,必然产生极大的信息量;大概率事件是预料之中的事件,不确定性小,即使发生也没什么信息量,特别是概率为1的确定事件发生以后,不会给人以任何信息量。一般的,事件发生的概率越小,其不确定性越大,事件发生以后所含有的信息量就越大。

2.自信息与互信息

自信息是对消息或消息集合本身所含信息量多少的度量;而互信息是对消息之间或消息集合之间相互提供信息量多少的度量。

2.1 自信息

事件集合X中的事件x=ai的自信息定义为:
I X ( a i ) = − l o g P X ( a i ) I_X(a_i)=-logP_X(a_i) IX(ai)=logPX(ai)
简记为: I ( x ) = − l o g p ( x ) I(x)=-logp(x) I(x)=logp(x)
在这里插入图片描述

要求自信息I为非负值,对数的底必须大于1.
关于对数底的选取有以下几种:

  • 以2为底:单位为比特(bit),工程上常用。
  • 以3为底:单位为Tit。

例题:
在这里插入图片描述

4.信息熵/熵(Entropy)

自信息的平均值称为信息熵,又称为Shannon熵、通信熵,简称为,记为H(X)。
H ( X ) = E [ I ( X ) ] = ∑ x p X ( x ) I ( x ) = − ∑ x p ( x ) l o g p ( x ) H(X)=E[I(X)]=\sum\limits_{x} p_X(x)I(x)=-\sum\limits_{x} p(x)logp(x) H(X)=E[I(X)]=xpX(x)I(x)=xp(x)logp(x)
信息熵表明了X中事件发生的平均不确定性,即为了在观测或试验之前确定X中发生一个事件平均所需要的信息,或者在观测之后,确定X中每发生一个事件平均给出的信息量。

例题:
在这里插入图片描述
【注】:信息熵越大,不确定性越高。

与热力学上的熵类似,信息熵也是紊乱程度的一种度量。信息熵也是动态的,信息熵只会减少,不可能增加,这就是信息熵不增原理

5.交叉熵

6.KL散度

7.马尔科夫链

7.1 基本概念

马尔科夫链是一种特殊的随机过程,即是一种时间离散、状态离散的无后效过程。

7.2 转移概率

一步转移概率:

n步转移概率:

7.3齐次性和遍历性

(关于马尔科夫链的相关知识,未完待续)