Zipf分布

时间 2021-01-20 标签公式动态规划

有一个基本定律，就是大家常说对于内容的访问遵循80/20原则，也就是20%的内容，会占有80%的访问量。

Zipf分布与其类似。

这是一个定性的原则，定量来说，内容访问近似符合Zipf定律(Zipf's law), 这个定律是美国语言学家Zipf发现的，他在1932年研究英文单词的出现频率时，发现如果把单词频率从高到低的次序排列，每个单词出现频率和它的符号访问排名存在简单反比关系：

这里 r 表示一个单词的出现频率的排名，P(r)表示排名为r的单词的出现频率.

(单词频率分布中 C约等于0.1, a约等于1)

后人将这个分布称为齐夫分布，这个分布是一个统计型的经验规律，描述了这样一个定理：只有少数英文单词经常被使用，大部分的单词很少被使用。这个定理也在很多分布里面得到了验证，比如人们的收入，互联网的网站数量和访问比例，互联网内容和访问比例(其他分>布两个常数有所不同,a越大，分布越密集,对于VOD来说某些时候符合双zipf分布)。

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~··

（来自维基百科）

齐夫定律可以表述为：在自然语言的语料库里，一个单词出现的频率与它在频率表里的排名成反比。所以，频率最高的单词出现的频率大约是出现频率第二位的单词的2倍，而出现频率第二位的单词则是出现频率第四位的单词的2倍。这个定律被作为任何与power law probability distributions有关的事物的参考。

理论

这个“定律”是哈佛大学的语言学家 George Kingsley Zipf（IPA[zɪf]）1949年发表的。

比如，在 Brown 语料库中，“the”是最常见的单词，它在这个语料库中出现了大约7%（100万单词中出现69971次）。正如齐夫定律中所描述的一样，出现次数为第二位的单词“of”占了整个语料库中的3.5%（36411次），之后的是“and”（28852次）。仅仅135个字汇就占了Brown 语料库的一半。

齐夫定律是一个实验定律，而非理论定律。齐夫分布可以在很多现象中被观察到。齐夫分布的在现实中的起因是一个争论的焦点。齐夫定律很容易用点阵图观察，坐标为log（排名）和log（频率）。比如，“the”用上述表述可以描述为x = log(1), y = log(69971)的点。如果所有的点接近一条直线，那么它就遵循齐夫定律。

最简单的齐夫定律的例子是“1/f function”。给出一组齐夫分布的频率，按照从最常见到非常见排列，第二常见的频率是最常见频率的出现次数的½，第三常见的频率是最常见的频率的1/3，第n常见的频率是最常见频率出现次数的1/n。然而，这并不精确，因为所有的项必须出现一个整数次数，一个单词不可能出现2.5次。然而，在一个广域范围内并且做出适当的近似，许多自然现象都符合齐夫定律

===========================================================================

下面是某个系统VOD内容的访问分布，第一幅图是访问频率曲线，Y轴是内容的访问次数，X轴是内容根据访问次数的排名, 我们可以看到，多数访问集中于少量内容上:

第二幅图是对数轴的访问频率曲线，源数据和上图一致,可以看到近似为一条直线：

从曲线的斜率可以计算出，这里的内容访问频率分布，a约等于0.6(不同种类的内容a的大小也不一样)。