衡量文档相似性的一种方法-----词移距离 Word Mover's Distance

转载:https://blog.csdn.net/qrlhl/article/details/78512598

问题的提出

假如现在有一个任务,是判断两段文本之间的相似性,那我们应该怎么做呢?一个很自然的想法是用word2vec对两段文本的词向量化,然后再利用欧氏距离或者余弦相似性进行求解。不过这种方法有着致命的缺陷,即无法从文档整体上来考虑相似性,仅仅是基于词,这就造成了很大的信息缺失问题,下面要介绍的这种方法可以从文档整体上来考虑两个文档之间的相似性,这种技术称为词移距离(WMD)。

词移距离(WMD)

究竟什么才是词移距离呢?这要从Word2Vec讲起。Word2Vec将词映射为一个词向量,在这个向量空间中,语义相似的词之间距离会比较小,而词移距离(WMD)正是基于word2vec的这一特性开发出来的。

正如上面所讲到的,Word2Vec得到的词向量可以反映词与词之间的语义差别,那么如果我们希望有一个距离能够反映文档和文档之间的相似度,应该怎么做呢?一个想法是将文档距离建模成两个文档中词的语义距离的一个组合,比如说对两个文档中的任意两个词所对应的词向量求欧氏距离然后再加权求和,大概是这样的形式:i,j=1nTijc(i,j)∑i,j=1nTijc(i,j),其中c(i,j)c(i,j)i,ji,j两个词所对应的词向量的欧氏距离。

那我们怎样得到这个加权矩阵TT呢?又或者说这个加权矩阵TT代表什么含义呢?在我看来,这个加权矩阵TT有些类似于HMM中的状态转移矩阵,只不过其中的概率转换为权重了而已。我们再来看下面这个图:

这里写图片描述

这里有两个文档,去除停用词后,每篇文档仅剩下4个词,我们就是要用这四个词来比较两个文档之间的相似度。在这里,我们假设’Obama’这个词在文档1中的的权重为0.5(可以简单地用词频或者TFIDF进行计算),那么由于’Obama’和’president’的相似度很高,那么我们可以给由’Obama’移动到’president’很高的权重,这里假设为0.4,文档2中其他的词由于和’Obama’的距离比较远,所以会分到更小的权重。这里的约束是,由文档1中的某个词ii移动到文档2中的各个词的权重之和应该与文档1中的这个词ii的权重相等,即’Obama’要把自己的权重(0.5)分给文档2中的各个词。同样,文档2中的某个词jj所接受到由文档1中的各个词所流入的权重之和应该等于词jj在文档2中的权重。

为什么要有这样的操作呢?因为我们可以设想,i,j=1nTijc(i,j)∑i,j=1nTijc(i,j)代表的是文档1要转换为文档2所需要付出的总代价。将这种代价求得下界即最小化之后,即可求得所有文档a中单词转移到文档b中单词的最短总距离,代表两个文档之间的相似度。

举例说明

形象化的考虑一下,我们有三个文档,文档1中每个词都跟“王者荣耀”紧密相关;文档2中只有一个词跟“王者荣耀”密切相关,其余词都跟“王者荣耀”完全无关;文档3中有一个词跟“王者荣耀”密切相关,其他词都跟“王者荣耀”有点关系但关联性不大。那么可以想象,WMD(d1,d2)>WMD(d1,d3)WMD(d1,d2)>WMD(d1,d3),因为文档1中的词和文档2中和“王者荣耀”完全无关的词之间的距离要比文档1中的词和文档3中和“王者荣耀”有点关系但关联性不大的词之间的距离要大。

带监督的词移距离(Supervised Word Mover’s Distance)

我们理解了WMD距离,那么问题来了,学习这个权重矩阵用来聚类虽好(告诉我们哪些文档比较相近),但是, 用来分类却很差,这就要引入监督学习。

为什么? 因为一些文章虽然近义词很多, 但是表达的不是一个语义和主题. 比如: I love playing football 和 I like playing piano . 虽然看起来句式差不多, 可能会归为同类, 但是如果打标签时如果是”运动”和”艺术”两类, 显然就不能用WMD直接分类了. 因为, WMD没有加入 football和”运动”是强相关的信息.

所以, 论文Supervised Word Mover’s Distance给出的解决方案就是在WMD距离中加入可以训练类别权重的功能:

image

这里的dd加入了类别权重ww:

image

单词间距离也要进行调整(单词间距离也因为类别不同需要调整距离),加入训练参数矩阵AA

参考文献:

  1. 如何通过词向量技术来计算2个文档的相似度?
  2. Supervised Word Mover’s Distance (可监督的词移距离) – NIPS 2016论文精选#2