为何 NLP 与股票预测息息相关


在许多 NLP 问题中,咱们最终会获得一个序列并将它编码成一个单个固定大小的形式,而后将该形式编码到另外一个序列中。例如,咱们可能会标记出文本中的实体,然后将其从英语翻译成法语或将音频转换为文本。NLP 领域涉及方方面面的大量的工做,不少成果的性能正在达到世界领先水平。算法



在我看来,NLP 和金融分析最大的区别是:语言虽然有必定的结构保证,可是结构的规则是模糊的。另外一方面,市场并无承诺会提供一个可学习的结构,这样的结构之因此存在是创建在此项目会被证实或反驳的假设之上(而不是可能证实或反驳,若是我能找到该结构)。


假设结构是存在的,以咱们编码段落语义的方式来归纳市场当前状态的想法对我来讲彷佛是合理的。若是这尚未意义,请继续阅读,总会有意义的。


你应该知道它所持有的公司的一个单词(Firth,J. R. 1957:11)。


有大量关于单词嵌入的文献。Richard Socher 的演讲是一个很好的开始。


总之,咱们能够将语言中的全部单词作成一个几何形状,这个几何形状可捕捉单词的意义和它们之间的关系。你可能已见过“国王+女人=女王”这个例子或者其余相似的例子。




单词之间的几何图形。经过观察上述单词,咱们能够看出公司和其 CEO 之间内在的几何关系。


嵌入是很酷的,由于它们容许咱们以一种精简的方式来表达信息。旧的表示单词的方式是在知道单词数量的状况下设置出一个向量(一个大的数字列表),随后在咱们当前查找的单词位置将其设置为1。这不是一种有效的方法,也没捕捉到任何意义。使用嵌入法,咱们能够在固定数量的维度上表示全部的单词(300彷佛不少,50比较好),而后用更高维的几何去理解它们。


下面图片中有一个示例。整个互联网都在或多或少的训练嵌入。通过几天的集中计算,每一个词都被嵌入在了相对高维空间里。这个“空间”是有几何形状的,相似距离这样的概念,因此咱们能够找到那些靠的比较近的单词。该方法的做者或是发明者曾经举过这样一个例子。如下是与青蛙(Frog)最接近的单词。




根据 Glove 算法(单词嵌入的一种),以上单词是离“frog”最近的几个单词。请注意它是如何知道这些你之前从未听过的单词的,也请注意它是如何捕捉到这些单词与 Frog 的类似性的。


可是咱们能嵌入的不单单是单词,好比,咱们也能够作股票市场嵌入。api

----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------性能