复旦大学桂韬：当NLP邂逅Social Media--构建计算机与网络语言的桥梁

时间 2020-01-22 标签复旦大学桂韬 nlp 邂逅 social media 构建计算机网络语言桥梁

不到现场，照样看最干货的学术报告！html

嗨，你们好。这里是学术报告专栏，读芯术小编不按期挑选并亲自跑会，为你们奉献科技领域最优秀的学术报告，为同窗们记录报告干货，并千方百计搞到一手的PPT和现场视频——足够干货，足够新鲜！话很少说，快快看过来，但愿这些优秀的青年学者、专家杰青的学术报告，能让您在业余时间的知识阅读更有价值。git

人工智能论坛现在浩如烟海，有硬货、有干货的讲座却凤毛麟角。AI将来说·青年学术论坛自 2019 年 1 月 19 日启动以来，论坛已连续举办十二期，累计吸引上万人报名参加，报名群体遍及全国三十多个省份，境内外十三个国家，四百余所高校和科研院所。第十二期AI将来说·青年学术论坛（百度奖学金博士生特别专场）已于2020年1月5日下午在北京市百度科技园 K6 报告厅举行。复旦大学桂韬为你们带来报告《当NLP邂逅Social Media--构建计算机与网络语言的桥梁》。github

桂韬全场报告视频算法

桂韬，复旦大学天然语言处理实验室博士生，导师是张奇和黄萱菁教授。一直致力于网络语言的天然语言处理研究，包括信息抽取、序列标注、强化学习、元学习等。微信

报告内容：社交媒体已经深刻到了咱们生活的方方面面，网络语言在社交领域的沟通中获得了愈来愈普遍的应用，可是非规范化的社交语言会给咱们经常使用的天然语言处理（NLP）算法带来性能上的降低。报告主要内容聚焦于社交媒体与NLP的结合领域，以及如何构建计算机与网络语言的桥梁。网络

当NLP邂逅Social Media--构建计算机与网络语言的桥梁
架构

桂韬博士的报告分享主要包括网络语言概述、网络语言困境、网络语言脱困和网络语言价值等四个部分。框架

桂韬博士先介绍了网络语言概述的部分。社交媒体主要有如下特色：1）自发传播，社交媒体是人们彼此分享思想看法及创建关系的在线平台，每一个人都可以根据本身的意愿在社交平台上发布消息，以及发布评论；2）“社会化”属性，表现于社交媒体用户之间的关系的构建，强调人与人的互动，这也是社交媒体上魅力最大的一点；3）表现形式多样，包括文本、视频、音频、图片以及社区等。机器学习

社交媒体是人们在网络上发表意见、开展活动的总称，因为其自发传播、“社会化”属性和表现形式多样等特色，它已经成为人们平常生活中不可或缺的一部分。好比，近年来，以微博、微信以及社交网站等为表明的社会媒体在我国发展迅速。据2018年《微信数据报告》显示，微信月活跃用户突破十亿，天天产生450亿条消息。随着网路的不断普及，人们愈来愈多的交流也经过网络实现，也所以诞生一种网络上的天然交际语言，即网络语言。ide

网络语言的出现主要包括如下缘由：1）非人为因素，输入错误或者常识上的拼写错误；2）追求某种娱乐性或某种目的，故意拼错一些单词或使用某些语言。因为网络语言的非规范性，使其不一样于正常文本，也所以给热点追踪、信息查询和自动摘要等天然语言的应用带来了很是大的困难。常见的网络语言有“明年他要C位出道”，“这是神马规矩”，“I服了U”和“皮一下，很开心”等。

网络语言的困境包括：1）标注数据少，新闻领域的标注数据比网络语言大上几百倍，标注数据量少加上多样性致使NLP算法的性能很是差；2）旧词新意、另造新词，随着网络的发展，不少正规词汇不断被赋予新的含义，同时也会出现不少新的词汇，每每会使模型对句子、段落以及篇章的理解产生误差；3）语法、语用不规范，在开放的网络环境下，人们会倾向于使用简洁、高效和不拘一格的表达方式，这样会使得产生的语言不在正规语法的约束下，所以会给基于正规语法结构的NLP算法带来很是大的困难。

为应对网络语言所面临的困境，桂韬博士提出了使用迁移学习、外部知识、全局语义和动态建模等四个方法来帮助网络语言脱困。

针对标注数据少的问题，提出可使用新闻语料和无标注语料来辅助训练，好比使用CNN建模词语字符级别的信息，能够很是好地解决网络语言拼写错误的问题。并介绍了TPANN（Target Preserved Adversarial Neural Network, EMNLP 2017 ）方法来寻找新闻语料和网络语言语料的共同特征，而后把新闻预料上训练的模型迁移到网络语言语料上进行词性标注等，该方法在Twitter的三个词性标注数据集上都取得了很好的结果。

此外，经过对网络语言的学习和分析，能够发现网络语言不只包含正规的文本表达方式，还包含本身特有的表达方式。这些特有的表达方式是没法经过迁移学习从正式文本当中迁移过来，为了在迁移学习的时候不会使得特有的表达方式受到损害，又提出了DCNN（Dynamic Conversion Neural Networks, EMNLP 2018）方法。该方法仍然是用一个网络来建模正规表达文本和不正规表达文本，可是模型能够根据不一样的表达方式来生成不一样的分布，而后基于不一样的分布生成不一样的参数，即正规表达文本经过模型会生成一组参数来建模正规表达文本，而不正规表达文本经过模型会生成另外一组参数来建模不正规表达文本，这样能够保留网络语言的特性，并经过可视化的实验进行了验证。

旧词新意和另造新词是很是容易引发语言上歧义的问题，特别是对于中文来讲，字与字之间以及词与词之间是没有分隔符的，若是出现歧义现象会对中文的NLP算法产生很是大的损害。先前的NLP算法都是基于循环神经网络来作的，可是存在很大的缺陷，一是因为序列建模，每每速度很慢，二是在建模句子之后没法对可能存在歧义词的权重或表达从新调整。为了在建模句子之后能够从新调整可能存在歧义的词，同时可以并行处理，提出了一种LR-CNN(Lexicon Rethinking Convolutional Neural Network, IJCAI 2019)方法。该想法是很是简单的，当CNN卷积网络的宽度是2的时候，可以把一个句子匹配的全部词在不一样的位置上一一对应上，因此该方法能很是好地并行处理全部的字和词。引入反思的机制，能够在模型构建整个句子以后对可能存在匹配歧义的词调整它们的表达和权重，从而达到消除歧义的结果。该方法在社交媒体语料和新闻语料上进行测试时，在不一样长度的句子上都取得了比Lattice LSTM好的结果，同时在速度上也有很大的提高（尤为是比较长的句子）。

值得注意的是，LR-CNN方法中CNN的感觉野比较小，当句子比较短的时候，效果比Lattice LSTM好不少。为了得到更大的感觉野，同时又有消除歧义的能力，又提出了一种结合字典和图神经网络的LGN方法，是在天然语言处理领域中第一个在没有句法依存树的状况下、基于中文建模的一个图神经网络。该方法使用词典信息来建模字与字之间的关系，并经过引入全局节点来解决词典可能覆盖不全以及引入全局语义的问题，字与字的关系能够经过全局节点作到两步可达，基于这种机制反复迭代，并结合全局语义为词语消除歧义，并在相关的数据集上取得了很好的结果。

语法、语用不规范的问题也是网络语言面临的困境之一。在社交媒体上，人们会根据本身的使用习惯，发表观点或评论，这样可能会引入各类插入语的问题，致使词与词之间的依赖关系是动态变化的。先前的基于序列建模的方法，每每很难处理这种动态跳跃的问题。针对该问题，提出了基于强化学习的、动态跳跃链接的LSTM方法（AAAI 2019），不只能够基于前序建模词与词之间的关系，并且能够动态地挑选周围或前面的state来计算当前词的表达，从而能够动态建模依赖关系。该方法除了有理论证实以外，还在英文识别等任务中取得了比基于常规LSTM方法更好的结果。

桂韬博士在介绍完对网络语言NLP算法的改进以后，又介绍了网络语言的价值。使用网络语言挖掘社会价值已经有了不少的应用，包括股票预测、公共卫生分析以及实时事件检测等。并介绍了本身在挖掘网络语言价值上的两个工做：1）使用基于协做的强化学习框架，把多模态网路语言用于早期抑郁症的发现（AAAI 2019）；2)使用基于协做的强化学习框架，把网络语言的交互用于用户行为的预测（SIGIR 2019）。

最后，桂韬博士分享了本身的代码地址（https://github.com/guitaowufeng）和学术主页（https://scholar.google.de/citations?user=BrOLQdwAAAAJ&hl=zh-CN）。更多精彩内容请关注视频分享~

AI将来说*青年学术论坛