复旦大学桂韬:当NLP邂逅Social Media--构建计算机与网络语言的桥梁

不到现场,照样看最干货的学术报告!html

嗨,你们好。这里是学术报告专栏,读芯术小编不按期挑选并亲自跑会,为你们奉献科技领域最优秀的学术报告,为同窗们记录报告干货,并千方百计搞到一手的PPT和现场视频——足够干货,足够新鲜!话很少说,快快看过来,但愿这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。git


人工智能论坛现在浩如烟海,有硬货、有干货的讲座却凤毛麟角。AI将来说·青年学术论坛自 2019 年 1 月 19 日启动以来,论坛已连续举办十二期,累计吸引上万人报名参加,报名群体遍及全国三十多个省份,境内外十三个国家,四百余所高校和科研院所。 第十二期AI将来说·青年学术论坛(百度奖学金博士生特别专场)已于2020年1月5日下午在北京市百度科技园 K6 报告厅举行。复旦大学桂韬为你们带来报告《当NLP邂逅Social Media--构建计算机与网络语言的桥梁》。github

桂韬场报告视频算法

桂韬,复旦大学天然语言处理实验室博士生,导师是张奇和黄萱菁教授。一直致力于网络语言的天然语言处理研究,包括信息抽取、序列标注、强化学习、元学习等。微信

报告内容:社交媒体已经深刻到了咱们生活的方方面面,网络语言在社交领域的沟通中获得了愈来愈普遍的应用,可是非规范化的社交语言会给咱们经常使用的天然语言处理(NLP)算法带来性能上的降低。报告主要内容聚焦于社交媒体与NLP的结合领域,以及如何构建计算机与网络语言的桥梁。网络

当NLP邂逅Social Media--构建计算机与网络语言的桥梁
架构

桂韬博士的报告分享主要包括网络语言概述、网络语言困境、网络语言脱困和网络语言价值等四个部分。框架

桂韬博士先介绍了网络语言概述的部分。社交媒体主要有如下特色:1)自发传播,社交媒体是人们彼此分享思想看法及创建关系的在线平台,每一个人都可以根据本身的意愿在社交平台上发布消息,以及发布评论;2)“社会化”属性,表现于社交媒体用户之间的关系的构建,强调人与人的互动,这也是社交媒体上魅力最大的一点;3)表现形式多样,包括文本、视频、音频、图片以及社区等。机器学习

社交媒体是人们在网络上发表意见、开展活动的总称,因为其自发传播、“社会化”属性和表现形式多样等特色,它已经成为人们平常生活中不可或缺的一部分。好比,近年来,以微博、微信以及社交网站等为表明的社会媒体在我国发展迅速。据2018年《微信数据报告》显示,微信月活跃用户突破十亿,天天产生450亿条消息。随着网路的不断普及,人们愈来愈多的交流也经过网络实现,也所以诞生一种网络上的天然交际语言,即网络语言。ide

网络语言的出现主要包括如下缘由:1)非人为因素,输入错误或者常识上的拼写错误;2)追求某种娱乐性或某种目的,故意拼错一些单词或使用某些语言。因为网络语言的非规范性,使其不一样于正常文本,也所以给热点追踪、信息查询和自动摘要等天然语言的应用带来了很是大的困难。常见的网络语言有“明年他要C位出道”,“这是神马规矩”,“I服了U”和“皮一下,很开心”等。

网络语言的困境包括:1)标注数据少,新闻领域的标注数据比网络语言大上几百倍,标注数据量少加上多样性致使NLP算法的性能很是差;2)旧词新意、另造新词,随着网络的发展,不少正规词汇不断被赋予新的含义,同时也会出现不少新的词汇,每每会使模型对句子、段落以及篇章的理解产生误差;3)语法、语用不规范,在开放的网络环境下,人们会倾向于使用简洁、高效和不拘一格的表达方式,这样会使得产生的语言不在正规语法的约束下,所以会给基于正规语法结构的NLP算法带来很是大的困难。

为应对网络语言所面临的困境,桂韬博士提出了使用迁移学习、外部知识、全局语义和动态建模等四个方法来帮助网络语言脱困。

针对标注数据少的问题,提出可使用新闻语料和无标注语料来辅助训练,好比使用CNN建模词语字符级别的信息,能够很是好地解决网络语言拼写错误的问题。并介绍了TPANN(Target Preserved Adversarial Neural Network, EMNLP 2017 )方法来寻找新闻语料和网络语言语料的共同特征,而后把新闻预料上训练的模型迁移到网络语言语料上进行词性标注等,该方法在Twitter的三个词性标注数据集上都取得了很好的结果。

此外,经过对网络语言的学习和分析,能够发现网络语言不只包含正规的文本表达方式,还包含本身特有的表达方式。这些特有的表达方式是没法经过迁移学习从正式文本当中迁移过来,为了在迁移学习的时候不会使得特有的表达方式受到损害,又提出了DCNN(Dynamic Conversion Neural Networks, EMNLP 2018)方法。该方法仍然是用一个网络来建模正规表达文本和不正规表达文本,可是模型能够根据不一样的表达方式来生成不一样的分布,而后基于不一样的分布生成不一样的参数,即正规表达文本经过模型会生成一组参数来建模正规表达文本,而不正规表达文本经过模型会生成另外一组参数来建模不正规表达文本,这样能够保留网络语言的特性,并经过可视化的实验进行了验证。

旧词新意和另造新词是很是容易引发语言上歧义的问题,特别是对于中文来讲,字与字之间以及词与词之间是没有分隔符的,若是出现歧义现象会对中文的NLP算法产生很是大的损害。先前的NLP算法都是基于循环神经网络来作的,可是存在很大的缺陷,一是因为序列建模,每每速度很慢,二是在建模句子之后没法对可能存在歧义词的权重或表达从新调整。为了在建模句子之后能够从新调整可能存在歧义的词,同时可以并行处理,提出了一种LR-CNN(Lexicon Rethinking Convolutional Neural Network, IJCAI 2019)方法。该想法是很是简单的,当CNN卷积网络的宽度是2的时候,可以把一个句子匹配的全部词在不一样的位置上一一对应上,因此该方法能很是好地并行处理全部的字和词。引入反思的机制,能够在模型构建整个句子以后对可能存在匹配歧义的词调整它们的表达和权重,从而达到消除歧义的结果。该方法在社交媒体语料和新闻语料上进行测试时,在不一样长度的句子上都取得了比Lattice LSTM好的结果,同时在速度上也有很大的提高(尤为是比较长的句子)。

值得注意的是,LR-CNN方法中CNN的感觉野比较小,当句子比较短的时候,效果比Lattice LSTM好不少。为了得到更大的感觉野,同时又有消除歧义的能力,又提出了一种结合字典和图神经网络的LGN方法,是在天然语言处理领域中第一个在没有句法依存树的状况下、基于中文建模的一个图神经网络。该方法使用词典信息来建模字与字之间的关系,并经过引入全局节点来解决词典可能覆盖不全以及引入全局语义的问题,字与字的关系能够经过全局节点作到两步可达,基于这种机制反复迭代,并结合全局语义为词语消除歧义,并在相关的数据集上取得了很好的结果。

语法、语用不规范的问题也是网络语言面临的困境之一。在社交媒体上,人们会根据本身的使用习惯,发表观点或评论,这样可能会引入各类插入语的问题,致使词与词之间的依赖关系是动态变化的。先前的基于序列建模的方法,每每很难处理这种动态跳跃的问题。针对该问题,提出了基于强化学习的、动态跳跃链接的LSTM方法(AAAI 2019),不只能够基于前序建模词与词之间的关系,并且能够动态地挑选周围或前面的state来计算当前词的表达,从而能够动态建模依赖关系。该方法除了有理论证实以外,还在英文识别等任务中取得了比基于常规LSTM方法更好的结果。

桂韬博士在介绍完对网络语言NLP算法的改进以后,又介绍了网络语言的价值。使用网络语言挖掘社会价值已经有了不少的应用,包括股票预测、公共卫生分析以及实时事件检测等。并介绍了本身在挖掘网络语言价值上的两个工做:1)使用基于协做的强化学习框架,把多模态网路语言用于早期抑郁症的发现(AAAI 2019);2)使用基于协做的强化学习框架,把网络语言的交互用于用户行为的预测(SIGIR 2019)。

最后,桂韬博士分享了本身的代码地址(https://github.com/guitaowufeng)和学术主页(https://scholar.google.de/citations?user=BrOLQdwAAAAJ&hl=zh-CN)。更多精彩内容请关注视频分享~

AI将来说*青年学术论坛

第一期 数据挖掘专场

1. 李国杰院士:理性认识人工智能的“头雁”做用

2. 百度熊辉教授:大数据智能化人才管理

3. 清华唐杰教授:网络表示学习理论及应用

4. 瑞莱智慧刘强博士:深度学习时代的个性化推荐

5. 清华柴成亮博士:基于人机协做的数据管理

第二期 天然语言处理专场

1中科院张家俊:面向天然语言生成的同步双向推断模型

2. 北邮李蕾:关于自动文本摘要的分析与讨论

3. 百度孙珂:对话技术的产业化应用与问题探讨

4. 阿里谭继伟:基于序列到序列模型的文本摘要及淘宝的实践

5. 哈工大刘一佳:经过句法分析看上下文相关词向量

第三期 计算机视觉专场

1. 北大彭宇新:跨媒体智能分析与应用

2. 清华鲁继文:深度强化学习与视觉内容理解

3. 百度李颖超:百度加强现实技术及应⽤

4. 中科院张士峰:基于深度学习的通用物体检测算法对比探索

5. 港中文李弘扬 :物体检测最新进展

第四期 语音技术专场

1. 中科院陶建华:语音技术现状与将来

2. 清华大学吴及:音频信号的深度学习处理方法

3. 小米王育军:小爱背后的小米语音技术

4. 百度康永国:AI 时代的百度语音技术

5. 中科院刘斌:基于联合对抗加强训练的鲁棒性端到端语音识别

第五期 量子计算专场

1. 清华大学翟荟:Discovering Quantum Mechanics with Machine Learning

2. 南方科技大学鲁大为:量子计算与人工智能的碰撞

3. 荷兰国家数学和计算机科学中心(CWI)李绎楠:大数据时代下的量子计算

4. 苏黎世联邦理工学院(ETH)杨宇翔:量子精密测量

5. 百度段润尧:量子架构——机遇与挑战

第六期 机器学习专场

1. 中科院张文生:健康医疗大数据时代的认知计算

2. 中科院庄福振:基于知识共享的机器学习算法研究及应用

3. 百度胡晓光:飞桨(PaddlePaddle)核心技术与应用实践

4. 清华大学王奕森:Adversarial Machine Learning: Attack and Defence

5. 南京大学赵申宜:SCOPE - Scalable Composite Optimization for Learning

第七期 自动驾驶专场

1. 北京大学查红彬:基于数据流处理的SLAM技术

2. 清华大学邓志东:自动驾驶的“感”与“知” - 挑战与机遇

3. 百度朱帆:开放时代的自动驾驶 - 百度Apollo计划

4. 北理宋文杰:时空域下智能车辆未知区域自主导航技术

第八期 深度学习专场

1. 中科院文新:深度学习入门基础与学习资源

2. 中科院陈智能:计算机视觉经典——深度学习与目标检测

3. 中科院付鹏:深度学习与机器阅读

第九期 个性化内容推荐专场

1. 人民大学赵鑫:基于知识与推理的序列化推荐技术研究

2. 中科院赵军:知识图谱关键技术及其在推荐系统中的应用

第十期 视频理解与推荐专场

1. 北京大学袁晓如:智能数据可视分析

第十一期 信息检索与知识图谱专场

1. 人民大学徐君:智能搜索中的排序-突破几率排序准则

2. 北京邮电大学邵蓥侠:知识图谱高效嵌入方法

3. 百度宋勋超:百度大规模知识图谱构建及智能应用

4. 百度周景博:POI知识图谱的构建及应用

5. 百度冯知凡:基于知识图谱的多模认知技术及智能应用

留言 点赞 发个朋友圈

咱们一块儿分享AI学习与发展的干货

推荐文章阅读

ACL2018论文集50篇解读

EMNLP2017论文集28篇论文解读

2018年AI三大顶会中国学术成果全连接

ACL2017 论文集:34篇解读干货全在这里

10篇AAAI2017经典论文回顾

长按识别二维码可添加关注

读芯君爱你