CCL 2020闭幕,数万人见证2020年中国NLP全貌剪影

2020-11-02 21:18:04

CCL 2020闭幕,数万人见证2020年中国NLP全貌剪影

作者 | 智源社区&AI科技评论

2020年10月30日—11月1日,“第十九届中国计算语言学大会” (The Nineteenth China National Conference on Computational Linguistics, CCL 2020)成功在线召开。本届会议由中国中文信息学会主办,海南大学承办,智源社区提供技术支持。

本次会议汇集了国内大多数自然语言处理领域的专家、学者、学生及从业人员,数万人同时在线观看,成为我国计算语言学领域的一次盛会,同时也是我国自然语言处理领域当前研究全貌的一次剪影。

本次大会收到303篇投稿(中文204篇,英文99篇),录用109篇论文(中文74篇,英文35篇)。总体录用率35.97%,中文论文录用率36.27%,英文论文录用率35.35%。

最终来自北京大学的李素建团队和来自中科院自动化研究所的赵军团队分别获得英文最佳论文,来自南京师范大学的周俊生团队和来自北京理工大学的慧慧团队获得中文最佳论文,另外来自北京语言大学的朱述承、刘鹏远等获得最佳海报奖,腾讯AI Lab获得最佳系统展示奖。

本届会议共包含了 7 场特邀报告、4场前沿讲习班,并围绕会议论文、科研经验、前沿动态综述、系统平台展示进行了全方位的展示。

1 特邀报告

10月31日上午,由来自北京大学的陆俭明教授做开场报告《亟需解决好中文信息处理和汉语本体研究的接口问题》。陆俭明教授是汉语言学界的泰斗,在学界被誉为20世纪中国现代汉语语法研究八大家之一。他在报告中指出,如今NLP研究如火如荼,然而汉语本体的研究成果却没能在当下的人工智能研究中派上用场,其根本原因在于没有解决好中文信息处理与汉语本体研究的接口问题。这一方面导致汉语言学的“掉队”,另一方面也使得NLP中缺乏“语言知识”。因此他建议,汉语本体研究应当更多地关注中文信息处理的需求,从当下的注重“理论”思辨,转向深入句法语义等的研究。

随后刘群教授围绕预训练模型做了主题为《预训练语言模型研究进展和趋势展望》的报告。刘群教授是华为诺亚方舟实验室语音语义首席科学家,曾获2019 年ACL最佳论文奖。刘群教授在报告中指出当前预训练语言模型的近期进展朝向五个方面发展,即更强大(大力出奇迹)、更小巧(压缩与加速)、更优秀(功能更多、性能更高、训练更快)、更聪明(外部知识融入)、更能干(跨界出圈)等。结合提到的这五个维度,刘群教授认为预训练语言模型的研究方兴未艾,未来还有无限的想象空间。此外,他还介绍了诺亚方舟实验室在NLP预训练模型方面的研究工作,包括哪吒(NEZHA)模型、BERT压缩三剑客(TinyBERT、DynaBERT、TernaryBERT)以及在多语言、解释、任意词序生成、融合知识、文本搜索等方面进行的预训练语言模型,基本是沿着五大维度进行开展。(Slides下载:https://liuquncn.github.io)

10月31日晚,来自德国汉堡大学的张建伟教授,做了《跨模态学习的自适应、预测和交互》的主题报告。张建伟教授是德国汉堡大学多模态技术研究所所长,德国汉堡科学院院士,是机器人领域专家。在单一模态信息匮乏的情况下,其他模态的信息将在总体上增强系统的鲁棒性、适应性和预测性。张建伟教授在报告中,分析了目前人工智能在机器人领域的发展现状,通过“2.0机器人与2.0人类”的项目介绍了大脑启发式深度学习、多模态数据处理、图像信息的语言理解、人机协作中的跨模式感知和学习等技术。

来自爱丁堡大学的Mirella Lapata教授,分享了其将NLP技术应用到电影分析(Movie Analysis)中的研究,主题报告为《What's This Movie About? Automatic Content Analysis and Summarization》。电影分析是许多任务的总称,包括自动解释、提取和总结电影的内容。Mirella 教授的研究根据编剧理论中的转折点等将电影生成形式化,并基于语言和视听信息,提出了一个图神经网络模型。Mirella指出,将荧幕剧本(screenplays)表示成(稀疏)图有助于提升可解释性。

11月1日上午,清华大学施路平教授做了主题为《面向人工通用智能的类脑计算》的报告。施路平教授是清华大学类脑计算研究中心主任,其研制的全球首款异构融合类脑计算“天机芯”曾被作为封面文章发表在《Nature》期刊上。类脑计算,简单来说是借鉴人脑存储处理信息的方式发展、基于神经形态、面向通用人工智能的的新型计算技术,这种技术打破了传统“冯·诺依曼”架构,具有学习能力,且具有超低功耗。施路平教授详细介绍了该领域的最新进展,极大开拓了自然语言处理领域学者的视野。

来自微软亚洲研究院的刘铁岩博士的报告主题为《四两拨千斤:实现高效的NLP模型预训练》。刘铁岩博士是微软亚洲研究院副院长,被公认为“排序学习”领域的代表人物,近年来他在深度学习、强化学习等方面也颇有建树,特别是最近研发的麻将AI Suphx火爆一时。报告中,刘铁岩博士介绍了他所带领的团队在NLP模型训练效率问题上的一些研究,他们分别从数据处理、模型结构、损失函数、优化算法等维度,将训练效率提升了一个数量级。

德国达姆施塔特技术大学的Iryna Gurevych教授的报告为《Let’s Argue: Understanding and Generating Arguments》,即理解和生成论据。Iryna 教授是计算论据(computational argumentation)领域的创始人之一,曾担任ACL 2018大会的程序委员会主席。分析和生成论据,即使对于人类来说也是一件相当困难的事情,如何利用NLP技术来解决该问题具有极大的挑战性。Iryna在报告中完整阐述了这一领域的进展,特别是他们发起的ArgumenText 项目。

由以上 7 场特邀报告可以看出,特邀嘉宾分别来自不同领域,研究主题与NLP研究或紧密或无关,这充分体现了CCL会议的深度性、前沿性和开放性。

2 论文收录&最佳论文奖

本届会议收录论文303篇,相比于2019年的371篇,出现大幅度下降,这很大程度是受疫情影响。

CCL 2020闭幕,数万人见证2020年中国NLP全貌剪影

从另一方面,本次会议收录论文在各个分领域的收录数量基本持平,NLP应用近两年增长迅速。

CCL 2020闭幕,数万人见证2020年中国NLP全貌剪影

论文录用率上,本年度无论是中文还是英文都保持在40%以下。

CCL 2020闭幕,数万人见证2020年中国NLP全貌剪影

本年度投稿论文来自108个大学和研究所,其中投稿最多的机构包括北京语言大学、苏州大学、清华大学、北京大学、新疆大学等,录用论文最多的机构前5名分别是北京语言大学、苏州大学、北京大学、清华大学和北京交通大学。

此外,组委会对收录论文的主题进行词云分析,其中中文论文中“汉语”、“分析”、“方法”为关键词,二英文论文则以“Network”、“Multi”、“Chinese”、“Model”等为主。

CCL 2020闭幕,数万人见证2020年中国NLP全貌剪影

经由组委会评定,本届会议评选出4篇最佳论文(英文2篇,中文2篇)、1篇最佳海报奖、1项最佳系统展示奖。

1. 最佳论文奖

(1)“Towards Causal Explanation Detection with Pyramid Salient-Aware Network”, Xinyu Zuo, Yubo Chen, Kang Liu, Jun Zhao, 中国科学院自动化所

CCL 2020闭幕,数万人见证2020年中国NLP全貌剪影

(2)“LiveQA: A Question Answering Dataset over Sports Live.” Qianying Liu, Sicong Jiang , Yizhong Wang and Sujian Li. 北京大学

CCL 2020闭幕,数万人见证2020年中国NLP全貌剪影

(3)“面向中文AMR标注体系的兼语语料库构建及识别研究.” 侯文惠 , 曲维光 , 魏庭新 , 李斌 , 顾彦慧 , 周俊生. 南京师范大学

CCL 2020闭幕,数万人见证2020年中国NLP全貌剪影

(4)“面向司法领域的高质量开源藏汉平行语料库构建.” 沙九, 周鹭琴, 冯冲, 李洪政, 张天夫, 慧慧. 北京理工大学

CCL 2020闭幕,数万人见证2020年中国NLP全貌剪影

2. 最佳海报奖

“伟大的男人和倔强的女人:基于语料库的形容词性别偏度历时研究”, 朱述承, 刘鹏远. 北京语言大学

CCL 2020闭幕,数万人见证2020年中国NLP全貌剪影

3. 最佳系统展示奖

文本理解系统TexSmart, 腾讯AI Lab

3 多种形式,聚焦NLP研究方方面面

在10月30日,清华大学刘知远副教授、中科院计算所沈华伟研究员、上海交通大学张伟楠副教授、新加坡国立大学雷文强博士分别就知识指导的NLP、图卷积神经网络、强化学习、对话式推荐四个领域做了全面、深度的讲习报告,对了解相关领域的最新前沿进展意义重大。

在30日夜晚,来自中国人民大学的赵鑫副教授、中科院计算所的冯洋副研究员分别从教师的视角介绍了他们多年以来的研究经验,包括研究生的早期科研应该怎么走,如何做好的研究等。此外,来自复旦大学的桂韬博士生(导师:黄萱菁、张奇)和上海交通大学的张倬胜博士生(导师:赵海)从学生视角讲述了他们在科研当中所遇到的困难与克服办法。这一学生研讨会,聚焦于学生在科研当中遇到的各种问题,对学生的科研道路具有重要参考意义。

在10月31日下午举办了两场评测研讨会,共有五个评测任务,分别为智源-京东多模态对话挑战大赛、“讯飞-法研杯”司法阅读理解、“小牛杯”幽默计算-情景喜剧笑点识别、“古联杯”古籍文献命名实体识别、中文语义依存图分析等。

11月1日下午,分别由10位来自不同高校、单位的学者分别就NLP领域不同方向的前沿动态进行了综述报告,包括语言生成(周浩,字节跳动)、语义理解和生成(宋林峰,腾讯)、信息抽取(张奇,复旦大学)、常识(吴俣,微软亚洲研究院)、闲聊型对话(张伟楠,哈工大)、任务对话(俞舟,哥伦比亚大学)、预训练语言模型(蓝振忠,西湖大学)、机器翻译(苏劲松,厦门大学)、 模型结构优化(肖桐,东北大学)、跨语言学习(张梅山,天津大学)。

大会主页:http://cips-cl.org/static/CCL2020/index.html