不被大神Hinton认同,否认现有同行成果,谷歌这篇烧脑研究最终拿下ICML2019最佳论文

 

文章发布于公号【数智物语】 (ID:decision_engine),关注公号不错过每一篇干货。算法

 

 

 

做者 | 晓查 栗子 安妮框架

发自 | 凹非寺dom

量子位 出品 | 公众号 QbitAI机器学习

 

ICML 2019最佳论文来了!学习

 

今年,共有3424篇论文提交到这场一年一度的机器学习国际顶会上,大会共接收了774篇。有两篇论文,从千军万马中脱颖而出,成为ICML 2019最佳论文。测试

 

 

这份大奖花落谁家?谷歌的一篇名为《挑战无监督分离式表征的常见假设》的论文,代表 (没有概括偏置的) 无监督方法学不到可靠的分离式表征 (Disentangled Representations) 。spa

 

这项极富智慧和勇气的研究,几乎全面否认了现有的同行成果,也证实Hinton曾经的观点有问题:3d

 

 

另外一篇为《稀疏变分高斯过程回归的收敛速率》,做者为剑桥大学的3位研究人员。blog

 

详细看今年的最佳研究:ci

 

01最佳论文1:分离式表征,无法无监督学习

 

先用一句话归纳一下:谷歌大脑、ETH苏黎世、马普所组成的团队测试了12,000个模型,对现有的无监督分离式表征学习研究,发出了严重的质疑。

 

理解高维数据,用无监督的方式,把知识蒸馏成有用的表征,是深度学习的一个重要挑战。

 

一种方法是利用分离式表征(disentangled representation)的模型,它能够捕捉到各类相互独立的特征,若是其中一个特征改变了,其余特征不会受到影响。

 

 

这样的方法一旦成功,就能够作出真实世界里也能用的机器学习系统,不管是给机器人,仍是给自动驾驶车,以便应对训练中没见过的场景。

 

不过,在无监督的分离式表征学习上,新近的研究都很难看出这些方法到底有多好,局限又有多大。

 

谷歌AI团队给各类新近的成果,作了一个大规模的评估。评估结果对现有研究提出了严肃的挑战。而且给分离式学习往后的研究,提供了一些建议。

 

什么叫大规模的评估?谷歌团队训练了12,000个模型,覆盖了目前最重要的方法,以及评估指标。

 

 

重要的是,评估过程当中用到的代码,以及10,000个预训练模型,都已对外公布。

 

它们共同组成了一个巨大的库,叫作disentanglement_lib。让后来的研究人员,能够轻松站到前人的肩膀上。

 

大规模测试事后,谷歌发现了两个重大的问题:

 

一、并无发现任何经验证据,显示无监督方法能够学到可靠的分离式表征,由于随机种子和超参数彷佛比模型的选择 (Model Choice) 更重要。

 

也就是说,就算训练了大量的模型,一部分得出了分离式表征,也很难在不看ground truth标签的状况下把这些表征找出来。

 

除此以外,好用的超参数值,也并无在多个数据集里都好用。

 

谷歌团队说,这些结果吻合了他们提出的定理:

 

在数据集和模型没有概括偏置 (Inductive Biases) 的状况下,用无监督的方法学习分离式表征是不可能的。

 

换句话说,必需要在数据集和模型上,加个前提。

 

二、在参加评估的模型和数据集上,并无证明分离式表征对下游任务有帮助,好比:没有证据代表用了分离式表征,AI就能够用更少的标注来学习。

 

给后来者的建议是:

 

一、鉴于理论结果证明,不带概括偏置 (Inductive Biases) 的、无监督学习的分离式表征是不可能实现的,将来的研究应该清楚地描述出概括偏置,以及隐式和显式的监督方式。

 

二、为跨数据集的无监督模型选择,找到好用的概括偏置,是一个很是关键的问题。

 

三、用了分离式表征学习以后产生的具体优点,应该要证实出来。

 

四、实验,应该有能够复现的实验设定,在多种多样的数据集里适用。

 

 

顺便提一句,这是一项中选了ICLR 2019 workshop的研究,却最终成了ICML的最佳论文。

 

02最佳论文2:稀疏变分高斯过程回归的收敛速率

 

今年ICML的第二篇最佳论文是来自英国剑桥大学和机器学习平台Prowler.io的研究。

 

 

以前已经有人开发出了一种高斯过程后验的极好变分近似。避免出现数据集大小为N,计算时间复杂度为O(N3)的状况,将计算成本下降到O(NM2),其中M是一个远小于N的数。

 

虽然计算成本对于N是线性的,但算法的真正复杂度取决于如何增长M以确保必定的近似质量。

 

本文经过描述向后KL散度(相对熵)上界的行为来解决这个问题。研究者证实,若M比N增加得更慢,KL散度颇有可能会变得任意小。一个特例是,对于在具备常见的平方指数核的D维正态分布输入的回归,只要M = O(logD N)就足够保证收敛了。

 

结果代表,随着数据集的增加,高斯过程后验几率能够被很是容易地近似,并为如何在连续学习场景中增长M提供了一种具体的规则。

 

研究者证实了,从稀疏广义回归变分近似到后验广义回归的KL散度的边界,它只依赖于以前核的协方差算子特征值的衰减。

 

这个边界证实训练数据集中在一个小区域的光滑核容许高质量、很是稀疏的近似。当M≪N时,真正稀疏的非参数推断仍然能够提供对边界似然性和逐点后验的可靠估计。

 

本文做者在最后指出,具备非共轭可能性的模型的扩展,尤为是在Hensman等人的框架中由稀疏性引入的附加偏差,为将来的研究提供了一个有前景的方向。

 

这篇文章的第一做者是来自剑桥大学信息工程系的博士研究生David Burt,他的主要研究领域是贝叶斯非参数和近似推理。

 

 

做者之一Mark van der Wilk是Prowler.io的研究者,他也是剑桥大学机器学习专业的在读博士研究生,主要的研究领域是贝叶斯推理、强化学习、高斯过程模型等。

 

037篇最佳论文提名

 

除了2篇最佳论文外,还有7篇论文得到最佳论文提名,分别为:

一、Analogies Explained: Towards Understanding Word Embeddings(爱丁堡大学)

 

论文地址:
https://arxiv.org/abs/1901.09813

 

二、SATNet: Bridging deep learning and logical reasoning using a differentiable satisfiability solver(CMU、南加州大学等)

 

论文地址:
https://arxiv.org/abs/1905.12149

 

三、A Tail-Index Analysis of Stochastic Gradient Noise in Deep Neural Networks(巴黎萨克雷大学等)

 

论文地址:
https://arxiv.org/abs/1901.06053

 

四、Towards A Unified Analysis of Random Fourier Features(牛津大学、伦敦过国王学院)

 

论文地址:
https://arxiv.org/abs/1806.09178

 

五、Amortized Monte Carlo Integration(牛津大学等)

 

论文地址:
http://www.gatsby.ucl.ac.uk/~balaji/udl-camera-ready/UDL-12.pdf


六、Social Influence as Intrinsic Motivation for Multi-Agent Deep Reinforcement Learning(MIT、DeepMind、普林斯顿)


论文地址:
https://arxiv.org/abs/1810.08647

 

七、Stochastic Beams and Where to Find Them: The Gumbel-Top-k Trick for Sampling Sequences Without Replacement(荷兰阿姆斯特丹大学等)

 

论文地址:

https://arxiv.org/abs/1903.06059

 

04国内多所高校上榜

 

和往常相比,今年的ICML格外热闹。

 

德国博世公司抓取了ICML 19官网上的接收数据,将论文的接受比例、贡献最多的机构以及贡献最大的我的做者统计了出来。很多国内高校和学者榜上有名。

 

原统计地址:
https://www.reddit.com/r/MachineLearning/comments/bn82ze/n_icml_2019_accepted_paper_stats/

 

今年,共提交了3424篇论文,接收了774篇,接收率为22.6%。2018年,ICML的论文提交量为2473篇,接收621篇,接收率为25%。

 

和去年相比,今年论文提交论文数量增加很多,但录取率下降。那么,在这么多投稿机构中,谁是其中贡献度最高的那一个?

 

博世统计了接收论文的机构,排名标准是衡量一个机构贡献的论文总量,最终统计结果以下:

 

 

上图红色表示每一个机构包含的第一做者,绿色为最后包含的排名最后的做者

 

结果显示,科技巨头Google贡献最多,MIT第二,加州大学伯克利分校夺得季军。

 

其中,清华大学、北京大学、南京大学、香港中文大学、上海交通大学、阿里巴巴等多个中国高校和公司榜上有名。

 

在这些接收论文中,来自学术界的论文数量远多于工业界,论文来源构成以下:

 

  • 452篇论文(58.4%)为纯学术研究

  • 60篇论文(7.8%)来自纯产业界研究机构

  • 262篇论文(33.9%)的做者同时隶属于学术界和工业界

 

整体来看,学术界贡献了77%的论文,产业界贡献了23%。

 

在这么多投稿的做者中,哪些做者的贡献度最高?博世一样对此进行了统计。

 

 

结果显示,加州大学伯克利分校的机器学习大牛Michael Jordan参与论文数量最多,EPFL(洛桑联邦理工学院)教授Volkan Cevher位列第二,加州大学伯克利分校的Sergey Levine排名第三。

 

 

也有很多中国学者战绩颇佳,清华大学计算机科学与技术系的教授朱军、微软亚洲研究院的刘铁岩、清华大学软件学院的龙明盛等都在ICML 2019发表了4篇论文。

 

05传送门

 

最后,附上今年的ICML 2019大会官网:
https://icml.cc/

 

 

数智物语征稿启事0613.png

 

星标我,天天多一点智慧