和 Geoffery Hinton 面对面聊聊

 

和 Geoffery Hinton 面对面聊聊

雷锋网 AI 科技评论按:在今年的谷歌 IO 2019 大会上有个环节,邀请了「深度学习教父」、也是 2018 年图灵奖获奖者之一的 Geoffery Hinton 聊一聊学术、非学术的各种话题。整个过程很轻松,就是聊聊各类话题,不过 Hinton 老爷子一如既往地学术风气十足。雷锋网 AI 科技评论根据视频回放把访谈内容听译整理以下。有小部分删节。算法

主持人:你们好,我是 Nicholas Thompson,Wired 记者。今天咱们要和 Geoffery Hinton 面对面聊一聊。提及 Hinton 他身上有两件事让我很敬佩,第一件固然是他很能坚持,即使全部别的人都说他的想法很糟糕,他也坚持相信本身,坚持一直作下去。别的「有很糟糕的想法」的人很受到他的鼓励,包括我本身。第二件就是,我作了大半辈子管理者,能够说收集了各类各样的职位头衔,而当我看到 Hinton 的简介的时候,他的头衔简直不能更加平庸 —— 就是谷歌工程 Fellow(Google Engineering Fellow)而已。让咱们邀请他上台。编程

Hinton:谢谢,很高兴来到这里。网络

和 Geoffery Hinton 面对面聊聊

为何要坚持神经网络

主持人:那咱们开始吧。我记得大概是 20 年前,你开始写一些最先的产生影响力的论文,别人看了之后以为「唔,挺聪明的想法,可是咱们没办法设计这样的电脑」。跟你们谈谈你为何能一直坚持、为何那么相信本身找到了很重要的东西?框架

Hinton:首先纠正你一下那是 40 年前。在我看来,大脑没办法以别的方式运转,它只能是学习链接的强弱。那么,若是你想要制造一个能作智能的事情的机器,你面前有两个选择,给它编程,或者让它学习。显然咱们人类的智慧不是被别人编写出来的,因此就只能是「学习」。只有这一种可能。机器学习

主持人:那你能再给你们解释一下「神经网络」这个概念吗?在场的多数人应该都是知道的,不过咱们仍是想听听你最初的想法,以及它是如何发展的。函数

和 Geoffery Hinton 面对面聊聊

Hinton:首先你有一些很是简单的处理单元,能够看作是神经元的简单形式。它们能接受传入的信号,每一个信号都有权重,这些权重能够变化,这就是学习的过程。而后神经元作的事情就是先把传入的信号值乘上权重,再把它们全都加起来获得一个和,最后再决定是否要把这个和传送出去;好比这个值足够大,就传送出去,不够大或者是负数,就不传送。就这么简单。你只须要把成千上万个这样的单元互相链接起来,里面有成千上万的成千上万倍的权重,而后学习到这些权重,那你就能够作到任何事了。难点只在于如何学习权重。学习

主持人:你是在何时开始以为,这种作法和人类大脑的运转方式差很少的?测试

Hinton:神经网络一开始就是仿照人类大脑的样子设计的。字体

主持人:好比在你人生中的某个时候你开始意识到了人类大脑是怎么工做的,多是在 12 岁的时候,也多是在 25 岁的时候,那么你是在何时开始、以及如何决定了你要仿照人类大脑的样子设计神经网络的?大数据

Hinton:差很少一知道人类大脑是这么工做的就决定了吧。作这个研究的整个思路就是模仿人类的大脑的链接,而后试着学习这些链接权重。我其实不是这个思路的创始人,图灵就有过一样的思路。虽然图灵为标准计算机科学的发展作出了很大贡献,可是他就认为人类大脑是一个没有什么明确结构、链接权重也都是随机值的设备,而后只须要用强化学习的方式改变这些权重,它就能够学到任何东西。他以为「智慧」的最好的模式就是这样的。还有不少别的人也都有差很少的想法。

主持人:上世纪 80 年代的时候你在这方面的研究让你变得小有名气,但后来,从何时开始其它的研究者就开始放弃这个方向了呢?只有你一我的坚持下来了。

Hinton:(停顿了一下)总有那么一小拨人是坚持相信、坚持到了今天的,尤为是心理学领域里。不过计算机科学这边能坚持的就少一点,由于上世纪 90 年代的时候,领域内的数据集很小、计算机也没有那么快,这时候还有其它类型的方法出现,好比支持向量机(SVM),它们在那样的条件下效果更好,受到噪声的影响也没那么严重。这就开始让人感受到沮丧了,虽然咱们在 80 年代开发了反向传播,咱们也相信它能解决任何问题,但那时候咱们搞不清它「为何没能解决任何问题」。后来咱们知道了让神经网络发挥实力须要数据和计算力都有很大的规模,但当时没人知道。

主持人:大家当时觉得它效果很差的缘由是什么?

Hinton:咱们觉得是算法很差、目标函数很差等等各类缘由。我本身很长时间内都有一个想法,以为是由于咱们在作监督学习,须要标注不少数据;那么咱们应该作的是无监督学习,从没有标签的数据中学习。但最后咱们发现主要缘由仍是在规模上。

主持人:听起来颇有趣,其实只是数据量不足,可是大家当时觉得数据量够了,可是标注得很差 —— 大家找错了问题了对吗?

和 Geoffery Hinton 面对面聊聊

Hinton:我当时以为「用有标注的数据」就是不对的,人类的大多数学习过程都没有用到任何标签,就只是在建模数据中的结构。其实我如今也还相信这个,我以为随着计算机变得愈来愈快,给定一个足够大的数据集之后就应该先作无监督学习;无监督学习作完之后,就能够用更少的标注数据学习。

主持人:到了九十年代,你还继续在学术界作研究,还在发表论文,可是没能继续解决愈来愈多的问题。你当时有没有想过,以为我受够了、我要作点别的去?仍是就是很坚决地要一直作下去?

Hinton:就是要坚决作下去,这是必定能行的。你看,人类大脑就是经过改变这些链接来学习的,咱们去研究、去模仿就行了。学习这些链接的强弱可能会有不少种不一样的方式,大脑用了某一种,可是其余的方法也有多是可行的。不过你老是须要找到一种学习链接权重的方法。这一点我历来没有怀疑过。

看到但愿

主持人:大概在何时看起来好像行得通了?

Hinton:八十年代的时候其实有件事让你们很头疼,就是若是你设计了一个有不少隐层(中间层)的神经网络,你没办法训练它们。有一些很简单的任务里的神经网络是能够训练的,好比识别手写字体,可是对于大多数比较深的神经网络,咱们都不知道要怎么训练。到了大约 2005 年,我想到了一些对深度神经网络作无监督训练的点子。具体来讲是,从你的输入,好比说是一些像素,学习一些特征检测器,学习过以后它们就能够很好地解释为何这些像素是这样的。而后你把这些特征检测器做为数据,把它们做为输入再学习另外一批特征检测器,就能够解释那些特征检测器之间为何会有关联性。那么就这样一层又一层地学。颇有趣的是,你能够经过数学证实,当你学的层数愈来愈多的时候,你不必定获得了更好的数据模型,可是你会知道你当前的模型的比较结果。每当你增长一个新的层,你就会获得更比如较结果。

主持人:能多解释一下吗?

Hinton:当你获得一个模型之后,你会问「这个模型和数据的相符程度如何?」你能够给模型输入一些数据,而后问它「你认为这些数据和你的想法相符吗?仍是说你感到很意外?」你能够对这个程度作出一些测量。咱们想要的效果是,获得一个好的模型,它看到这些数据之后会说「嗯,嗯,都是我很熟悉的」。准确地计算模型对数据有多熟悉通常来讲是很难的,可是你能够计算一个模型和模型之间的相对高低,就是比较结果。那么咱们就证实了,当你增长的额外的特征检测器层越多,新模型对数据的熟悉程度就会越高。(雷锋网(公众号:雷锋网) AI 科技评论注:这部分的具体技术细节能够参见 Hinton 在 NIPS 2007 上介绍深度信念网络的教学讲座 http://www.cs.toronto.edu/~hinton/nipstutorial/nipstut3.pdf )

主持人:在 2005 年有这样的建模想法挺好的,那你的模型开始有好的输出大概是在何时?你又是在什么数据上作的实验?

Hinton:就是手写数字数据集,很是简单。差很少也就是那个时候,GPU(图形计算单元)开始快速发展,作神经网络的人大概从 2007 年开始使用 GPU。我当时有一个很优秀的学生,他借助 GPU 在航拍图像里找到公路,他当时写的代码有一些后来被其它学生用在语音的音位检测里,也是借助 GPU。他们当时作的事情是预训练,作完预训练以后把标签加上去,而后作反向传播。这种作法不只确实作出来了很深的、通过了预训练的神经网络,再作了反向传播以后还能有不错的输出,它在当时的语音识别测试中战胜了很多别的模型,数据集是 TIMIT,很小,咱们的模型比当时学术界的最好的成果好一点点,也比 IBM 的好一些。这是一开始,提高不算多。

而后其余人很快就意识到,这种方法再继续改进一点就能取得很好的成果,毕竟它当时战胜的那些标准的模型都是花了 30 年时间才作到这种效果的。个人学生毕业之后去了微软、IBM、谷歌,而后谷歌最快把这个技术发展成了一个生产级别的语音识别系统。2009 年有了最初的成果,2012 年已经来到了安卓系统上,安卓系统也就在语音识别方面遥遥领先。

主持人:那时候你有这个想法都 30 年了,终于作出大众承认的成果,并且也比其余的研究人员效果更好,你的感受如何?

Hinton:感受真的很开心,终于发展到了解决实际问题的阶段了。

主持人:那么,当你发现神经网络能很好地解决语音识别问题之后,你是何时开始尝试用它解决其余的问题的?

Hinton:嗯这以后咱们就开始在各类问题上尝试这个方法。最先用神经网络作语音识别的是 George Dahl,他又开始用神经网络预测一个分子是否会链接到某些东西上面而后起到治疗的做用。当时有一个作这个的竞赛,他就直接把用于语音识别的标准方法用来预测药物分子的活性,而后就这么赢了竞赛。这是一个很积极的信号,神经网络的方法彷佛有很高的通用性。这时候我有一个学生说,「Geoff,我感受用这个方法去作图像识别也会效果很好,李飞飞也已经建立了一个合适的数据集,还有一个公开的竞赛,咱们必定要去试试」。咱们就参加了,获得的结果比标准计算机视觉方法好不少。(AlexNet 在 2012 年的 ImageNet 大规模视觉识别挑战赛 ILSVRC 中以远好于第二名的成绩取得第一,下图中 SuperVision 团队)

和 Geoffery Hinton 面对面聊聊

主持人:说了很多的成功案例,对化学分子建模啊、语音啊图像啊什么的,有没有什么失败的案例?

Hinton:失败都只是暂时的,你能明白吗?

主持人:那么,有没有哪些领域特别快就成功,有的领域里就慢一些?个人感受好像是视觉信号处理、语音信号处理这些人类的感知器官的核心任务是最早攻克的,是这样吗?

Hinton:不彻底对,感知的确实攻克了,但还有运动控制之类的事情没有那么大的进步。人类的运动控制能力很是高,也很是轻松,很显然咱们的大脑就是为运动控制设计的。一直发展到今天,神经网络在运动控制方面的表现才开始追遇上此前就有的技术。神经网络最终会赶超的,但如今才刚刚出现小的胜利。我以为,推理、抽象推导这些人类也最后才学会作的事情,也将会是神经网络最难学会的事情。

主持人:大家总说神经网络最后能搞定全部的事情?(笑)

Hinton:这个嘛,咱们人类就是神经网络啊。全部咱们能作的,神经网络就能作。

主持人:没错,不过人类大脑也不见得就必定是世界上最高效的计算机器。有没有哪一种机器比人类大脑的效率更高的?

Hinton:哲学上来说,我并不反对「存在一种彻底不一样的方式来达成这一切」这样的观点。好比有可能你从逻辑开始,你就会尝试研究自动逻辑,会研究出什么特别厉害的自动定理证实机器;若是你从推理开始,而后你要经过推理作视觉感知,可能这个方法也可行。不过最后这些方法没作出好的效果。我从哲学角度上并不反对其它的方式也能达成这些。只是目前来看,咱们知道大脑、也就是神经网络,是确实能够作出这些的。

咱们理解神经网络吗?理解咱们的大脑吗?

主持人:下面我想问另外一个角度的问题,那就是,目前咱们并不彻底清楚神经网络是如何工做的,对吗?

Hinton:对,咱们不太清楚神经网络是如何工做的。

和 Geoffery Hinton 面对面聊聊

主持人:咱们很难从结果推理出神经网络的工做方式,这是咱们对神经网络的不理解的关键之处对吧?详细谈谈吧。以及显然我还有紧接着的下一个问题:若是咱们不知道他们是如何工做的,那么咱们把它们造出来之后是如何获得好的效果的?

Hinton:若是你观察一下当前的计算机视觉系统的话,它们大多数都只有前向传播,没有反馈链接。当前的计算机视觉系统还有一个特色,就是他们对于对抗性错误很是敏感,好比你有一张熊猫的图像,轻微修改了其中几个像素之后,在咱们看起来仍然是熊猫,但计算机视觉系统就会一会儿认为图中是火鸡。显然,这个修改像素的方式是须要通过精密的设计的,是对计算机视觉系统的误导或者欺骗。但重点是,在人类看来它仍然是熊猫,不受影响。

因此一开始咱们觉得基于神经网络的计算机视觉系统工做得挺不错的,可是后来当咱们发现这样的对抗性修改(攻击)能够起到这样的做用之后,你们都会开始有点担忧。我以为这个问题有一部分缘由是由于网络并没能从高级别的表征进行重建。如今有研究者开始尝试作判别式学习,就是学习不少层的特征检测器,而后最终目标是改变不一样特征检测器的权重,更好地获得正确的结果。最近咱们团队在多伦多也有一些发现,Nick Frost 发现,若是你引入了重建过程,它能让网络面对对抗性攻击的时候更稳定。因此我以为人类视觉系统中,学习的过程就带有重建。并且咱们人类除了视觉以外,不少的学习过程都是带有重建的,因此咱们面对对抗性攻击的时候要稳定得多。

主持人:就是说,你以为神经网络中从后往前的链接能够帮你测试数据的重建的过程?

Hinton:对,我以为这很是重要。

主持人:那么脑科学家也持有一样的观点吗?

Hinton:脑科学家们全都赞成这个观点,就是若是感知信号通路要通过大脑皮层的两个不一样区域,那必定会有反向链接。他们只是尚未在这个链接的做用上达成一致。它的做用有多是注意力、有多是为了学习、也有多是为了重建,甚至有可能三者都是。

和 Geoffery Hinton 面对面聊聊

主持人:因此咱们还不彻底理解反向链接的做用。那如今你就但愿在网络中构建起到重建做用的反向链接,这么作合理吗?虽然你说要仿照大脑,可是你不肯定大脑究竟是不是这样的。

Hinton:我彻底没有这方面的担忧。毕竟我作的不是计算神经科学,也不是要为人类大脑的运转方式提出一个多么好的模型。我所作的仅仅是观察大脑,而后说「既然它能很好地发挥做用,那咱们想让别的东西也发挥好的做用的时候,就能够从这里寻找一些灵感」。因此咱们从神经科学、脑科学中得到灵感,但并非为脑神经建模。咱们的整个神经网络模型、咱们的模型中用的神经元,就是来自于人脑中的神经的启发:神经元有不少的链接,并且这些链接能够改变权重。

主持人:听起来颇有趣。因此若是我也作计算机科学,我也研究神经网络,而后我想要比 Hinton 作得更好的话,有一种选择是根据脑科学里的其它一些模型构建从后向前的链接,此次我能够选择让它发挥学习的做用。

Hinton:若是这样能获得更好的模型,那你真的有可能会成功的。

主持人:下一个话题,既然咱们说神经网络能够解决各类问题,那有没有可能让神经网络捕捉重现人类的大脑,好比感情呀……

Hinton:(直接打断)不可能的。

主持人:那能用神经网络重建爱情、重建意识吗?

Hinton:这个能够,只要你弄明白了这些东西的含义究竟是什么。毕竟咱们人类也是神经网络。意识是我如今特别感兴趣的一件事,不过不少人说到这个词的时候都不太清楚本身到底在说什么。这东西有不少不一样的定义,在我眼中它应当是一个科学词汇。100 年之前若是你问别人「生命」是什么,他们可能会说「活着的东西就有一种积极的生命力,当他们死去的时候,这种生命力就跟着一块儿走了。因此活着和死了的区别就是有没有那种生命力」。如今咱们已经不谈生命力这种东西了,咱们认为这是伪科学概念。甚至当你学习了生物化学和分子生物学以后,你就会开始痛斥生命力的说法,由于你已经明白生命具体是怎么回事了。我以为咱们对于「意识」的理解也会通过一样的过程。之前提出这个词是为了解释咱们以为有重要含义的精神现象。但一旦咱们真正明白了意识是怎么一回事,这个「重要含义」的内容就再也不重要了,咱们可以清楚地解释作哪些事会让别人以为一我的「有意识」,并且这又是为何,也可以解释这个词的全部不一样含义。

主持人:那么,没有什么感情是不能被创造的,没有什么思惟是不能被创造的,只要咱们彻底理解了大脑是如何工做的,理论上就没有什么人类大脑能作的事情是不能被工做良好的神经网络重现的?

Hinton:你知道吗,你刚才说的这几句,让我想起  John Lennon 的一首歌,词句很像。

主持人:你对这些有 100% 的信心吗?

Hinton:不,不是 100%。我是一个贝叶斯主义者,我有 99.9% 是有信心的。

主持人:好吧,那另外那 0.1% 呢?

Hinton:就是有可能咱们整个世界都是一个很大的模拟器,这一切都不是真的。

主持人:也不是没可能。那么,经过你在计算机方面的研究,咱们有没有什么关于大脑的新发现?

Hinton:我以为,在过去的十年中咱们学到的是,若是你有一个系统有数以亿计的参数和一个目标函数,好比作好完形填空,它能达到的表现要比直接看上去的好得多。

和 Geoffery Hinton 面对面聊聊

作传统 AI 的人大多数会以为,或者一个普通人也会以为,对于一个有几十亿参数的系统,要从全部参数都是随机值的初始状态开始,计算目标函数的梯度,而后挨个更改这几十亿参数,让目标函数的值向着更好的方向去那么一点点,并且要作一轮一轮又一轮,这件事工做量太大了,没什么但愿完成,颇有可能在半路上就卡死了。但实际上这是一种很好的算法,各方面的规模越大,它的效果就越好。这彻底是从咱们的经验中总结出来的。如今既然咱们已经发现了这样的规律,那么认为人类大脑也是在计算某些目标函数的梯度、而后依据梯度更新神经电信号传播时候的强弱,就显得容易接受多了。咱们只须要弄明白这个过程是如何分解成一步步的,以及这个目标函数是什么。

主持人:但咱们对大脑的理解尚未到那一步?咱们还不理解这个改变权重的过程?

Hinton:这是一种理论。挺久之前人们认为是有这个可能的,不过也总会有一些传统的计算机科学家坚持说「听起来很美,可是你说你有几十亿个随机初始值的参数,而后所有经过梯度降低去学习,这是办不到的,你必须在里面固定一些知识进去。」如今咱们能证实他们的观点是错误的,你只须要从随机的参数开始,而后学到一切。

主持人:咱们再拓展一点。假设咱们根据咱们认为的大脑工做方式设计了模型,而后对它们作大规模测试,咱们就颇有可能了解到愈来愈多的关于大脑事实上如何运转的知识。会不会有一天到了某个地步,咱们能够动手改造本身的大脑,让它们成为更高效、最高效的计算机器?

Hinton:若是咱们真的能弄明白的话,咱们就能够把教育之类的事情作得更好。我相信这是会发生的。若是你能弄明白本身的大脑中在发生什么,可是却不可以调节它、让它更好地适应你所在的环境的话,这反却是一件奇怪的事情。

机器学习也「作梦」

主持人:咱们能更好地理解梦境吗?

Hinton:我以为能,我本身也对梦境很感兴趣,以致于我知道至少四种关于梦境的理论。

主持人:给你们讲讲呗。

Hinton:第一种有个挺长的故事。好久之前有个叫作 Hopfield 网络的东西,它能够把记忆学习为局部吸引子。Hopfield 这我的发现,若是你试着往里面塞太多的记忆的话,它们就会混淆。这会让两个局部的吸引力子在中间某个位置合二为一。

有 Francis Crick 和 Graeme Mitchison 两我的,他们说能够作忘记(unlearn)来避开虚假的局部极小值。那么咱们就关闭网络的输入,先把神经网络设在一个随机状态,而后等到它中止下来之后,咱们会以为获得的结果很差,而后调整一下网络链接让它不要停在那个状态。这样作过几回以后,它就能够存储更多的回忆。

而后就到我和 Terry Sejnowski,咱们以为,不只仅有存储回忆的神经元,还有不少起其它做用的神经元,咱们能不能设计一个算法,让其它的神经元也帮助恢复回忆。后来咱们就这样开发出了机器学习里的玻尔兹曼机,它有一个很是有趣的性质:给它展现数据,它就会在其它的单元附近持续转悠,直到获得一个满意的状态;而后一旦获得了,它就会根据两个单元是否都激活来增长全部链接的权重。这里存在一个阶段,你须要把它和输入之间切割开。你让它转悠转悠来到一个它本身以为舒服的状态,这时候你就会让它找到全部成对活跃的神经元而后减弱它们之间的链接。

在这儿我跟你解释的算法好像是一个有趣的过程,但实际上算法是数学研究的结果,咱们考虑的是「要如何改变这些链接的方式,才能让带有隐层的神经网络以为数据很熟悉」。并且它还须要有另一个阶段,咱们把它叫作负性状态,就是让它在没有输入的状态下运行,而后对于它所处的任何状态都会忘记。

咱们人类天天都会睡不少个小时。若是你随机地醒来,你就能说出你刚才在作什么梦,由于梦的记忆在存储在短时间记忆里的。若是你一直睡够了才醒来,你就只能记得最后一个梦,更早的梦就记不起来了。这实际上是一件好事,省得把梦和现实弄混了。那么为何咱们不能记得咱们的梦呢?Crick 的观点是,作梦的意义就在于把不少事情忘掉。就像是学习的反向操做。

而 Terry Sejnowski 和我展现了,其实这是一个玻尔兹曼机的最大似然学习过程。这也是作梦的一种理论。

主持人:你有没有让哪一个深度学习算法也像这样作个梦?学习某个图像数据集,而后忘掉,再学习,等等。

Hinton:有的。咱们试过机器学习算法。咱们最先发现的可以学会处理隐层神经元的算法里就包括了玻尔兹曼机,不过效率很是低。后来我发现了一种对它们作逼近的方法,要高效多了。这些其实都是让深度学习重获生机的契机,也就是借助这些方法我可以每次学一层特征检测器。这也就是受限玻尔兹曼机的一种高效形式。它也能够作遗忘。不过它不须要睡眠,它只须要在看过每一个数据点以后冥想一阵子。

主持人:第二种理论呢?

Hinton:第二种理论叫作清醒和睡眠算法(the Wake Sleep Algorithm),并且你会想要学习一个生成性的模型。这里的思路是,你有一个能够生成数据的模型,它有不少层特征检测器,它能够从高层开始逐步向下激活,一直激活到像素的那一层,而后你就获得了一张图像。你也能够反过来作,就成了识别一张图像。

这样你的算法就会有两个阶段,在醒着的阶段,数据进来,模型尝试识别数据;但这时候模型学习的目标不是增强链接用于识别,而是增强链接用于生成。随着数据进来,隐层的神经元被激活,而后让神经元学习如何更好地重建数据。每一层都学习如何重建。但问题是,这样要如何学习前向链接呢?思路就是,若是你已经知道了前向链接,你就能够学习反向链接,由于你能够学习重建。

和 Geoffery Hinton 面对面聊聊

如今咱们还发现它可使用反向链接,你能够学习反向链接,由于你能够直接从最上层开始激活而后生成数据。并且由于你在生成数据,你就知道隐层神经元的激活状态,你也就能够学习到前向链接来恢复这些状态。这就是睡眠阶段了。当你关掉输入的时候,你只是生成数据,而后你尝试重建那些生成了数据的隐层神经元的状态。另外,若是你知道了自顶向下的连接的话,你就能够学习从下向上的链接;反过来也同样。因此若是你从随机链接开始作,把两件事交替进行的话,也是可行的。固然了,为了让它有好的效果,你须要对它作各类变化,可是确实是可行的。

主持人:emmm,咱们还有 8 分钟时间,你打算继续谈谈其它两种理论吗?那样的话咱们就跳过最后几个问题。

Hinton:另两个理论可能要花一个小时。

胶囊是个好想法,但也是个错误

主持人:那咱们就继续往下问吧。你如今在作哪方面的研究?在尝试解决哪些问题?

Hinton:最终咱们都是要把之前没作完的研究一直作完。我以为个人研究里有一件东西是永远都结束不了的,那就是胶囊(capsules),它就是我心中那个经过重建进行视觉感知的理论,也是把信息路由到正确的地方的理论。在标准的神经网络里,信息,也就是每层神经元的活动,它的走向是自动的,你无法决定要让信息去哪里。胶囊的想法就是要决定把信息发送到哪里。目前来讲,从我开始研究胶囊之后,有一些别的很聪明的谷歌同事创造了 Transformer 模型,作的是一样的事情。它们都是决定把信息送到哪里,这是很大的一个进步。

还有一件启发了我作胶囊的事情是坐标框架。当人类作视觉感知的时候,咱们都会使用坐标框架。若是人类在一个事物上假设了错误的坐标框架,他就会认不出来那个物体。

和 Geoffery Hinton 面对面聊聊

你作一个小任务感觉一下:想象一个正四面体,它的底面是三角形,而后有三个三角形的侧面,四个面都是全等三角形。很容易想象对吧?而后想象用一个平面切割它,要获得一个正方形的截面。切割简单,可是获得正方形的截面就难了。每次你尝试截的时候,你都会获得一个三角形的截面。

和 Geoffery Hinton 面对面聊聊

彷佛很难看到这个正方形截面要怎么截出来。那么我换个方式来描述这同一个物体。我用你的笔来笔画一下,上面是一只笔,下面也有一只笔,想象它们在空间中垂直,而后把上面的笔上的全部的点链接到下面的笔的全部的点。这样你就获得了一个四面体。如今咱们看一下这个四面体和坐标框架的关系,上面的边和一条坐标轴平行,下面的边和另外一条坐标轴平行。那么当你这样来看它的时候,就很容易看到如何截出来一个矩形,也就能找到在中间某个位置能够获得一个正方形。可是只有咱们在这个坐标框架下思考才能看得出来。

和 Geoffery Hinton 面对面聊聊

对于人类来讲这一点是很显然的,但其实对感知这整件事来讲,坐标框架都很重要。

主持人:在模型中增长坐标框架,和你在 90 年代作的想要把规则集成到模型里结果发现是个错误,有什么区别吗?不是说要让系统是无监督的吗?

Hinton:没错,这就是同一个错误。正由于我很肯定这是个糟糕的错误,因此我只能加一点点东西,有点不懂不痒。这实际上也让我本身的处境有点尴尬。

主持人:你目前的研究是专门针对视觉识别的,仍是说先想到了坐标框架的事情,而后再试着把它作成更通用的样子?

Hinton:它也能够用在其余任务里,不过我本身尤为对视觉识别里的应用感兴趣。

主持人:深度学习曾经很独特,现在彷佛很大程度上就是 AI 的近义词了;同时 AI 也成了一个市场营销意味很浓的词,随便用了一个什么机器什么算法的人也说本身用了 AI。做为发展了这些技术、帮助带来了这种现状的人,你的感觉如何?

Hinton:当年 AI 只是指基于逻辑的、操做符号的计算系统的时候我要快乐得多;当时的神经网络也是说你能够用神经网络学习。如今有不少企业不喜欢那些,只是在意钱。我就是在这样的环境里长大的。现在我甚至看到有一些曾经连续不少年说神经网络是垃圾的人如今开始说「我是作 AI 的教授,因此请给我批资金」。真的很烦人。

主持人:你的研究领域起飞了,有点吞并了其它领域的味道,也就让他们有理由要钱了,有点让人沮丧。

Hinton:不过也不是彻底不公平吧,有不少人确实调整了思路。

主持人:最后一个问题,你曾经在一次采访中说过,AI 有可能会像是黑洞,若是你构建它的方式不正确,它可能会反过来吃掉你。那么你在研究中是如何避免把它得有伤害、甚至作成黑洞的呢?

和 Geoffery Hinton 面对面聊聊

Hinton:我永远都不会故意作会带来伤害的 AI。固然了,若是你设计出了一个擅长吃别人的脑壳的黑洞,这就是挺很差的一件事,我是不会作这样的研究的。

主持人:好的。今天聊得很开心,谢谢你说了这么多。也许明年咱们继续谈谈关于梦的第三个和第四个理论。

和 Geoffery Hinton 面对面聊聊

完整视频见 https://www.youtube.com/watch?v=UTfQwTuri8Y 。雷锋网 AI 科技评论编译。

雷锋网原创文章,未经受权禁止转载。详情见转载须知

社长今日推荐:AI入门、大数据、机器学习免费教程

35本世界顶级本来教程限时开放,这类书单由知名数据科学网站 KDnuggets 的副主编,同时也是资深的数据科学家、深度学习技术爱好者的Matthew Mayo推荐,他在机器学习和数据科学领域具备丰富的科研和从业经验。

点击连接便可获取:https://ai.yanxishe.com/page/resourceDetail/417?from=csdn