AlphaGo：从直觉学习到整体知识

时间 2021-01-21 标签 AI AlphaGo 深度学习

谷歌AlphaGo最近战胜了欧洲顶尖职业围棋玩家，这一壮举被广泛认为是人工智能（AI）的重大突破，因为AlphaGo所具有的功能（围棋的复杂度是国际象棋的指数倍）以及出现的时间（比预期要早出现许多）。它的产生所带来的飞跃就像是发达肌肉和大脑，前者在计算能力上大幅增加，后者创新组合建立好的算法。

这项突破以及它实现的方式可能会对未来IA带来对立的观点：任一当前概念框架都是最好的选择，随着健壮的机器变得更聪明，它们迟早会超过它们的人类制造者；或者这是一种迷惑，可能让更健壮的机器和无助的人类陷入其中。

AlphaGo和DeepMind的开发人员可以在这困境中指出一条整体出路吗？

来源分类法

借用斯宾诺莎的话，人们可以从考虑来源知识类别开始：

然而对于第一点不会有太多的争议，第三类对哲学原理有广泛的空间，从宗教到科学，集体意识形态，或精神超越。随着今天的知识横跨智能设备，并由群众智慧驱动，哲学似乎更关注大数据而不是它原本关注的领域。

尽管（或者是因为）它的重点是第二类，AlphaGo和它的创建者的壮举仍然可以为整个人工智能的努力带来一些经验。

如前所述，IA支持范式的有效性已经由指数形式增长的数据和处理能力支撑着。毫不奇怪，那些范式在知识来源，隐式感觉，显式推理上与两种基本的表示形式有关：

由于该二元性反映了人类的认知能力，建立在这些设计上的智能机器是为了将合理性与有效性结合：

这种方法的潜能已经由基于互联网的语言处理展现了：实际的关联分析“观察”了数以亿计的话语，它们正在逐步补充甚至取代基于Web解析器的语法语义规则。

在这一点上，AlphaGo有它的野心，因为它只处理非符号的输入，即围棋高手玩家落子的集合（共约3千万）。但是，这个限制也可以成为一个优势，因为它带来了同质性和透明性，使得算法有了更高效的组合：健壮的组合用来进行实际行动，使用最好玩家的直觉知识，聪明的组合用来进行推断行动、计划和策略。

教它们如何协同工作，可以说是这项突破的关键因素。

对于智能机器，应该可以预料到，它们骄人的成就完全取决于它们的学习能力。而这些能力通常分别运用到隐式（或是非符号）和显式（或是符号）内容上，让它们在同一个认知引擎的管控之下，就如人脑通常那样，这也成为IA的长期首要目标。

实际上，这已经由神经网络实现了，它将监督式和非监督式学习结合：人类专家帮助系统去其糟粕，然后通过系统自己百万次的训练来提高它们的专长。

然而，领先的AI玩家的成就已经揭露出了这些解决方案的局限性，即扮演最好人类玩家并打败他们性质上的差距。而前者的结果可以通过似然决策得出，后者需要原始方案的开发，这就带来了定量和定性的障碍：

通过单个方案克服这两个挑战，可以说是DeepMind工程师的关键成就。

使用神经网络对实际状态评估以及来自于搜索树中以指数形式增长的广度和深度的策略采样。然而蒙特卡洛树搜索（MCTS）算法可以用来解决这个问题，用有限的能力扩大处理性能仍然只能处理树较浅的部分；直到DeepMind的工程师将MCTS运用到分层的估值和策略网络上，成功解除了深度的障碍。

AlphaGo无缝使用了分层的网络（即深度卷积神经网络）进行直觉学习，强化，评估和策略，围棋的棋盘和规则（与国际象棋一样，无差异性移动和搜索陷阱）的同质性使之成为可能。

人类是唯一能够将直觉（隐式的）和符号（显式的）知识结合起来的物种，人类具有这样的双重能力，将前者转换成后者，然后通过后者的反馈反过来改善前者。

用在机器学习方面的话需要监督式和非监督式学习的连续性，这应该可以通过神经网络达到，这种神经网络可以用来符号表示和处理原始数据：

然而深度符号知识的非监督式学习超出了智能机器的范围，显著的结果可以在“平坦”的语义环境下得到，比如，如果同一个语义可以用来评估网络状态和策略：

没有围棋整体性的性质，将不可能有这种深度和无缝的集成。

围棋的特异性是双重的，定量侧的复杂性，定性侧的简单性，前者是后者的代价。

与国际象棋相比，围棋的实际位置和潜在落子方式只能由整个棋盘进行评估，它使用了一个最具美学的标准，不会简化成任意度量和手工制作的专家规则。玩家不会在详细分析当前位置和评估可供选择方案后再落子，而是根据他们的对棋盘的直觉。

因此，AlphaGo的行为会完全按照上面所说的第二层次的知识进行：

给予足够的计算能力，DeepMind工程师的主要挑战是教AlphaGo将它的美学直觉转换成整体知识，而不需要定义它们的实质。

原文：AlphaGo: From Intuitive Learning to Holistic Knowledge
编译：刘翔宇
责编：周建丁（[email protected]）