后深度学习时代的一大研究热点？论因果关系及其构建思路

时间 2020-01-11 标签深度学习时代一大研究热点论因果关系及其构建思路

做者 | Bernhard Schölkopf算法

译者 | Kolen编程

编辑 | Janec#

出品 | AI科技大本营（ID：rgznai100）数组

尽管机器学习在现阶段取得了很大成功，可是相比于动物所能完成的工做，机器学习在动物擅长的关键技术上表现不尽人意，好比问题迁移能力、泛化能力以及思考能力，由于机器学习一般会忽略大量经常使用的信息。微信

近年来，因为因果关系可让模型更稳定和健壮，在机器学习领域获得了愈来愈多的关注。本文阐述了一些将因果关系和机器学习结合的想法，并勾勒出一个更大的蓝图，但愿它不只能够对讨论因果关系于AI的重要性这一问题有所帮助，还能够介绍一些图形或结构因果关系模型的相关概念。网络

一、信息处理的机械化机器学习

第一次工业革命由蒸汽机和水力引起，第二次由电气化驱动，二者都与如何获取和转换不一样形式的能量有关。有人认为咱们现正处于一场新的革命，在这场革命中，信息代替了能量。同能源同样，信息也能够经人处理，同时也多是个守恒的量，并且信息守恒也多是和能量守恒同样，是对称的结果。固然，信息和能源也并不是可彻底类比，好比特定的机器学习算法和计算资源，能够复制扩展到数据集，从而其余人能够从数据集中提取相同的信息，而能量只能使用一次。编程语言

相似于能源革命，当目前的革命能够分为两个阶段：第一阶段是计算机、高级编程语言和计算机科学的诞生，另外一个则是咱们目前正在经历的依赖于学习的阶段。它容许从非结构化数据中提取信息，而且能够自动从数据中推断规则，而不是依靠人类来构思和编程这些规则。Judea将经典AI与几率论相结合的方式，这同时也催生了图形化模型，可是该模型很大程度上没有关注因果语义。近年来，机器学习与因果关系之间已经出现了真正的联系，咱们认为若是想在AI的主要开放性问题上取得进展，这些因果联系将相当重要。模块化

二、从统计模型到因果模型函数

由独立同分布（IID）数据驱动的方法 目前机器学习领域的工做大多数是基于独立同分布（IID）的数据集。对于IID数据，是统计学习理论应用的强普适一致性结果，它可以保证学习算法（好比最近邻分类器和SVM）收敛到最低可实现的风险。可是当违背IID假设时，机器学习模型的效果每每不好。目前的实践（解决IID基准问题）以及大多数理论结果（关于IID环境中的泛化）都未能解决跨问题泛化的开放性难题。当咱们再也不研究观测分布，而是研究某些变量或机制发生变化的分布，这就到了因果关系模型的领域。

Reichenbach提出了共同缘由原理：若是两个观测值X和Y在统计上是相依的，那么就存在一个变量Z，它们对因果关系都有影响，而且解释了在Z条件下使它们独立的意义上的全部依赖性。其关键的看法在于，若是没有额外的假设，就没法用观测数据来区分这三种状况。所以因果模型所包含的信息是要多于统计模型的。

实际上，更多可观测的状况会使问题变得更容易解决，由于在这种状况下，因果结构隐含着特殊的条件独立属性。这些能够经过使用将几率图形模型和干预的概念结合起得因果图或结构因果模型的语言来描述。

结构因果模型（SCM） 结构因果模型（SCM）结合了图形建模、结构方程、反事实和介入逻辑。SCM“推理引擎”一般将假设（以图形模型的形式）、数据和查询做为输入。咱们可使用这些工具正式表达因果问题，以图解和代数形式编纂咱们现有的知识，而后利用数据来估计答案。此外，当现有知识状态或现有数据不足以回答咱们的问题时，这个理论会警告咱们，而后建议其余知识或数据来源，让问题变得可回答。

三、因果模型的层次

微分方程是对系统的至关完整的描述，统计模型能够看做是比较肤浅的模型。统计模型一般告诉咱们只要实验条件不变，一些变量如何容许预测其余变量。它不容许咱们预测干预措施的效果，可是它的优点在于能够从数据中学习。因果模型则位于这两个极端之间，它旨在提供理解并预测干预措施的效果。因果发现和学习试图仅使用弱假设，以数据驱动的方式得出这样的模型。如表1所示最详细的模型（顶部）是机械模型或物理模型，一般用微分方程表示。底部是一个能够从纯粹从数据中学习出的统计模型。因果模型能够看做是介于二者之间的描述，从物理现实主义中抽象出来，同时保留了回答某些干预性或反事实性问题的能力。

表1：模型的简单分类法

四、独立的因果机制

每当咱们感知到一个物体时，咱们的大脑都会作出这样的假设：该物体及其所包含的信息到达咱们的大脑的机制是独立的。然而咱们能够从特殊角度看待这个物体从而来推翻上述假设：就Beuchet椅子而言（以下图），咱们认为椅子的三维结构实际上并不存在。当咱们考虑系统中的干预措施时也是如此，为了使模型可以正确预测添加干预后的效果，模型必须具备鲁棒性。

图1：Beuchet椅子，由两个单独的对象组成，当从特殊的视角观看时，它们看起来像椅子，这违反了对象和感知过程之间的独立性。

这种分布的变化老是由这些机制中的至少一个的变化引发。根据独立性原则，咱们假设较小的变化倾向于以稀疏或局部的方式表现出来，即它们一般不该同时影响全部因素。相反，若是咱们考虑到一个非因果因素，因为咱们改变了系统的统计依赖性，那么这些条件将同时受到影响。

机制依赖程度：实际上，在因果图中，即便全部机制都是独立的，许多随机变量也将是相关的。

算法独立性：比特串的Kolmogorov复杂度（或算法信息）本质上是图灵机上最短压缩的长度，所以是对其信息内容的度量。机制的独立性能够定义为消失的相互算法信息，也就是说，若是知道一个条件的（最短压缩）不能帮助咱们实现另外一个条件的较短压缩，则认为这两个条件是独立的。

五、因果发现

实际上，在没有函数类假设的状况下进行有限样本通常化是不可能的，所以能够经过对函数类进行假设来解决一些很难的因果关系问题。它们还能够帮助解决基于条件独立性测试的因果发现方法的其余缺点。条件独立性测试在很大程度上依赖于核函数类来表示和再现核Hilbert空间中的几率分布。到目前为止，有许多方法能够比统计更好地检测因果关系，其中一些方法是创建Kolmogorov复杂度模型的基础上，也有些人直接将双变量分布分为因果关系和反因果关系用于学习。

六、半同胞回归（Half-Sibling Regression）与系外行星探测

利用由加性噪声模型和ICM假设启发的因果模型，咱们设计了一种方法，使得能够从一大组其它恒星中预测出一个感兴趣的恒星，这些恒星的测量结果不包含恒星的天体物理信号的信息，而且为了消除仪器的影响而删除了这种预测。咱们将这种方法称为“半同胞”回归，由于目标和预测因子共享一个父项。

同时，咱们用系外行星过境模型和有效的搜索光曲线的方法对其进行了扩充，从而发现了36个行星候选物，其中21个随后被确认为真正的系外行星。四年后，天文学家在系外行星K2-18b的大气层中发现了水的痕迹，这是在可居住区域首次发现系外行星的痕迹，即容许液态水存在。

七、不变性、鲁棒性和半监督学习

许多机器学习分类器并未使用因果特征做为输入，它们使用效果特征来预测缘由。咱们认为因果方向对某些机器学习问题是相当重要的，对协变量转移的鲁棒性是可预期的，而且它对半监督学习作出了非平凡的预测。

半监督学习（SSL）：咱们认为SSL不适用于解决因果学习问题，可是在其余方面是可行的，特别是对于非因果学习问题。还值得注意的是该领域的一些理论结果使用了因果关系图中众所周知的假设：联合训练定理对未标记数据的可学习性做了说明，并依赖于给定标签的预测因子是条件独立的假设，若是预测因子仅由标签引发，即一个非因果设置。这与以上咱们观点彻底吻合。

对抗性弱点：假设因果关系也会影响分类器是否容易受到对抗性攻击。这些攻击显然违反了机器学习基础的IID假设。在对抗环境中，修改后的测试集与训练集并不是来自相同的分布，所以它们会干预模型优化。对抗现象还代表，当前分类器表现出的鲁棒性与人类表现出的鲁棒性不一样。最近的研究工做代表：能够经过对因果产生方向进行建模来解决反因果分类问题，从而防护对抗攻击。

多任务学习：假设咱们要构建一个能够在多个环境中解决多个任务的系统，这样的模型能够采用学习的方式：假设有多个数据集，它们是从类似但不相同的SCM采样的，若是SCM共享大多数组件，那么咱们能够经过对SCM中的函数进行编码来压缩多个数据集，而且正确的结构应该是最紧凑的方向，由于它是跨数据集共享许多功能的方向，所以只须要编码一次。

强化学习：能够考虑将统计学习转向因果学习与强化学习（RL）的结合。事实证实，高维度的数据可经过寻找不变性来帮助肯定因果关系特征，从而更广泛地有助于寻找因果关系，这可使RL在其模型中找到强大的模块，这些模块极可能会推广到状态空间的其余部分。由于基于策略的RL能够有效地直接估计几率，所以它比机器学习的主流方法更适合因果关系研究。

八、因果表征学习

传统的因果发现和推理假设单位是由因果图链接的随机变量，因果表示学习尝试从数据中学习这些变量，其不要求算法操做的符号具备先验性。因果结构模型能够由微观模型产生（微观结构方程模型、常微分方程和时间汇集时间序列）。为了将结构因果模型与表示学习相结合，能够将SCM嵌入到较大的机器学习模型中，该模型的输入和输出多是高维的和非结构化的，但其内部工做至少部分地由SCM支配。

学习可转移的机制：对于每一个任务/领域，咱们只有有限的数据，所以须要找到合并/重用数据的方法。一种较好的实现方法是采用一种能够反映世界上相应的事物的模块化结构。能够经过寻找独立的因果机制来学习这类模型，而竞争训练也能够在模式识别任务方面发挥做用。学习包含独立机制的因果模型有助于跨领域模块转移。

学习纠缠的表示：前文讨论的ICM其实代表了SCM噪声项的独立性，进而证实了解纠缠表示的可行性以及条件关系P(Si |Pai)在相关问题上是独立可操做且基本不变的性质。假设咱们试图使用独立机制从数据中重建这种解缠结的表示形式, 从中咱们能够构造因果变量S1, … , Sn（n<< d）以及建模Si之间的因果关系的机制，以下公式。

学习介入世界模型和推理：如今的表示学习是在不考虑变量的因果关系的状况下进行的，并不关心其分析或重构的变量的介入性。因果关系将把表示学习提高到新的高度，将从基于统计依赖结构的模型转向支持干预，计划和推理的模型，实现可以在一个想象的空间思考。最终，这可使得机器具备反思本身的行动并设想替代方案的能力。

连接：

https://arxiv.org/pdf/1911.10500.pdf

（*本文为AI科技大本营编译文章，转载请微信联系 1092722531）

◆

精彩公开课

◆

推荐阅读

你点的每一个“在看”，我都认真当成了AI

后深度学习时代的一大研究热点？论因果关系及其构建思路

一、信息处理的机械化机器学习

二、从统计模型到因果模型函数

三、因果模型的层次

四、独立的因果机制

五、因果发现

六、半同胞回归（Half-Sibling Regression）与系外行星探测

七、不变性、鲁棒性和半监督学习

八、因果表征学习

2020大数据十大趋势发布！华为、阿里、滴滴、百度、京东、讯飞等顶尖专家齐聚BDTC

蚂蚁金服提新几率图模型GLN，正确率提高8.2%，具有可解释性 | NeurIPS 2019

远场语音识别错误率下降30%，百度提基于复数CNN网络的新技术

微软张若非：搜索引擎和广告系统，那些你所不知的AI落地技术

基于人脸关键点修复人脸，腾讯等提出优于SOTA的LaFIn生成网络

从YARN迁移到k8s，滴滴机器学习平台二次开发是这样作的

劳荣枝潜逃23年落网，多亏了它

实例分析+ 实践步骤，手把手教你编写以太坊、EOS智能合约！

2020年，区块链开发者还有哪些期待？

云计算管理工具：根植热土