因果机器学习的前沿进展综述

机器学习是实现人工智能的重要技术手段之一，广泛应用于计算机视觉、自然语言处理、搜索引擎和推荐系统等领域。但当前的机器学习方法通常注重数据中的相关关系而忽视其中的因果关系，存在可解释性、可迁移性、鲁棒性和公平性等方面的问题。

研究者开始重新审视因果关系建模的重要性，相关方法也成为研究热点。本文整理和总结了近年来机器学习领域应用因果技术和思想解决实际问题的工作，梳理新兴研究方向的发展脉络，包括因果理论介绍，各问题需求分类工作介绍，以及总结现状和展望未来趋势。

1 因果理论简介

因果理论已成统计学重要分支，有独特概念、语言及方法。目前广泛被认可和使用的因果模型，主要包括潜在结果框架（RCM）和结构因果模型（SCM）。

RCM主要研究两个变量的平均因果效应问题，而SCM使用图结构建模一组变量关系，除了效应估计也会关注结构发现问题。两者的主要区别在于表述方法不同，RCM更加简洁直白，相关研究更为丰富；而SCM表达能力更强，更擅长描述复杂的问题。格兰杰因果（Granger causality）描述的是引入一个变量是否对另一个变量的预测有促进作用，本质上仍是一种相关关系，不被视为真正的因果。

下面侧重于介绍机器学习中所使用的因果的概念和思想以及 RCM与SCM 的相关理论和技术进行简要介绍。

1.1 因果概念

统计学中，因果关系是改变一个变量使得另一个变量发生相应变化，这种变量关系称为因果关系，改变这种关系的效应称为因果效应，因果效应显薯，则认为存在因果关系。求解一对或多对变量的因果关系和因果效应的任务被称为因果推断。相关关系和因果关系的区别是，相关关系只需检验边际分布和条件分布，而因果关系需要改变目标变量的产生机制。回答因果问题需要借助反事实或干预，若仅依赖关联，则需处理混杂因素，这是研究因果理论的重要概念。

下面将基于回答因果关系判定问题的角度，对反事实、干预和混杂因素 3 个概念进行介绍：

反事实。反事实是指在已经观测到一组变量的情况下，假设其中部分变量具有另外的取值的操作。它是根据结果溯源寻找原因的有效手段，如果发现某个变量改变取值后会导致结果改变，该变量即是结果的原因之一。然而，反事实操作通常无法用于因果判定，因为它假定两次观测之间除了需要研究的变量有所改变外，其他外部变量取值和作用机制需完全保持一致，这在实际应用中几乎无法实现。因此，想要判断因果关系的存在性，人们只能采用干预操作。

干预。干预操作是评估因果关系的关键，通过改变部分变量的机制并维持其余机制不变。如果干预改变了一个变量的概率分布，则前者是后者的原因，例如海拔高度影响气温。通过调整地理位置来改变海拔，气候将发生变化，因为背后的物理机制不变。干预操作可以清晰地判断因果关系的存在性和方向性。干预操作不同于反事实，需要满足密集体不变的假设，但在一般应用场景中通常可行。然而，许多情况下无法实施干预操作，如肺癌研究。因此，需要避免对目标变量进行干预，仅通过观测原有机制产生的数据来估计干预的效果。

混杂因素。混杂因素是对干预结果影响的变量，需要控制取值以减小偏差。混杂因素对所研究的两个变量有影响，例如儿童穿鞋尺码与阅读能力。如果不控制年龄，可能出现错误结论。如果可以控制所有的混杂因素，因果关系就等价于相关性。寻找充分的变量集合，囊括所有混杂因素很困难。鉴别和处理混杂因素是因果推断领域的核心问题之一。

1.2 因果模型

1.2.1 潜在结果框架（RCM）

潜在结果框架又被称为鲁宾因果模型，是一种用于描述因果效应的框架。在该框架中，每个个体都有一个潜在结果，即如果该个体接受某种处理，会得到什么结果。这个结果是未观测到的，因为每个个体只能接受一种处理，而我们只能观测到实际接受的处理和对应的结果。因此，我们需要通过对不同处理下的结果进行比较，来估计出每个个体的处理效应（individual treatment effect, ITE）。

在实际应用中，我们通常需要考虑多个个体和多个处理，因此需要对所有个体的处理效应进行汇总。这可以通过计算平均处理效应（average treatment effect, ATE）来实现，即所有个体的处理效应的平均值。

在RCM 中，如果满足一定的假设，包括个体处理值稳定假设（SUTVA）、处理分配机制可忽略性、正值性，上述计算得到的 ATE 即是X对Y的真实因果效应。

实际问题中，采用控制所有混杂因素的方法计算 ATE 时，由于混杂因素的维度很高，控制相同取值的样本可能很少，期望估计不太准确。常见的解决方法有：基于倾向性得分的估计方法、基于回归的估计方法以及两者相结合的方法，还有诸如混杂平衡、分层等众多其他方去处理混杂因素的问题，但这些方法均要求混杂因素的值可观测，限制了RCM的应用。部分问题可使用SCM解决，这是一个针对混杂因素的数据结构化方法。

1.2.2 结构因果模型

结构因果模型（structural causal model, SCM）是一种用于描述变量之间因果关系的模型，它使用图结构建模一组变量关系，除了效应估计也会关注结构发现问题。在SCM中，我们将变量表示为节点，将因果关系表示为有向边。每个节点都有一个结构方程式，用于描述该节点的取值如何受到其父节点的影响。结构方程式通常包含一个函数和一个误差项，函数描述了变量之间的因果关系，误差项描述了未被考虑的因素对变量的影响。图 1 所对应的完整结构方程为：Z = Nz，X = fx(Z, Nx)， Y = fY (Z, X, Ny )。

图 1 因果图示例

SCM可以用于估计因果效应，即某个变量对另一个变量的影响。在SCM中，我们可以通过对模型进行干预来估计因果效应。干预可以是对某个节点的取值进行人为设定，也可以是对某个节点的结构方程式进行修改。通过对干预前后的模型进行比较，我们可以估计出干预对其他变量的影响，从而得到因果效应。

SCM还可以用于结构发现，即从数据中推断出变量之间的因果关系。结构发现可以通过多种方法实现，包括基于因果图的搜索算法、基于独立性测试的方法。

2 因果机器学习相关工作介绍

因果问题已成为机器学习重要且前沿的研究领域。机器学习可从因果技术和思想中获得多个益处：因果理论是数据分析的工具，能进行细致分析；因果推断消除混杂因素和中介分析，对评估因果效应和区分间接效应有重要价值；反事实是人思考求解问题的常用手段，对机器学习模型构建和问题分析有指导意义。

因果机器学习的核心内容包括可解释性问题、可迁移性问题、鲁棒性问题、公平性问题和反事实评估问题。这些问题与因果理论的关系如图2所示，将分别进行介绍。

图 2 因果机器学习的主要研究问题总览

2.1 可解释性问题

机器学习模型会计算并产生输出，但一般不解释为何得出此输出。然而，合理解释有助于理解模型运作机制，增强结果的说服力。近年来涌现许多解释模型方法的研究，为模型诊断提供有效手段。解释核心是理解输入特征如何导致输出结果，即讨论输入特征与输出结果的因果关系，如估计特征对输出变量的影响。由于机器学习模型独立处理输入数据，输入与输出变量之间无混杂因素，因此即使不使用因果术语也能描述任务。

因果理论为解释性问题带来两大贡献，一是建模特征内部因果关系，二是引入反事实解释。基于归因分析和反事实的解释构成了当前主要的两类模型解释方法，见表1。表 1 因果方法在可解释性问题上的应用

图 2 反事实解释示例

图 3 反事实图像混合示例

2.2 可迁移性问题

机器学习模型通过分布内泛化，基于特定训练集在验证集或测试集上验证性能。但在实际应用中，模型会在特定的数据环境中运行，并使用数据进行训练。在标注数据难以获取的情况下，需要更多的训练数据，可以由相似环境提供。例如，自动驾驶智能体只能在模拟系统的数据上训练，这种任务被称为域适应，属于迁移学习范畴，即迁移源域知识到目标域。

研究可迁移性中，因果理论的重要性是提供清晰的描述和分析工具，帮助识别可迁移和不可迁移的成分，设计适用于不同场景的策略。在效应估计中，因果推断关注的是特定环境下改变机制的影响，这与迁移学习的域改变假设相符。因此，迁移学习的核心是建模识别变与不变的机制。因果迁移学习一般假设输入和输出的因果关系，关注无混杂因素影响下的变量因果方向和不可变机制。表 2 因果方法在可迁移性问题上的应用

图 4 3 类反因果迁移问题的因果图

2.3 鲁棒性问题

迁移学习帮助模型在目标环境中，利用有限的数据进行适应。然而，在某些高风险场景中，例如医疗、法律、金融和交通等领域，模型需要面对完全未知的环境。以自动驾驶为例，即使有大量的真实道路行驶数据，自动驾驶智能体仍会遭遇各种无法预见的突发情况，这些情况需要正确处理。这类任务无法提供目标环境下的训练数据，此时模型的表现称为分布外泛化。如果模型具有良好的分布外泛化能力，则称其具有鲁棒性(robustness)，展现出一种适应新环境、应对变化的能力。

因果理论的引入为鲁棒性问题的解决提供了全新的视角，其核心优势在于对变量结构的精确建模和更符合逻辑的假设。这类方法涵盖了反事实数据增强、因果效应校准以及不变性学习等。详见表3，反事实数据增强旨在消弭数据中的伪相关性，因果效应校准则通过调节偏差特征的功能来减轻偏差，而不变性学习则通过改变建模方式以学习稳定的因果关系。

表 3 因果方法在鲁棒性问题上的应用

图 5 视觉对话任务的因果图和 2 种校准策略

图 6 不变性学习方法的因果图

2.4 公平性问题

在机器学习领域，公平性是指在对特定敏感特征如性别、年龄、种族等的处理中，不同的取值不应影响机器学习模型的预测结果，如在贷款发放、法律判决、招生招聘等任务中。公平性对于机器学习在社会决策中的应用至关重要，与因果关系紧密相关，它体现了敏感特征不应成为预测结果的主要因素。模型中存在的不公平往往由伪相关特征问题导致，因此公平性也可以视为针对敏感特征的鲁棒性，这一概念拥有自己独特的研究体系和术语。

因果理论的引入为公平性研究起到了极大地推动作用，许多概念必须借助因果的语言才能表达，如表 4 所示：表 4 因果方法在公平性问题上的应用

机器学习公平性研究与因果关系密切相连，因果理论在此领域发挥着不可替代的作用。描述语言、建模方法和求解手段都依赖于因果研究的相关成果，未来仍将继续发挥其重要作用。

2.5 反事实评估问题

反事实评估，是指机器学习模型的优化目标自身为反事实，这种情况通常出现在使用有偏差的标注数据训练出无偏模型的场景中，例如基于点击数据的检索和推荐系统学习任务。由于任务本身依赖于反事实术语进行描述，因果理论在这类问题的建模和研究中发挥了至关重要的作用，如表5所示：

表 5 因果方法在反事实评估问题上的应用

图 7 广告推荐系统的因果图

2.6 其他问题

机器学习领域的因果关系研究成果丰富多样。除对于可解释性、迁移性、鲁棒性、公平性以及反事实评估等关键问题的深入探讨外，还涉及其他相关领域的研究。例如，因果理论在结构化变量的场景下特别有效，如多警老虎机问题。因果理论中的反事实思想和技术，被用于解决多个领域的问题。因果机器学习引入了干预和反事实结果预测问题，需要机器学习与因果推断协作。