论文导读Domain Adaptation by Using Causal Inference toPredict Invariant Conditional Distributions
Posted ViviranZ
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文导读Domain Adaptation by Using Causal Inference toPredict Invariant Conditional Distributions相关的知识,希望对你有一定的参考价值。
Magliacane, Sara, et al. “Domain adaptation by using causal inference to predict invariant conditional distributions.” Advances in Neural Information Processing Systems. 2018.
【摘要】
领域适应和因果推理的一个共同的重要目标是,当源(或训练)领域和目标(或测试)领域的分布不同时,做出准确的预测。在许多情况下,这些不同的分布可以被建模为一个单一的基础系统的不同背景,其中每个分布对应于系统的不同扰动,或在因果关系方面,一个干预。我们专注于一类这样的因果域适应问题,其中给出了一个或多个源域的数据,任务是通过对一个或多个目标域中其他变量的测量来预测某个目标变量的分布。我们提出了一种解决这些问题的方法,它利用了因果推理,不依赖于因果图、干预类型或干预目标的先验知识。我们通过在模拟和真实世界的数据上评估一个可能的实施来证明我们的方法。
【Intruduction】
根据观察到的数据预测未知值是许多科学的核心问题,在统计学和机器学习中也有很好的研究。如果训练数据和测试数据不具有相同的分布,例如因为它们来自不同的领域,这个问题就会变得非常困难。只要收集训练数据的环境与要进行预测的环境不同,就会发生这种分布变化。关于这个领域适应问题的文献非常丰富,这是迁移学习领域的一项特殊任务;例如,见Quiñonero-Candela等人(2009);Pan和Yang(2010)的概述。
当领域发生变化时,所考虑的不同变量之间的关系也可能发生变化。虽然对于某些变量集A,在一个领域学到的函数f:A→Y可能继续为不同领域的Y∈Y提供良好的预测,但对于其他变量集A0来说,这可能不是真的。因果图(例如,Pearl,2009;Spirtes等人,2000)允许我们在领域对应于对系统的不同外部干预时,或更广泛地对应于系统被测量的不同背景时,以一种原则性的方式推理。对描述数据生成机制的因果图的了解,以及对模型中哪些部分在不同领域中是不变的了解,使我们能够将知识从一个领域转移到另一个领域,以解决领域适应的问题(Spirtes等人,2000;Storkey,2009;Schölkopf等人,2012;Bareinboim和Pearl,2016)。
在过去的几年里,人们提出了各种方法来利用数据生成过程的因果结构,以解决某些领域适应性问题,每个方法都依赖于不同的假设。例如,Bareinboim和Pearl(2016)为转移下的可识别性("可转移性")提供了理论,假设因果图是已知的,干预措施是完美的,并且干预目标是已知的。Hyttinen等人(2015)也假设有已知目标的完美干预,但并不依赖对因果图的完全了解,而是从数据中推断出它的相关方面。Rojas-Carulla等人(2018)提出的假设是,如果给定某些协变量子集的目标的条件分布在不同的源域中是不变的,那么这个条件分布在目标域中也一定是相同的。Schölkopf等人,2012;Zhang等人,2013,2015;Gong等人,2016)中提出的方法都是针对具有挑战性的环境,在这些环境中,仅靠通常的马尔科夫和忠实性假设所带来的条件独立性并不足以解决问题,而是必须对数据生成过程做出额外的假设。
在这项工作中,我们将不做这种额外的假设,并解决因果图和干预类型及目标都可能(部分)未知的情况。我们的贡献有以下几点。我们考虑了一组相对较弱的假设,使问题得到良好解决。我们提出了一种解决这类因果域适应问题的方法,可以处理潜在的混杂因素的存在。其主要思想是选择能在源域中对Y进行最佳预测的特征子集A,同时满足不变性(即P(Y | A)在源域和目标域中是相同的)。为了测试是否满足不变性条件,我们应用最近提出的联合因果推理(JCI)框架(Mooij等人,2018)来利用对应于不同干预措施的多个领域提供的信息。其基本思路如下。首先,一个标准的特征选择方法被应用于源域数据,以找到预测目标变量的特征集,交易偏见和方差,但不知道跨域分布的变化。然后,一个因果推理方法从所有给定的数据中得出关于可能的因果图的结论,避免预测不会转移到目标域的特征集。我们在Hyttinen等人(2014)的因果发现算法的基础上,提出了我们方法的概念验证实现。我们在合成数据和一个真实世界的例子上对该方法进行评估。
【Theory】
在给出我们在这项工作中所考虑的领域适应性问题的精确定义之前,我们以一个激励性的例子开始。
例1. 我们得到三个变量X1、X2、X3,描述了一个系统的不同方面(例如,小鼠的某些血细胞表型)。我们有这三个变量的观察测量值(源域,指定为C1=0),此外,还有干预下X1和X3的测量值(目标域,指定为C1=1),例如,小鼠接触了某种药物。领域适应的任务是预测在干预性目标领域(即C1=1时)的Y := X2的值。在这个例子中,我们假设图1a中的因果图适用,即我们假设X2受X1影响并影响X3,而C1同时影响X1和X3(即干预措施针对变量X1和X3)。这个因果图意味着P(Y | X1, C1 = 0) = P(Y | X1, C1 = 1) 。再假设X1和X2之间的关系与X2和X3之间的关系同样强烈,但噪音要大得多。那么,一个只使用可用的源域数据的特征选择方法,旨在选择用于预测Y的最佳特征子集,将倾向于X3和X1,X3而不是X1(因为从X1预测Y比从X3预测Y的方差更大,比从X1和X3预测Y的偏差更大)。然而,在干预措施下(C1=1),P(Y | X3)和P(Y | X1, X3)都会发生变化,2因此在目标领域使用这些特征来预测Y可能会导致极端偏差,如图1c所示。由于给定X1的Y的条件分布在不同领域中是不变的,如图1b所示,只基于X1的Y的预测可以安全地转移到目标领域。
这个例子提供了一个领域适应性问题的实例,不考虑因果结构的特征选择方法会选择一组不能推广到目标领域的特征,并可能导致任意糟糕的预测(甚至渐进地,当数据点的数量趋于无穷大时)。另一方面,正确地考虑到因果结构和从源域到目标域的可能分布变化,可以对目标域的预测误差进行上限,我们将在第2.3节中看到这一点。
2.1 问题设置
我们现在正式确定我们在本文中解决的领域适应问题。我们将使用最近提出的联合因果推理(JCI)框架的术语(Mooij等人,2018)。
让我们考虑一个由一组系统变量描述的感兴趣的系统。此外,我们通过上下文变量Cii∈I(我们将使用 "上下文 "作为 "领域 "的同义词)来模拟系统被测量的领域。我们将把所有系统和情境变量的元组表示为V = ((Xj )j∈J , (Ci)i∈I)。系统和背景变量可以是离散的或连续的。作为一个具体的例子,感兴趣的系统可以是一只老鼠。系统变量可以是血细胞表型,如红细胞的浓度、白细胞的浓度和平均红细胞体积。情境变量可以表明,例如,某个基因是否被敲除,给小鼠注射的某种药物的剂量,小鼠的年龄和性别,或进行测量的实验室。重要的基本假设是,背景变量是系统的外生变量,而系统变量是内生的。干预措施并不限于Pearl(2009)的do-operator所模拟的完美("手术")干预,也可以是其他类型的干预,如机制改变(Tian和Pearl,2001)、软干预(Markowetz等,2005)、胖手干预(Eaton和Murphy,2007)、活动干预(Mooij和Heskes,2013),以及所有这些的随机版本。对干预目标的了解并不是必须的(但肯定是有帮助的)。例如,给小鼠注射药物可能对系统变量的一个未知子集有直接的因果影响,但我们可以简单地将其建模为一个二元外生变量(表示是否注射了药物)或一个连续外生变量(描述注射药物的剂量),而不必事先指定它对哪些变量有直接影响。现在我们可以正式陈述我们在这项工作中解决的领域适应任务。
任务1(领域适应任务)。我们得到了单个或多个源域的数据,其中每个域的C1=0,以及单个或多个目标域的数据,其中每个域的C1=1。假设源域的数据是完整的(即没有缺失值),而目标域的数据是完整的,但某个目标变量Y=Xj的所有值除外。我们的任务是根据现有的源域和目标域数据预测目标变量Y的这些缺失值。
图2中提供了一个例子。在下一小节中,我们将正式确定我们的假设,把这个任务变成一个有问题的问题。
2.2 假设
我们的第一个主要假设是,数据生成过程(关于系统和背景变量)可以表示为结构性因果模型(SCM)(例如,见(Pearl,2009))。
在这里,我们引入了外生的潜在独立 "噪音 "变量(Ek)k∈K,对背景和系统变量的潜在原因进行建模。每个变量的父代都用PA(-)表示。每个情境和系统变量都通过一个结构方程与它的父变量相关。此外,我们假设外生变量有一个因子化的概率分布。可能存在循环依赖关系,例如由于反馈环路,但为了简化论述,我们将在此只讨论非循环情况,注意到鉴于最近关于循环SCM的理论进展,扩展到循环情况是直接的(Bongers等人,2018)。这个SCM为各个领域的分布提供了一个因果模型,特别是,它在上下文和系统变量上诱导了一个联合分布P(V )。请注意,我们将假设数据生成过程可以由这种形式的一些模型来建模,但我们并不依赖于对精确模型的了解。
SCM M可以用它的因果图G(M)来表示,这个图有节点I∪J(即。一个由节点I∪J(即系统和上下文变量的标签)、有向边l1→l2,对于l1,l2∈I∪J,如果l1∈PA(l2),以及双向边l1↔l2,对于l1,l2∈I∪J,如果存在一个。在无环的情况下,这个因果图是一个无环有向混合图(ADMG),而M也被称为半马尔科夫因果模型(见例如。(Pearl, 2009))。有向边代表直接的因果关系,双向边可能代表隐藏的混杂因素(都是相对于ADMG中的变量集)。因果)马尔科夫假设成立(Richardson, 2003),即。ADMG G(M)中的随机变量集A, B,S⊆V之间的任何d-separation A⊥B |S [G(M)]意味着由SCM M诱导的分布P(V )中存在条件独立性A⊥B |S [P(V )]。除了d-separation所隐含的条件独立性之外,联合分布中没有其他条件独立性。
我们将对因果结构做如下假设(此后我们将简单地写成G而不是G(M)),Mooij等人(2018)对此有详细讨论。
【假设1(JCI假设)】设G是一个带有变量V(由系统变量Xjj∈J和情境变量Cii∈I组成)的因果图。
(i)没有系统变量直接导致任何背景变量("外生性")
(ii)没有任何系统变量与情境变量混淆("随机性")
(iii)每一对情境变量都是纯混杂的("通用性")
第一个假设是最关键的假设,它抓住了我们对 "背景 "的理解。其他两个假设不太关键,可以省略,这取决于应用。关于这些建模假设的更深入讨论以及它们与其他可能的因果建模方法的比较,我们请读者参考(Mooij等人,2018)。任何因果发现方法原则上都可用于JCI设置,但可识别性大大得益于考虑到假设1中因果图的背景知识。
此外,为了能够解决因果域适应任务,我们将假设:、
【假设2】设G是一个带有变量V(由系统变量Xjj∈J和情境变量Cii∈I组成)的因果图,P(V )是V上的相应分布。设C1为源/目标域指标,Y=Xj为目标变量。
(i) 分布P(V )是马尔可夫和忠实于G的;
(ii) 在源域中涉及Y的任何条件独立性在目标域中也成立,即。如果A∪B∪S包含Y,但不包含C1,那么:
(iii) C1对Y没有直接影响,即
马尔科夫和忠实性假设是基于约束的单一领域因果发现的标准;我们在此将其应用于由系统和背景组成的 "元系统"。
假设2(ii)可能看起来不直观,但正如我们在补充材料中所显示的,它来自于更直观(但更强)的假设,例如,如果集合源域分布P(V | C1 = 0)和集合目标域分布P(V | C1 = 1)都是马尔科夫的,并且对排除C1的G子图是忠实的。这些较强的假设意味着,从源域到目标域时,其他变量的因果结构(即是否存在因果关系和混杂因素)是不变的。假设2(ii)是这些更自然的假设的弱化版本,与源域相比,允许在目标域有额外的独立性,例如,当C1模拟一个完美的手术干预。
假设2(iii)是很强的,但该类型的一些假设对于使任务得到良好的定义似乎是必要的。如果没有任何关于C1的目标或决定目标域中Y值的因果机制的信息,预测目标域中的Y值通常是不可能的。请注意,如果干预措施被认为是精确的目标,那么这个假设就更有可能得到满足,而且观察到的相关系统变量越多,这个假设就越弱。
作为这些假设是合理的现实环境的一个例子,考虑一个基因组学实验,其中许多不同基因的表达水平是通过对单个基因的敲除来测量的。鉴于我们今天对基因表达生物学的理解,假设基因Xi的敲除只对基因Xi本身的表达水平有直接影响是非常合理的。只要我们不要求预测Xi被敲除后的表达水平,而只要求预测其他基因Y=Xj(j 6=i)的表达水平,假设2(iii)似乎是合理的。同样合理的是(基于目前对生物学的理解),预期单一基因的敲除不会改变系统中其他部分的因果机制。如果愿意假设忠实,这就证明了假设2(ii)在这种情况下的合理性。
在接下来的小节中,我们将讨论这些假设如何使我们能够解决领域适应任务。
2.3 分离特征集
我们解决任务1的方法是基于找到一个分离集A⊆V\\C1,Y 的(上下文和系统)变量,满足C1⊥Y | A [G]。如果能找到这样的分离集A,那么Y在A上的条件分布在从源域转移到目标域时是不变的,即P(Y | A, C1 = 0) = P(Y | A, C1 = 1)。由于前者的条件分布可以从源域的数据中估计出来,我们可以直接得到对后者的预测,这样我们就可以从目标域中观察到的A的值来预测Y的值。
现在我们将讨论A的选择对预测质量的影响。为了简化论述,我们使用平方损失函数,并着眼于渐进情况,忽略了有限样本问题。当从特征A⊆V Y, C1(可能是分离的,也可能不是)的子集预测Y时,最佳预测器被定义为从A的可能值范围映射到Y的可能值范围的函数Yˆ,该函数使目标域风险最小,由条件期望(回归函数)给出。由于在目标领域没有观察到Y,我们不能直接从数据中估计这个回归函数。
实践中经常使用的一种方法是忽略源域和目标域之间的分布差异,而使用预测器,使源域风险E最小化,这种近似方法引入了一个偏差Yˆ 1 A - Yˆ 0 A,我们称之为转移偏差(当从A预测Y时)。当忽略源域和目标域有不同的分布时,任何标准的机器学习方法都可以用来预测A中的Y。由于转移偏差可以变得任意大(正如我们在例1中看到的),这种解决策略的预测精度可能会任意糟糕(甚至在无限样本限制下)。
相反,我们建议只有当特征集A满足以下分离集属性时,才从A预测Y。
即在G中把C1和Y分开d。换句话说(如上所述),对于分离集来说,Y在A上的条件分布在从源域转移到目标域时是不变的,即P(Y | A,C1 = 0)= P(Y | A,C1 = 1)。根据这一不变性,源域和目标域的回归函数是相同的,即,因此,在使用预测器Yˆ 0 A时,源域和目标域的风险也是相同的:
r.h.s.可以从源域数据中估计出来,而l.h.s.等于使用在源域上训练的预测器Yˆ 0 A时对目标域的概括误差(这等于如果观察所有目标域数据,包括Y的值,可以得到的预测器Yˆ 1 A)。 6 尽管这种方法导致了零转移偏差,但它引入了另一种偏差:由于只使用了特征A的一个子集,而不是所有可用的特征V C1, Y ,我们可能会错过预测Y的相关信息。我们把这种偏差称为不完全信息偏差,
使用Yˆ 0 A预测Y时的总偏差是转移偏差和不完全信息偏差的总和: 总偏差 转移偏差 不完整信息偏差。
对于某些问题,我们可能只需忽略转移偏差而使不完全信息偏差最小化就可以了,而对于其他问题,为了获得较小的概括误差,考虑转移是至关重要的。在这种情况下,我们可以使用任何满足分离集属性(2)的子集进行预测,这意味着转移偏差为零;显然,然后通过选择一个同时最小化源域风险(即最小化不完全信息偏差)的分离子集获得最佳预测。我们的结论是,这种选择子集A来预测Y的策略可以通过(3)产生预测误差的渐进保证,而简单地忽略分布的转移可能导致无界的预测误差,因为在最坏的情况下,转移偏差可能是任意的大。
2.4 分离特征集的可识别性
对于第2.3节中讨论的选择最佳分离特征集的策略,我们需要找到一个或多个满足(2)的A⊆V\\C1,Y 的集合。当然,问题是我们无法在数据中直接检验,因为对于C1=1来说,Y的值是缺失的。请注意,这里也不能直接使用假设2(ii),因为它只适用于C1不在A∪B时。当因果图G已知时,很容易用d-separation直接验证(2)是否成立。从概念上讲,人们可以通过使用因果发现算法来估计一组可能的因果图(例如,扩展任何标准方法来处理C1=1中缺失的条件独立性检验),然后从这些图中读出分离集。在实践中,没有必要完全估计这些因果图:我们只需要对它们有足够的了解,以验证或证伪给定的特征集是否将C1与Y分开。下面的例子(详情见补充材料)说明了这样的推理使我们能够确定一个分离集的情况。
例2. 假设假设1和2对两个上下文变量C1、C2和三个系统变量X1、X2、X3(Y := X2)成立。如果以下条件(内)依赖在源域中都成立。
那么C1⊥X2 | X1 [G], 即X1是C1和X2的分离集。图2提供了一个可能的因果图,导致了这些(不)依赖关系(其他的在补充材料中的图1(a)中显示)。对于该ADMG,并给定足够的数据,应用于源域数据的特征选择一般会选择X1,X3作为预测Y := X2的最佳特征集,这可能导致一个任意大的预测误差。另一方面,X1集合在任何满足(4)的ADMG中都是分离的,所以用它来预测Y会导致零转移偏差,因此对目标域的风险提供了保证(即,它对最佳目标域的风险提供了一个上限,这可以从源域数据中估计)。
在这项工作中,我们没有用手去描述所有可以识别分离集的可能情况(如例2),而是将因果推理委托给一个自动定理检验器。直观地说,我们的想法是向自动定理检验器提供数据中存在的条件(内)依赖,并将假设1和2编码为逻辑规则,然后询问定理检验器是否能够证明C1⊥Y |A在假设和提供的条件(内)依赖中的候选集A中成立。有三种可能性:要么它能证明这个问题(然后我们就可以从A中预测Y,得到目标域风险的估计值),要么它能反驳这个问题(然后我们就知道A通常会给出有任意大的转移偏差的预测),要么它两者都不做(在这种情况下,希望能找到另一个确实能证明满足(2)的子集A)。
2.5 算法
找到第2.3节所述的最佳分离集的简单(粗暴)算法如下。通过使用一个标准的特征选择方法,产生一个子集A⊆V Y,C1的排序列表,按照经验源域风险从高到低排序。通过这个子集列表(从经验源域风险最小的子集开始),通过查询自动定理检验器,测试分离集属性是否能从数据中推断出来。如果(2)能够被证明是成立的,就使用该子集A来预测Y,并停止;如果不能,就继续使用列表中的下一个候选子集A。如果没有子集满足(2),就不要进行预测了。
假设2(ii)的一个重要结果是,它使我们能够将涉及目标变量的条件独立性从源域转移到目标域(证明见补充材料)。
为了测试分离集条件(2),我们使用Hytinen等人(2014)提出的方法,除了C1→Y /∈G(假设2(iii))这一领域适应性的特定假设外,我们还简单地增加了JCI假设(假设1)作为优化问题的约束。作为输入,我们使用集合数据中所有可直接检验的条件独立性检验p值pA⊥B|S(当Y\\∈A∪B∪S时)和所有仅来自源域数据的命题1的结果(如果Y∈A∪B∪S)。如果有关于干预目标或因果图的背景知识,也可以很容易地将其加入。我们使用Magliacane等人(2016)提出的方法来查询某些语句(例如,Y⊥C1|A)是真的还是假的信心。Magliacane等人(2016)的研究结果表明,这种方法在神谕输入下是合理的,而且只要使用的统计条件独立性检验是渐进一致的。换句话说,在这种方式下,随着样本量的增加,错误地决定一个子集A是否是分离集的概率收敛为零。我们选择这种方法是因为它很容易在现有的开放源代码基础上实现。9 请注意,计算成本随着变量数量的增加而迅速增加,限制了可以同时考虑的变量数量。
剩下的一个问题是,当找到一个最佳分离集A时,如何预测Y。由于从源域转移到目标域时,A的分布可能会发生变化,这意味着在预测Y时需要考虑到协变量的变化。原则上,任何方法(如最小二乘回归)都可以用来从给定的协变量集合中预测Y,但最好使用在协变量转移下效果好的预测方法,如(Sugiyama等,2008)。
3 评估
我们对合成数据和基于因果推理挑战的真实世界数据集进行了评估。后者的数据集由国际小鼠表型协会(IMPC)的血液学相关测量数据组成,该协会收集了不同单基因敲除的小鼠表型的测量数据。
在这两项评估中,我们比较了标准的特征选择方法(使用随机森林)和我们的方法,后者建立在它的基础上,并从其输出中选择最佳分离集。首先,我们使用scikit-learn(Pedregosa等人,2011年)中的随机森林调节器的实现和默认参数,按其袋外得分对所有可能的特征子集进行评分。对于基线,我们选择表现最好的子集并预测Y。相反,对于我们提出的方法,我们试图找到一个特征子集A,它也是一个分离集,从具有最佳得分的子集开始。为了测试A是否是一个分离集,我们使用第2.5节所述的方法,使用ASP求解器clingo 4.5.4(Gebser等人,2014)。我们提供显著性水平α=0.05的部分相关检验的独立性检验结果作为输入,并与Magliacane等人(2016)的加权方案相结合。然后,我们使用随机森林方法找到的预测性特征集排名列表中的第一个子集A,对于该子集,C1⊥Y | A的置信度为正。如果没有满足这一标准的集合A,那么我们就放弃预测。
对于合成数据,我们随机生成200个具有潜变量和高斯噪声的线性非循环模型,每个模型有三个系统变量,并为观察域和两个实验域各取N个数据点,在这些模型中,我们对随机选择的目标进行模拟软干预,扰动的大小不同。我们随机选择两个背景变量中的哪一个为C1,三个系统变量中的哪一个为Y。我们不允许C1对Y产生直接影响,并强制要求任何干预都不能同时直接影响所有变量。关于如何模拟数据的更多细节在补充材料中提供。图3a显示了基线和我们的方法预测的Y值相对于真实值的L2损失,考虑到我们的方法确实产生了答案的200个案例中的121个。特别是,图3a考虑了每个制度有N=1000个样本的情况,以及所有产生大扰动的干预措施。在补充材料中,我们表明,结果随着样本的增加而改善,对于基线来说是如此,对于我们的方法来说更是如此,因为条件独立性测试的质量提高了。我们还表明,根据预期,如果目标分布与源分布非常相似,即转移偏差较小,我们的方法没有提供任何好处,似乎比基线的表现更差。反之,干预效果越大,使用我们的方法的优势就越大。
对于现实世界的数据集,我们选择了CRM因果推理挑战赛中所考虑的变量的一个子集。具体来说,为了简单起见,我们把重点放在16个表型上,这些表型彼此之间没有确定的关系。该数据集包含对441只 "野生型 "小鼠和13种不同的单基因敲除的约10只 "突变型 "小鼠的测量。然后,我们通过随机选择3个变量和2个基因敲除背景的子集来产生1000个数据集,并始终包括 "野生型 "小鼠。对于每个数据集,我们随机选择Y和C1,并撇开C1=1的Y的观察值。图3b显示了基线和我们的方法预测的Y值相对于实际值的L2损失的图谱。鉴于数据集的规模很小,这是一个非常具有挑战性的问题。在这种情况下,我们的方法对1000个案例中的170个案例放弃了预测,但在其余案例中的表现与基线相似。
4 讨论和结论
我们定义了一类通用的因果领域适应性问题,并提出了一种方法,可以识别导致可转移预测的特征集。我们的假设是相当普遍的,特别是不需要知道因果图或干预目标。该方法在模拟数据上给出了很好的结果。通过利用Forré和Mooij(2018)的结果,将我们的方法扩展到循环的情况下是很简单的。在实施方面还有更多的工作要做,例如,扩大到更多的变量。目前,我们的方法可以在一台笔记本电脑上处理大约七个变量,随着最近精确因果发现算法的进步(例如Rantanen等人,2018),再多几个变量也是可行的。对于扩展到几十个变量,我们计划调整基于约束的因果发现算法,如FCI(Spirtes等人,2000),以处理领域适应任务的缺失数据方面。我们希望这项工作也能激发人们从统计学习理论的角度进一步研究偏见、方差和因果关系之间的相互作用。
以上是关于论文导读Domain Adaptation by Using Causal Inference toPredict Invariant Conditional Distributions的主要内容,如果未能解决你的问题,请参考以下文章
论文导读Domain Adaptation as a Problem of Inferenceon Graphical Models
论文导读Domain Adaptation as a Problem of Inferenceon Graphical Models
笔记:unsupervised domain adaptation by backpropagation
迁移学习(CDAN)《Conditional Adversarial Domain Adaptation》(已复现迁移)
迁移学习(CDA)《CDA:Contrastive-adversarial Domain Adaptation 》
迁移学习《Asymmetric Tri-training for Unsupervised Domain Adaptation》