论文导读Domain Adaptation as a Problem of Inferenceon Graphical Models
Posted ViviranZ
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了论文导读Domain Adaptation as a Problem of Inferenceon Graphical Models相关的知识,希望对你有一定的参考价值。
Zhang, Kun, et al. “Domain adaptation as a problem of inference on graphical models.” Advances in Neural Information Processing Systems 33 (2020).
【摘要】
本文关注的是数据驱动的无监督领域适应,在这种情况下,事先不知道联合分布如何跨领域变化,也就是说,数据分布的哪些因素或模块保持不变或跨领域变化。为了开发一种具有多个源域的自动化领域适应方式,我们建议使用图形模型作为编码联合分布变化属性的紧凑方式,它可以从数据中学习,然后将领域适应视为图形模型的贝叶斯推理问题。这样的图形模型区分了分布的恒定模块和变化模块,并规定了跨域变化的属性,作为变化模块的先验知识,用于推导目标域中目标变量Y的后验。这提供了一个端到端的领域适应框架,其中关于联合分布如何变化的额外知识(如果有的话)可以直接纳入,以改善图形表示。我们讨论了如何将基于因果关系的领域适应放在这个总框架下。在合成和真实数据上的实验结果证明了所提出的领域适应框架的有效性。代码可在https://github.com/mgong2/DA_Infer。
1 引言
在过去的十年中,各种无监督领域适应(DA)的方法被追求,以利用源域的数据在新的目标域中进行预测。特别是,我们考虑有n个源域的情况,其中d维特征向量X(其第j维用Xj表示)和标签Y都是给定的,也就是说,我们得到(x(i),y(i))=(x(i)k,y(i)k)mi k=1,其中i=1,...,n,mi是第i个源域的样本大小。我们用x (i) jk表示第k个数据点(例子)在第i个域中的第j个特征的值。我们的目标是找到目标域的分类器,其中只有特征x τ = (x τ k ) m k=1可用。因为分布可能会在不同的领域中发生变化,显然,最佳的适应或转移方式取决于哪些信息是跨领域共享的以及如何进行转移。
在协变量转移的情况下,特征的分布P(X)发生变化,而条件分布P(Y |X)保持固定。一个常见的策略是对源域的例子进行重新加权,以匹配目标域的特征分布--这是机器学习中广泛研究的方法,例如,见[1, 2, 3, 4]。另一组方法是学习一个领域不变的特征表示,该表示在目标域和源域中具有相同的分布[5, 6, 7, 8, 9]。
此外,人们发现P(Y |X)通常会在不同的领域中发生变化,这与共变数转移的设置不同。为了解释和模拟P(Y |X)的变化,人们从生成的角度研究了这个问题[10, 11, 12, 13, 14]--人们可以利用对应于因果表征的联合分布的因子化,根据常识或领域知识,利用联合分布的因子如何变化。目标转移[10, 14, 12, 15]和条件转移[12, 16, 17]的设置分别假设只有P(Y )和P(X|Y )发生变化,它们的组合作为广义的目标转移[12, 18]也被研究,相应的方法在一些基准数据集上的性能明显提高。通过学习具有给定标签和匹配联合分布的不变条件的特征表征[17, 19, 20],这些方法得到了进一步的扩展,并且表明了如何从这个角度理解基于领域不变表征的方法。
不同领域中的分布是如何关联的?从本质上讲,DA旨在发现和利用多个领域所隐含的数据分布中的约束,并做出适应目标领域的预测。为此,我们假设不同领域的数据分布是独立和相同的分布(I.I.D.),从一些 "母 "分布中提取。母分布编码了特定领域分布的不确定性,即联合分布在各领域中的不同。假设母分布是已知的,目标域分布是从该分布中提取的。此外,目标域包含由该分布产生的数据点(没有Y值)。那么,自然可以利用母分布和目标域的特征值来揭示目标域分布的属性,从而达到预测Y的目的。换句话说,DA是通过利用母分布和目标域特征值来获取Y的信息而实现的。
按照这个论点,我们有几个问题需要回答。首先,对于数据分布的变化(描述母分布),是否有一个自然的、紧凑的约束描述?这种约束包括联合分布的哪些因素可以变化,它们是否独立变化,以及变化的范围。(我们将联合分布表示为各因素的乘积。)第二,我们如何从现有数据中找到这样的描述?第三,我们如何利用这样的描述以及目标域的数据来进行最佳预测?传统的图形模型提供了一种紧凑的方式来编码变量之间的条件独立性关系,并对联合分布进行因子化[21,22]。我们将使用有向无环图(DAG)的扩展,即增强的DAG,来分解联合分布,并编码联合分布的哪些因素在不同领域中发生变化。增强的DAG,加上变化模块的条件分布和变化性,给出了一个增强的图形模型,作为联合分布如何变化的紧凑表示。然后,预测目标域中的Y值是一个关于这个图形模型的贝叶斯推理问题,给定观察到的目标域特征值。这提供了一个自然的框架,以自动化、端到端的方式解决DA问题。
2 相关工作
我们关注的是在目标领域中没有标记点的情况,即所谓的无监督DA。为了使成功的知识转移成为可能,人们提出了关于分布如何变化的各种假设。例如,一个经典的设定是假设P(X)发生变化,但P(Y |X)保持不变,即协变量转移情况;例如,见[1]。在[2]中,它也被称为样本选择偏差。对P(X)转移的修正可以通过使用作为特征X的函数的重要性权重对源域实例进行重新加权来实现[1, 2, 3, 4, 23, 24, 25, 26],基于某些分布差异措施,如最大平均差异(MMD)[27]。这种方法的一个常见前提是源域的支持包括目标域,但当然这往往不是事实。另一组方法通过应用合适的线性变换或非线性变换,或通过适当的抽样,学习一个域不变的表示,该表示在目标域和源域中具有相同的分布[5, 6, 7, 8, 9]。
在实践中,P(X)和P(Y |X)经常在不同的领域中同时发生变化。例如,对于一个卫星图像分类系统来说,它们都有可能随着时间和地点的变化而变化。如果数据分布在不同的领域中任意变化,显然,来自来源的知识可能无助于预测目标领域中的Y[28]。人们必须找到什么类型的信息应该从源头转移到目标。许多工作都是基于联合分布的因子化,即P(XY )=P(X|Y )P(Y ),其中P(Y )或P(X|Y )的变化都会根据贝叶斯规则引起P(X)和P(Y |X)的变化。一种可能性是假设P(X)和P(Y |X)的变化都是由于P(Y )的变化,而P(X|Y )保持不变,即所谓的先验转移[10, 14]或目标转移[12]。同样地,我们可以假设条件性转移,即P(Y )保持不变,但P(X|Y )发生变化[12]。在实践中,目标转移和条件转移可能同时发生,这被称为广义的目标转移[12]。人们提出了各种方法来处理这些情况。目标偏移可以通过使用Y的重要性函数对源域例子进行重新加权来纠正,该函数可以通过密度匹配来估计[12, 15, 29, 30, 31]。一般来说,条件性偏移是不好解决的,因为如果没有进一步的约束,考虑到源域数据和目标域特征值,P τ (X|Y )一般是无法识别的。当P(X|Y )以某些参数方式变化时,例如,当P(X|Y )在X的位置尺度变换下变化时,它被证明是可识别的[12]。此外,最初提出的用于协变量转换的不变表示学习方法可以被采用来实现不变的因果机制[17]。可以利用目标域的伪标签来完善条件分布的匹配[16, 32]。最后,广义的目标转移也通过联合学习领域不变的表征和实例加权函数来解决;见例如[12, 17, 18, 33]。
虽然上述工作要么假设X→Y,要么假设Y→X,但最近的一些工作试图使用因果图来模拟特征和标签之间的复杂因果关系[34, 35, 36],例如,一个特征子集是Y的原因,其余是效果。[34]根据从数据中学习的因果图提出了一个领域适应性生成模型。[35]探讨了具有不变的条件性因果机制的特征,用于跨领域预测。[36]提出了一种端到端方法,当完整的因果DAG不可用时,可以传输不变的预测分布。我们的方法在两个方面与这些方法不同。首先,我们的方法只需要增强的DAG,这比因果DAG更容易学习。第二,我们的方法可以同时适应不变的和变化的特征,而[35]和[36]只利用具有不变条件分布的特征。
3 图形模型上的DA和推理
为了自动发现要转移的内容,在本文中我们主要考虑至少有两个源域的DA,尽管如果已知适当的额外约束条件,该方法也可以应用于单源情况。一般来说,多个源域的可用性提供了更多的提示,有助于找到Pτ(X|Y)以及Pτ(Y|X)。已有一些算法被提出来,以不同方式结合来自多个源域的源假设[37, 38, 39, 40]。正如人们所看到的,现有的方法主要是假设分布转移的属性,并利用假设进行DA;此外,所涉及的假设通常是相当强大的。违反这些假设可能会导致负面的转移。
于是,一个重要的问题自然而然地产生了--是否有可能开发一种数据驱动的方法,在温和的条件下,自动找出从源头到目标的信息转移,并在目标领域做出最佳预测?本文旨在尝试回答这个问题,通过用图形模型表示分布变化的属性,从数据中估计图形模型,并将目标域的预测视为对图形模型的推理问题,给定目标域的特征值。下面我们介绍使用的图形模型以及如何将它们用于DA。
3.1 用增强图形模型描述分布变化特性
在目标域中,Y值需要被预测,我们的目标是对其联合分布进行最佳预测。为了找到目标域的分布,我们必须利用源域的数据,并利用不同域的分布之间的联系。然后,很自然地将联合分布分解为不同的成分或模块--如果尽可能少的成分在各域间发生变化,将有利于恢复目标分布。此外,在估计目标域中变化的模块时,如果这些变化不是耦合的,那将是有益的,这样我们就可以进行 "分而治之";否则,如果这些变化是耦合的,我们就必须一起估计这些变化,并且会受到 "维度诅咒 "的影响。换句话说,DA得益于对数据分布如何跨域变化的紧凑描述--这种描述与目标域的给定特征值一起,有助于恢复目标联合分布并实现最佳预测。在这一节中,我们介绍我们的图形模型就是这样一种描述分布变化的方式。
传统的图形模型提供了一种紧凑而灵活的方式,将联合分布分解为更简单的低维因素的乘积[41, 22],作为变量之间的条件独立性关系的结果。对于我们的目的,我们不仅需要编码变量之间的条件独立关系,而且还需要编码条件分布是否跨域变化。为此,我们提出了一个增强的有向无环图(DAG),作为描述联合分布如何跨域变化的一种灵活而紧凑的方式,假设所有领域的分布都可以用这样一个图来表示。它是一个增强图,因为它不仅涉及特征Xi和Y,而且还涉及外部潜在变量θ。
图1给出了这样一个图的例子。灰色的节点在Y的Markov Blanket(MB)中。θ变量是相互独立的,在每个领域内的所有数据点上取相同的值,在不同的领域内可能取不同的值。它们表明了分布转移的特性--任何有θ变量直接进入的变量,其给定父母的条件分布(由Xi和Y上的DAG暗示)取决于相应的θ变量,因此可能跨域变化。换句话说,各域的分布只在θ变量的值上有所不同。一旦给定了它们的值,特定领域的联合分布就由P(X, Y | θ)给出,它可以根据增强的DAG被分解。在图1给出的例子中,分布因子P(X1)、P(Y |X1)和P(X3|Y, X2)等会在不同领域中发生变化,而P(X5|Y )和P(X7|X3)是不变的。第i个域的联合数据分布可以写成。对于所使用的增强图,我们有几点意见。首先,由于θi是独立的,相应的条件分布在不同领域中独立变化。由于这样的独立属性,我们可以分别对相应因素的变化进行建模和学习。其次,我们注意到,增强图中的每个节点可以是一组变量,作为 "超节点 "而不是单一的变量。例如,对于数字识别问题,我们可以将数字图像的像素视为图中的 "超节点"。
3.1.1 与因果图的关系
如果观察到的数据所依据的因果图是已知的,不存在混杂因素(两个变量的隐藏的直接共同原因),并且观察到的数据是来自人群的完全随机样本,那么人们可以直接从因果模型中受益,用于转移学习,如[42,12,43]所示。事实上,在这种情况下,我们的图形表示将编码与原始因果模型相同的条件独立性关系。
值得注意的是,因果模型本身可能不足以解释数据的属性,例如,由于选择偏差[44]。此外,基于观察数据寻找因果关系是出了名的困难;为了实现这一点,人们往往要对因果模型(如忠实性[45])和抽样过程做出相当强的假设。另一方面,纯粹作为变量的条件独立性关系以及分布模块的变化属性的描述,找到图形模型是相当容易的。底层的因果结构可能与我们采用的增强DAG有很大不同。例如,让Y是疾病,X是相应的症状。假设我们有在不同诊所(领域)收集的数据,并且受试者根据症状(X)的严重程度以概率的方式被分配到不同的诊所,这很自然。那么我们可以看到,在不同的领域中,我们有不断变化的P(X),但有固定的P(Y |X),因此,在增强的DAG中有一个从X到Y的定向链接,与因果方向相反。详细的例子以及所涉及的因果图和增强的DAG,请见附录A1。
4 数据驱动的DA的实现
在实践中,我们得到的是数据,而图形模型往往是不可用的。对于DA,我们需要从数据中学习增强的图形模型(相关部分),其中包括增强的DAG结构,CH(Y )∪Y 中每个变量的条件分布,以及相关θ变量的先验分布,然后开发计算方法来推断目标域数据中的Y。
4.1 学习增强的DAG
为了使所提出的方法具有广泛的适用性,我们的目标是找到一种非参数方法来学习增强的DAG,而不是假设限制性的条件模型,如线性的。我们注意到,在因果关系界,从非平稳或异质数据中寻找因果关系近年来已经引起了一些关注。特别是,在一组假设条件下,最近提出了一种非参数方法来解决这个因果发现问题,称为从非平稳/异质数据中发现因果关系(CD-NOD)[46, 47, 48]。该方法是PC算法[49]的扩展,包括:1)弄清因果机制变化的地方;2)估计因果图的骨架;3)通过利用因果模块的独立变化特性,确定比PC更多的因果方向。在这里,我们调整了他们的方法,用于学习DA所需的增强DAG的部分,而不求助于他们工作中的假设。
用S表示Y和所有Xi的集合。适应的方法有以下三个步骤。前两个步骤是直接从CD-NOD改编的。第一步是寻找变化的分布因子和估计无向图。设C为领域指数。它将PC算法的第一阶段应用于S∪C,找到一个无向图。值得注意的是,如果变量Si∈S与C相邻,那么在其余变量的任何子集下,Si都有条件地依赖于C,因此,P(Si | PA(Si))必须在不同的域中变化。与数据集转移检测方法[50]相比,我们的程序更加通用,因为它适用于多个域,并且可以区分不变的和变化的条件分布,甚至进一步利用变化的条件分布中的有用信息。第2步是确定边缘方向,通过应用PC中的方向规则,加上所有的θ变量是外生和独立的约束。此外,如果Si和Sj是相邻的,并且都与C相邻,则使用它们之间的方向,该方向能使它们的条件分布P(Si | PA(Si))和P(Sj | PA(Sj ))发生独立变化。[47]. 如果变化在两个方向上都是独立的,则将Si和Sj合并为一个 "超级节点"(的一部分),并合并它们相应的θ变量。步骤3最后从步骤2的输出中实例化出一个DAG,这是一个部分DAG。值得注意的是,我们的程序本质上是局部图学习(只关注Y和其马尔科夫空白中的变量)。因此,复杂度对数据的原始维度不是很敏感,但对马尔科夫毯的大小很敏感。关于这个程序的细节,见附录A。
4.2 为变化的条件分布建模的 潜在变量CGAN
第二个需要解决的实际问题是如何表示和学习(4)中涉及的条件分布。在某些应用中,领域知识是可用的,人们可以采用特定的模型,如高斯过程模型,这些模型预计将适合于应用领域。在本文中,鉴于生成对抗网络(GAN)[51]在捕捉高维分布的属性和生成新的随机样本方面的能力,以及条件GAN(CGAN)[52]在学习灵活的条件分布方面的能力,我们提出了CGAN的扩展,即潜变量CGAN(LV-CGAN),用于建模和学习一类条件分布P(Si | PA(Si),θSi),其中θSi是一个潜变量。作为一个例子,图2显示了LV-CGAN的结构,用来模拟P(X3 | Y, X2)在图1中给出的增强DAG所暗示的跨域的条件分布。整个网络,包括它的参数,都是共享的,只有θ3的值可以跨域变化。因此,它明确地模拟了条件分布中的变化部分和不变部分。在第i个领域中,θ3的值为θ(i)3,并编码了特定领域的信息。网络通过生成过程X3 = g3(Y, X2, E3, θ3)指定模型分布Q(X3|Y, X2, θ3),它将随机噪声E3转化为X3,以Y、X2和θ3为条件。E3独立于Y和X2,其分布是固定的(我们使用标准的高斯分布)。g3是一个由神经网络(NN)表示的函数,并由所有领域共享。Q(X3|Y, X2, θ(i) 3 )被训练来近似第1个域中的条件分布P(X3 | Y, X2)。对于不变的条件分布,如图1中的P(X5|Y ),θ的输入消失了,它就成为一个CGAN。与现有的因果生成模型[53, 54]相比,我们的LV-CGAN旨在对跨域的分布变化进行建模,并在目标域中生成标记数据,用于跨域预测。
4.3 学习和推理
由于我们使用GAN对分布进行建模,推理规则(2)和(4)不能直接应用,因为所涉及的分布是难以处理的。为了解决这个问题,我们开发了一个随机变异推理(SVI)[55]程序来直接近似源域的后验P(θ|x τ , y τ )和目标域的P(θ|x τ )。为了简化符号,我们将第i个源域数据表示为Di,将目标域数据表示为Dτ,将源域和目标域的组合数据表示为D。我们依靠源域和目标域的边际似然的证据下限(ELBO):log p(D) ≥ -Xs i=1 KL(q(θ|Di )|p(θ) ) + Eq(θ|Di) hXmi k=1 log pg(x (i) k , y (i) k |θ) i - KL(q(θ|Dτ )|p(θ) ) + Eq(θ|Dτ ) hXm k=1 log pg(x τ k|θ) i 。(5) 我们用高斯分布q(θ|Di )=N (θ|µ (i) , σ(i)),q(θ|Dτ )=N (θ|µ τ , στ)来近似源域和目标域中θ的后验。然后,我们可以通过变异EM算法学习g中的模型参数以及每个域中的变异参数。
在学习灵活的条件分布方面,我们提出了CGAN的一个扩展,即Latent-Variable CGAN (LV-CGAN),用于建模和学习一类条件分布P(Si | PA(Si), θSi),其中θSi是一个潜变量。作为一个例子,图2显示了LV-CGAN的结构,用来模拟P(X3 | Y, X2)在图1中给出的增强DAG所暗示的跨域的条件分布。整个网络,包括它的参数,都是共享的,只有θ3的值可以跨域变化。因此,它明确地模拟了条件分布中的变化部分和不变部分。在第i个领域中,θ3的值为θ(i)3,并编码了特定领域的信息。网络通过生成过程X3 = g3(Y, X2, E3, θ3)指定模型分布Q(X3|Y, X2, θ3),它将随机噪声E3转化为X3,以Y、X2和θ3为条件。E3独立于Y和X2,其分布是固定的(我们使用标准的高斯分布)。g3是一个由神经网络(NN)表示的函数,并由所有领域共享。Q(X3|Y, X2, θ(i) 3 )被训练来近似第1个域中的条件分布P(X3 | Y, X2)。对于不变的条件分布,如图1中的P(X5|Y ),θ的输入消失了,它就成为一个CGAN。与现有的因果生成模型[53, 54]相比,我们的LV-CGAN旨在对跨域的分布变化进行建模,并在目标域中生成标记数据,用于跨域预测。4.3 学习和推理 由于我们使用GAN对分布进行建模,推理规则(2)和(4)不能直接应用,因为所涉及的分布是难以处理的。为了解决这个问题,我们开发了一个随机变异推理(SVI)[55]程序来直接近似源域的后验P(θ|x τ , y τ )和目标域的P(θ|x τ )。为了简化符号,我们将第i个源域数据表示为Di,将目标域数据表示为Dτ,将源域和目标域的综合数据表示为D。我们依靠源域和目标域的边际似然的证据下限(ELBO):log p(D) ≥ -Xs i=1 KL(q(θ|Di )|p(θ) ) + Eq(θ|Di) hXmi k=1 log pg(x (i) k , y (i) k |θ) i - KL(q(θ|Dτ )|p(θ) ) + Eq(θ|Dτ ) hXm k=1 log pg(x τ k|θ) i 。(5) 我们用高斯分布q(θ|Di )=N (θ|µ (i) , σ(i)),q(θ|Dτ )=N (θ|µ τ , στ)来近似源域和目标域中θ的后验。然后我们可以通过变异EM算法学习g中的模型参数以及每个域中的变异参数。
在学习了变异参数之后,我们可以对目标域的θ进行采样,并生成g的样本,以学习分类器来近似P(y τ k |x τ )。为了使程序更加有效,我们可以利用联合分布pg(X, Y, θ)对增强图的分解,如公式4所示。详细的推导和论证可以在附录A5中找到。
5.实验
6 结论和讨论
在本文中,我们提出了一个框架来处理具有多个源域的无监督域适应问题,将域适应视为对目标变量和特征或其组合作为超节点的特定类型的图形模型的推理问题,该模型编码了跨域数据的变化属性。图形模型可以直接从数据中估计出来,从而形成一个自动化的、端到端的领域适应方法。作为未来的工作,我们将研究所学图形的稀疏程度如何影响最终的预测性能,更重要的是,旨在通过采用更有效的推理程序来提高该方法的计算效率。通过扩展我们的方法来处理不同特征空间的迁移学习(称为异质迁移学习)也是一个需要探索的方向。
以上是关于论文导读Domain Adaptation as a Problem of Inferenceon Graphical Models的主要内容,如果未能解决你的问题,请参考以下文章
论文导读Domain Adaptation by Using Causal Inference toPredict Invariant Conditional Distributions
论文导读Domain Adaptation by Using Causal Inference toPredict Invariant Conditional Distributions
迁移学习(CDAN)《Conditional Adversarial Domain Adaptation》(已复现迁移)
迁移学习(CDA)《CDA:Contrastive-adversarial Domain Adaptation 》
迁移学习《Asymmetric Tri-training for Unsupervised Domain Adaptation》
迁移学习(EADA)《Unsupervised Energy-based Adversarial Domain Adaptation for Cross-domain Text Classificat