8.6 归纳式迁移学习

Posted 2021-06-29 炫云云

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了8.6 归纳式迁移学习相关的知识，希望对你有一定的参考价值。

文章目录

- - 5.1、归纳式迁移学习

5.1、归纳式迁移学习

基于 Boosting，提出了基于实例的TrAdaBoost 迁移学习算法．当目标域中的样本被错误地分类之后，可以认为这个样本是很难分类的，因此增大这个样本的权重，在下一次的训练中这个样本所占的比重变大．如果源域中的一个样本被错误地分类了，可以认为这个样本对于目标数据是不同的，因此降低这个样本的权重，降低这个样本在分类器中所占的比重．

深度神经网络可以学习可迁移的特征，这些特征可以很好地泛化到新的任务中，从而实现域适应。然而，随着深度特征最终沿网络由一般特征向特定特征的转变，在更高的层次上特征的可迁移性显著下降，因为源数据与目标数据之间的分布差距，域差异增大。因此，减少数据集偏差和增强任务特定层的可移植性是很重要的。

为了解决迁移学习中的域适应问题，Long Mingsheng 基于 DDC( Deep Domain Confusion，深度领域适配) 提出深度适配网络 DAN( Deep Adaptation Network) ¹．DDC 是在预训练的 AlexNet 网络的第 7层加入了 MMD距离来减小 $D_S$ 和 $D_T$ 之间的差异． DAN 是深度迁移学习方法，它适配高层网络DDC，并加入了多核的 MMD( MK－MMD) ．MMD 是把源域和目标域用一个相同的映射，映射到一个再生核希尔伯特空间( RKHS) 中，然后求映射后两部分数据的均值差异，就当作是两部分数据的差异．在 MMD中核是固定的，可以选择是高斯核或者线性核．MK－MMD 提出用多个核去构造这个总的核，这样效果比一个核更好．

DDC请看： DDC——Deep Domain Confusion Maximizing for Domain Invariance_

它很好地解决了 DDC 的两个问题:

一是 DDC 只适配了一层网络，而 DAN 适配最后三层( 6～8 层) 如图5-1，网络的迁移能力在最后三层开始就会变得专化( specific) ，所以要重点适配这三层．
二是 DDC 是用了单一核的 MMD，单一固定的核可能不是最优的核．DAN 用了多核的 MMD( MK－MMD) ，效果比 DDC 更好．

DAN

$图 5 - 1$

MK-MMD

定义：源域和目标域分布分别用概率 $p$ 和 $q$ 表示。 $\\mathcal{H}_{k}$ 表示具有特征核 $k$ 的希尔伯特空间(RKHS)。分布 $p$ 在 $\\mathcal{H}_{k}$ 中的平均嵌入是 $\\mu_{k}(p)$ ，则均方差为 $\\mathbf{E}_{\\mathbf{x} \\sim p} f(\\mathbf{x})=\\left\\langle f(\\mathbf{x}), \\mu_{k}(p)\\right\\rangle_{\\mathcal{H}_{k}}$ ，其中 $\\in \\mathcal{H}_{k}$ 。概率分布 $p$ 和 $q$ 之间的MK-MMD $d_{k}(p, q)$ 被定义为 $p$ 和 $q$ 的平均嵌入均方差之间的希尔伯特空间距离。
$d_{k}^{2}(p, q) \\triangleq\\left\\|\\mathbf{E}_{p}\\left[\\phi\\left(\\mathbf{x}^{s}\\right)\\right]-\\mathbf{E}_{q}\\left[\\phi\\left(\\mathbf{x}^{t}\\right)\\right]\\right\\|_{\\mathcal{H}_{k}}^{2}\\tag{5.1-1}$
如果 $d_{k}^{2}(p, q)=0$ 则 $p = q$ 。

特征核 $k$ 为 $k\\left(\\mathbf{x}^{s}, \\mathbf{x}^{t}\\right)=\\left\\langle\\phi\\left(\\mathbf{x}^{s}\\right), \\phi\\left(\\mathbf{x}^{t}\\right)\\right\\rangle$ ，被定义为m的凸组合PSD核 $\\left\\{k_{u}\\right\\}$
$\\mathcal{K} \\triangleq\\left\\{k=\\sum_{u=1}^{m} \\beta_{u} k_{u}: \\sum_{u=1}^{m} \\beta_{u}=1, \\beta_{u} \\geqslant 0, \\forall u\\right\\},\\tag{5.1-2}$
约束系数 $\\left\\{\\beta_{u}\\right\\}$ 的实施保证了多核 k是特点。

DAN网络结构

由5个卷积层 $(\\operatorname{con} v 1-\\operatorname{con} v 5)$ 和3个全连接层( $(f c 6 -$ $f c 8) .$ 每个 $f c$ 层 $\\ell$ 学习非线性映射 $\\mathbf{h}_{i}^{\\ell}=$ $f^{\\ell}\\left(\\mathbf{W}^{\\ell} \\mathbf{h}_{i}^{\\ell-1}+\\mathbf{b}^{\\ell}\\right)$ , $\\mathbf{h}_{i}^{\\ell}$ 是点 $\\mathbf{x}_{i}$ 的隐藏特征。 $f^{\\ell}$ 是激活函数, 隐藏层时为 $f^{\\ell}(\\mathbf{x})=\\max (\\mathbf{0}, \\mathbf{x})$ ，输出层时为

以上是关于8.6 归纳式迁移学习的主要内容，如果未能解决你的问题，请参考以下文章