本科毕设研究记录————小样本综述

Posted 云溪龙

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了本科毕设研究记录————小样本综述相关的知识,希望对你有一定的参考价值。

论文链接[1904.05046] Generalizing from a Few Examples: A Survey on Few-Shot Learning (arxiv.org)

综述

问题定义

  • 机器学习定义:A computer program is said to learn from experience E with respect to some classes of task T and performance measure P if its performance can improve with E on T measured by P.

    计算机程序可以通过使用方法P在任务T中获得经验E来使它的表现变好。但是总是需要大量的数据,这是比较困难的。

  • 小样本学习:Few-Shot Learning(FSL) is a type of machine learning problems (specified by E, T and P), where E contains only a limited number of examples with supervised information for the target T.

    使用少量样本数据进行训练完成目标任务的一种机器学习方法。

使用小样本学习典型的几种场景

  • 字符生成:学习(E)由给定示例和监督信息以及预先训练的概念(如零件和关系)组成的知识,作为先验知识。生成的字符通过视觉图灵测试(P)的通过率进行评估,该测试可区分图像是由人类还是机器生成的。
  • 罕见案例学习:当不能获得充足的训练集来进行训练时,如,考虑一个药物发现任务(T),它试图预测一个新分子是否具有毒性作用。正确分配为有毒或无毒(P)的分子百分比随着(E)的增加而提高,(E)通过新分子的有限分析和许多类似分子的分析作为先验知识获得。
  • 减轻样本收集的负担:考虑少量镜头图像分类任务(T)。图像分类精度(P)通过为每个类别的target提取一些标记图像,以及从其他类别(如原始图像)提取先验知识(E)来提高。成功完成此任务的方法通常具有较高的通用性。因此,它们可以很容易地应用于许多样本的任务。

例如下表

Remark 1.When there is only one example with supervised information inE, FSL is calledone-shot
learning[14,35,138]. When E does not contain any example with supervised information for the
targetT, FSL becomes azero-shot learningproblem (ZSL). As the target class does not contain
examples with supervised information, ZSL requires E to contain information from other modalities
(such as attributes, WordNet, and word embeddings used in rare object recognition tasks), so as to
transfer some supervised information and make learning possible.

当只有一个有监督信息的样本称为单样本学习,没有办法从监督学习获得信息的时候成为0样本学习,0样本要求从其他地方获得信息。

相关的领域

  • Weakly supervised learning弱监督学习:仅从包含弱监督(如不完整、不精确、不准确或有噪声的监督信息)的经验中学习。根据人工干预的不同又分为以下几类:

    • Semi-supervised learning半监督学习:从少量有标签数据和大量无标签数据,通常应用文本分类和网页分类。还有一种Positive-unlabeled learning正未学习,只判断样本是未知的还是正向。
    • Active learning主动学习,它选择信息性的未标记数据来查询oracle的输出。这通常用于注释标签昂贵的应用程序,如行人检测。

    FSL也包括强化学习问题,只有当先验知识是未标记数据且任务是分类或回归时,FSL才成为弱监督学习问题。

  • Imbalanced learning不平衡学习:不平衡学习是从经验中学习的,它的分布是偏态的。在欺诈检测和灾难预测应用程序中,当一些值很少被采用时,就会发生这种情况。

  • 迁移学习:将知识从训练数据丰富的源域/任务转移到训练数据稀缺的目标域/任务。它可以用于跨域推荐、跨时间段、跨空间和跨移动设备的WiFi定位等应用。

    小样本学习中经常使用迁移学习的方法

  • 元学习:元学习者在任务中逐渐学习通用信息(元知识),学习者通过任务特定信息概括元学习者的新任务

    元学习者被视为指导每个特定FSL任务的先验知识。

核心问题

经验风险最小化(Empirical Risk Minimization)

假设一个任务h,我们想最小化他的风险R,损失函数用 p ( x , y ) p(x,y) p(x,y)进行计算。得到如下公式

R ( h ) = ∫ ℓ ( h ( x ) , y ) d p ( x , y ) = E [ ℓ ( h ( x ) , y ) ] R(h)=\\int \\ell(h(x),y)dp(x,y)=\\mathbbE[\\ell(h(x),y)] R(h)=(h(x),y)dp(x,y)=E[(h(x),y)]

因为 p ( x , y ) 是 未 知 的 , 经 验 风 险 在 有 I 个 样 本 的 训 练 集 上 的 平 均 值 p(x,y)是未知的,经验风险在有I个样本的训练集上的平均值 p(x,y)I来代理经验风险值 R I ( h ) R_I(h) RI(h)

R I ( h ) = 1 I ∑ i = 1 i ℓ ( h ( x i ) , y i ) R_I(h)= \\frac1I\\sum_i=1^i \\ell(h(x_i),y_i) RI(h)=I1i=1i(h(xi),yi)

为方便说明做以下三种假设,

  • h ^ = a r g   m i n h ( R ( h ) ) \\hath = arg \\ min_h(R(h)) h^=arg minh(R(h))期望最小值函数
  • h ∗ = a r g   m i n h ∈ H R ( h ) h^* = arg\\ min_h \\in \\mathcalHR(h) h=arg minhHR(h) H \\mathcalH H中期望最小值函数
  • h I = a r g   m i n h ∈ H R I ( h ) h_I=arg \\ min_h\\in\\mathcalHR_I(h) hI=arg minhHRI(h) H \\mathcalH H中经验最小值函数

因为 h ^ \\hath h^是未知的,但是在 H \\mathcalH H h ∗ h^* h h ^ \\hath h^最好的近似值,所以可以得到误差为

E [ R ( h I ) − R ( h ^ ) ] = E [ R ( h ∗ ) − R ( h ^ ) ] ⏟ ξ a p p ( H ) + E [ R ( h I ) − R ( h ∗ ) ] ⏟ ξ e s t ( H , I ) \\mathbbE[R(h_I)-R(\\hat h)]=\\underbrace\\mathbbE[R(h^*)-R(\\hat h)]_\\xi_app(\\mathcal H)+\\underbrace\\mathbbE[R(h_I)-R( h^*)]_\\xi_est(\\mathcal H,I) E[R(hI)R(h^)]=ξapp(H) E[R(h)R(h^)]+ξest(H,I) E[R(hI)R(h)]

ξ a p p ( H ) \\xi_app(\\mathcal H) ξapp(H)计算的是在 H \\mathcal H H能多接近期望最小是 h ^ , ξ e s t ( H , I ) \\hat h, \\xi_est(\\mathcal H,I) h^ξest(H,I)计算的是经验风险可以多接近在 H \\mathcal H H上的期望风险。

不可靠的经验风险最小化(Unreliable Empirical Risk Minimizer)

h ^ , ξ e s t ( H , I ) \\hat h, \\xi_est(\\mathcal H,I) h^ξest(H,I)可以通过增大I来进行减少,但是在小样本学习中I很小,所以经验风险离期望风险很远,这就是小样本学习中的核心问题,用下图进行表示。

解决方法

根据上面的误差计算公式,我们可以发现,减少误差有三种方法

  1. 增大I样本数量
  2. 改善模型,缩小 H \\mathcal H H的范围
  3. 改进算法,使搜索 h I ∈ H h_I \\in \\mathcal H hIH更优,初始化 h ∗ h^* h更接近 h ^ \\hat h h^

下表为文章中总结的方法

数据增强

  • 从训练集中转换样本

    • 早期的方法,通过迭代地将每个样本与其他样本对齐,从类似的类中学习一组几何变换。将学习到的转换应用于每个(xi,yi)以形成一个大型数据集,然后可以通过标准机器学习方法学习这些数据集。
    • 从类似的类中学习一组自动编码器,每个编码器代表一个类内可变性。通过添加学习的变化toxi生成新样本。
    • 通过假设所有类别在样本之间共享一些可转换的可变性,学习单个转换函数,以将从其他类别学习的样本对之间的变化转换为(xi,yi)
    • 从大量场景图像中学习的一组独立属性强度回归器将每个样本转换为多个样本,并将原始样本的标签指定给这些新样本。
  • 从弱标记或者无标记的数据集中转换样本

    • 为每个训练集的目标标签学习一个样本SVM,然后用于预测弱标签数据集中样本的标签。然后将具有目标标签的样本添加到训练集中。
    • 直接使用标签传播来标记未标记的数据集。
    • 使用渐进策略选择信息性未标记样本。然后为选定的样本指定伪标签,并用于更新CNN。
  • 从相似的样本中转换样本

    该策略通过聚合和调整来自相似但较大数据集的输入-输出对来增强性能。

选择使用哪种增强策略取决于应用程序。有时,目标任务(或类)存在大量弱监督或未标记的样本,但由于收集注释数据和/或计算成本高,因此小样本学习是首选的。现有的方法主要是针对图像设计的,因为生成的图像可以很容易地由人类进行视觉评估。相比之下,文本和音频涉及语法和结构,更难生成。

模型

  • 多任务学习:

    • 参数共享。此策略在任务之间直接共享一些参数。eg:两个任务网络共享通用信息的前几层,并学习不同的最终层以处理不同的输出。
    • 参数绑定:正则化对齐不同任务。
  • 嵌入学习:将每一个例子embed(嵌入)一个低维,这样相似的样本靠的很近,而不同的样本则更容易区分。同时可以构造更小的假设空间KaTeX parse error: Undefined control sequence: \\cal at position 1: \\̲c̲a̲l̲ ̲H。嵌入学习主要从先验知识中学习。

    根据嵌入函数和参数是否随任务改变,将FSL分为三种

    • 特定于任务的嵌入模型

    • 任务不变了嵌入模型

    • 混合嵌入模型

  • 用外部记忆学习:使用额外的存储器从训练集中学习知识并保存起来(key-value的键值槽)。与嵌入学习不同的是,测试集不直接用这种方式表示,只基于额外存储的内存的相似性,进行预测。

  • 生成模型:从先验知识中观察到的x估计的概率分布P(x)。

算法

假设 θ \\theta θ是在 H \\mathcal H H上能获得最好的 h

以上是关于本科毕设研究记录————小样本综述的主要内容,如果未能解决你的问题,请参考以下文章

我的本科毕设

什么都不会,如何完成毕设?在线课程评论情感分析-本科毕设实战案例

什么都不会,如何完成毕设?在线课程评论情感分析-本科毕设实战案例

2021年 - 2022年 最新计算机毕业设计 本科 选题大全 汇总

本科毕业项目-TJNFT

毕设项目答辩慌?不怕!本科软工 Java EE 毕设项目答辩问题答案汇总宝典奉上!