低数据体制下的模仿学习

Posted 雨夜的博客

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了低数据体制下的模仿学习相关的知识,希望对你有一定的参考价值。

强化学习 (RL) 是一种使用试错法训练代理在复杂环境中按顺序做出决策的范式,它在许多领域取得了巨大成功,包括游戏、机器人操作和芯片设计。代理通常旨在最大化他们在环境中收集的奖励总和,这可以基于各种参数,包括速度、好奇心、美学等。然而,设计一个特定的 RL 奖励函数是一个挑战,因为它很难指定或过于稀疏。在这种情况下,模仿学习(IL) 方法提供了一种替代方案,因为它们学习如何从专家演示中解决任务,而不是精心设计的奖励函数。然而,最先进的 IL 方法依赖于对抗训练,它使用最小/最大优化程序,使它们在算法上不稳定且难以部署。

在“ Primal Wasserstein Imitation Learning ”(PWIL)中,我们引入了一种新的IL方法,基于Wasserstein距离的原始形式,也称为地球移动距离,它不依赖于对抗训练。使用MuJoCo 任务套件,我们通过使用有限数量的演示(甚至是单个示例)和与环境的有限交互模仿模拟专家来证明 PWIL 方法的功效。

对抗性的模仿学习

国家的最先进的对抗IL方法同样操作生成对抗性的网络,其中生成器((甘斯)政策)的培训,以最大限度地提高鉴别(在混乱的奖励),其本身被训练来区分代理的状态-动作对和专家的。对抗性 IL 方法归结为分布匹配问题,即最小化度量空间中概率分布之间的距离的问题 。然而,就像 GAN 一样,对抗性 IL 方法依赖于最小/最大优化问题,因此带来了许多训练稳定性挑战。

模仿学习作为分布匹配

PWIL 方法基于将 IL 表述为分布匹配问题,在本例中为 Wasserstein 距离。第一步包括从演示中推断专家的状态-动作分布、专家所采取的动作与相应环境状态之间的关系集合。目标是通过与环境的交互来最小化代理和专家的状态-动作分布之间的距离。相比之下,PWIL 是一种非对抗性方法,使其能够绕过最小/最大优化问题并直接最小化代理和专家的状态-动作对分布之间的 Wasserstein 距离。

原始 Wasserstein 模仿学习

计算确切的 Wasserstein 距离可能是有限制的,因为必须等到代理的轨迹结束才能计算它,这意味着只有当代理完成与环境的交互时才能计算奖励。为了避免这种限制,我们改为使用距离的上限,从中我们可以定义我们使用 RL 优化的奖励。我们表明,通过这样做,我们确实恢复了专家行为,并在 MuJoCo 模拟器的许多运动任务上最小化了代理和专家之间的 Wasserstein 距离。虽然对抗性 IL 方法使用来自神经网络的奖励函数,当代理与环境交互时,必须不断优化和重新估计该奖励函数,而 PWIL 定义了离线演示的奖励函数,

真实模仿学习设置的相似性度量与

ML 中的众多挑战一样,许多 IL 方法在合成任务上进行评估,其中一个人通常可以访问任务的潜在奖励函数,并且可以测量专家和代理在绩效方面的行为,这是期望的奖励总和。PWIL 的一个副产品是创建了一个指标,可以将专家行为与任何 IL 方法的代理行为进行比较,而无需获得任务的真正奖励。从这个意义上说,我们可以在真实的 IL 设置中使用 Wasserstein 距离,而不仅仅是在合成任务上。

结论

在交互成本高的环境中(例如,真正的机器人或复杂的模拟器),PWIL 是主要候选者,不仅因为它可以恢复专家行为,还因为它定义的奖励函数易于调整并且无需交互即可定义与环境。这为未来探索提供了多种机会,包括部署到真实系统、将 PWIL 扩展到我们只能访问演示状态(而不是状态和动作)的设置,以及最终将 PWIL 应用于基于视觉的观察。



极端低分辨率场景下的图像识别方案

前言

低分辨率/低质量 图像信息丢失严重,基于低质量数据集训练的模型往往不能达到预期效果。此外,若模型是基于高分辨率(High Resolution, HR)图像进行训练的,而真实业务场景中的数据来源质量非常低,高分辨率与低分辨率(Low Resolution, LR)数据之间存在着 domain mismatch 的问题,效果也会大打折扣。下面总结了一些处理 低分辨率/低质量 图像识别的常见思路。


方案

  1. 控制上传图像质量;若图像来源可控,即可通过某种反馈机制让用户输入较高清图像,则直接用图像质量评估模型 reject 掉 low-res/low-quality images 即可(回归图像的 mean opinion score,或直接做 binary classification 均可)。例如京东/淘宝的图搜要求上传图片不得小于 200px(PS:从业务场景出发,选择成本最低的可行性方案,永远是工业界最适合方案,而不是折腾 fancy 的模型),实用指数:★★★★★

  2. Mix-size training;即混合 LR 与 HR 图像训练,使得模型能够学习到对 low-res/low-quality 场景下更有效的信息,常见操作方法有以下几种,实用指数:★★★★

    1. 若原图大小为   ,先 downsample 到     大小,然后再 resize 回原图大小,再混合训练

    2. 构建 image pyramid 来使得模型对 multi-scale 信息感知更友好

    3. 模型层面做改进来使得对 multi-scale 信息感知更友好:例如类似 FPN/Res2Net/SKNet/Inception 结构等等

  3. Knowledge Distillation;即先用 HR images 训练 teacher model,再基于 LR images 训练 student model,常见的 KD 算法均可(基于logits也好,基于 hints 也好)...然后固定teacher model的权重,分别提取HR与LR的特征,以     loss 作为KD loss,来使得来自不同 domain(LR VS HR)的 feature 能够更接近,整体的 loss 为 Cross Entropy 与     loss 的加权。实用指数:★★★★

  4. Super-resolution/Image Deblurring 做预处理;即先人工构造 HR-LR image pairs,训练超分模型。识别时,先过一个 超分/去模糊 模型,再过分类,听起来似乎 work,但维护成本高,且识别模型精度依赖于 超分/去模糊 模型的输出,且无法保证 超分/去模糊 模型输出的信息是否对分类任务是有帮助的。实用指数:★★


Reference

  1. Zhu M, Han K, Zhang C, et al. Low-resolution Visual Recognition via Deep Feature Distillation[C]//ICASSP 2019-2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2019: 3762-3766.

  2. Lu Z, Jiang X, Kot A. Deep coupled resnet for low-resolution face recognition[J]. IEEE Signal Processing Letters, 2018, 25(4): 526-530.

  3. Wang Z, Chang S, Yang Y, et al. Studying very low resolution recognition using deep networks[C]//Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016: 4792-4800.


以上是关于低数据体制下的模仿学习的主要内容,如果未能解决你的问题,请参考以下文章

论文精读:Generative Adversarial Imitation Learning(生成对抗模仿学习)

模仿人脑视觉处理,助力神经网络应对对抗性样本

Brain模仿人脑视觉处理,助力神经网络应对对抗性样本

科技与产品创新体制改革下的项目管理思路

疫情下的思考:对抗熵增的方法

疫情下的思考:对抗熵增的方法