还能这么玩?将Prompt Tuning用于细粒度的图像检索!
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了还能这么玩?将Prompt Tuning用于细粒度的图像检索!相关的知识,希望对你有一定的参考价值。
还能这么玩?将Prompt Tuning用于细粒度的图像检索!
【写在前面】
细粒度对象检索旨在学习判别表示以检索视觉上相似的对象。然而,现有的最佳性能作品通常在语义嵌入空间上施加成对的相似性,以在有限的数据体系中不断调整整个模型,从而导致容易收敛到次优解。本文提出了细粒度检索提示调优算法(FRPT),该算法从样本提示和特征自适应的角度出发,利用冻结的预训练模型来执行细粒度检索任务。具体地说,FRPT只需要在提示和自适应中学习较少的参数,而不是对整个模型进行调整,从而解决了对整个模型进行微调而导致的收敛到次最优解的问题。从技术上讲,作为样本提示,引入了结构扰动提示(SPP),通过内容感知的非均匀采样操作来缩放甚至夸大一些有助于类别预测的像素。这样,在原始预训练过程中,SPP算法可以使扰动提示辅助的细粒度检索任务更接近于已解决的任务。此外,作者提出了一种基于类别的认知头作为特征自适应,通过实例归一化消除了预训练的模型提取的特征中的实例差异,从而使优化后的特征只包含子类别之间的差异。大量实验表明,在较少可学习参数的情况下,FRPT在三个广泛使用的细粒度数据集上达到了最先进的性能。
1. 论文和代码地址
Fine-grained Retrieval(FGOR)是检索属于某个元类别(如鸟类、汽车和飞机)的各个子类别的图像,并返回与查询图像具有相同子类别的图像。然而,检索视觉上相似的对象在实际应用中仍然具有挑战性,特别是当存在较大的类内差异而较小的类间差异时。因此,FGOR的关键在于学习区分和泛化嵌入来识别视觉上相似的对象。
最近,成功的FGOR通过设计专门的度量约束或定位对象甚至部分来针对类内较大但类间差异较小的情况进行。虽然基于度量和基于定位的工作可以学习区分嵌入来识别粒度对象,但从上一阶段学习的FGOR模型仍然需要在下一阶段无休止地微调,迫使该模型适应粒度检索任务。然而,不断调整FGOR模型可能会导致容易收敛到次优解决方案,特别是当面对有限的数据制度时,不可避免地限制了检索性能。因此,自然会产生一个问题: 在不需要微调整个FGOR模型的情况下,是否仍然可以学习差异性嵌入?
基于提示的学习是与任务相关的指令,用于下游输入,以使下游任务适应冻结的预训练模型。它的关键思想是通过适当的提示设计来重新制定下游任务,使其接近原始预训练期间解决的任务,而不是调整预训练模型以适应下游任务。遵循这一思想,视觉语言预训练任务得到了逐步发展,它通过将视觉类别语义作为提示放入文本输入中,从自然语言中获得视觉指导概念。尽管即使没有优化语言模型,在许多下游视觉任务上也能取得显著的性能,但它们的快速调整策略是为多模态模型量身定制的,不适用于预训练的视觉模型。因此,如何为预训练的视觉模型设计一个提示方案,以解决由于整个FGOR模型的优化而导致的次优解的收敛,值得研究。
在本文中,作者提出了具有结构扰动提示 (SPP),预训练的主干模型和**类别特定的感知头 (CAH) **的细粒度检索提示调整 (FRPT),它仅在冻结骨干模型权重的同时学习较少的SPP和CAH参数,从而解决了收敛到次优解的问题。具体而言,作为一个样本提示过程,SPP被设计为通过内容感知的非均匀采样操作来缩放甚至夸大有助于类别预测的一些元素。通过这种方式,SPP可以朝着便于类别预测的方向调整对象结构,这使得在此结构扰动下提示的FGOR任务在原始预训练期间接近已解决的任务。然而,一个不可忽略的问题是,没有调整的主干模型将专注于提取特征来回答这个问题,“物种之间的不同特征是什么”,而不是 “如何区分相同元类别中的粒度对象”。因此,CAH被视为特征自适应,通过使用实例归一化去除物种差异来优化骨干模型提取的特征,从而使优化后的特征仅包含子类别之间的差异。与 fine-tuning不同,FRPT具有较少的参数来训练,但由于SPP和CAH,仍然学习具有更大判别和泛化的嵌入,从而解决了由 fine-tuning整个模型引起的次优解的收敛。
本文的贡献如下:
1\\. 作者提出FRPT从样本提示和特征适应的角度指导冻结的预训练模型来执行FGOR任务。本文是第一个专门开发基于提示的微调方案的工作,用于处理由FGOR中的优化策略引起的次优解决方案的收敛。
2.提出了一种结构扰动提示,以强调有助于决策边界的元素,该元素指示冻结的预训练模型捕获细微但有区别的细节。
3.一个类别特定的感知头旨在消除物种之间的差异,这使得特定的特征用于识别同一元类别中的特定粒度对象。
4\\. FRPT只需要优化大约10% 的参数,而不是完全优化,甚至实现了新的最先进的结果,这是在三个广泛使用的粒度检索数据集上显著的 + 3.5% 平均检索精度的增益。
3. 方法
作者提出了细粒度的检索提示调整 (FRPT),用于引导冻结的预训练模型执行FGOR任务。FRPT仅在示例提示和特征适应中优化较少的可学习参数,并在训练过程中保持主干冻结。通过这种方式,FRPT解决了由调整整个FGOR模型引起的次优解的收敛。
3.1 Network Architecture
网络体系结构在上图中给出。给定一个输入图像I,首先将其输入到结构扰动提示 (SPP) 模块中,以生成修改图像,该修改图像
选择性地突出有助于决策边界的某些元素。之后,将修改后的图像
作为冻结的预训练骨干的输入,从而输出语义特征
。为了使
识别同一元类别中的粒度对象,而不是识别不同的物种,将
输入到类别特定的感知头 (CAH) 模块中,以生成类别特定的特征
。最后,通过全局平均池化操作来获得区分嵌入,然后将它们应用于搜索具有相同子类别的其他样本。
3.2 Structure Perturbation Prompt
为了解决由优化整个模型引起的收敛到次优解的问题,作者受到了基于提示的学习的启发,只修改输入中的像素,这使得在提示接近预训练期间解决的提示的情况下进行了粒度检索任务。因此,作者提出了结构扰动提示 (SPP) 模块,以缩放甚至夸大某些有助于像素空间中类别预测的元素。通过这种方式,SPP可以用提示来操纵冻结的预训练模型,感知到更多的歧视性细节,从而带来了高质量的表示。具体而言,SPP由两个步骤组成。第一步,内容解析,是学习一个判别投影图,该图反映判别信息的位置和强度,第二步,结构修改,是在判别投影图的指导下,通过对每个输入图像执行内容感知的不均匀采样操作,放大判别元素。这两个步骤的详细说明如下。
Content parsing
感知细节和语义在扰动对象结构中起着至关重要的作用。基于此考虑,作者设计了一个内容解析模块,以从低级特征中感知区分语义和细节的位置和比例。内容解析有一个吸引人的属性: 大域的视图,可以在大的感受域内聚合上下文信息,而不是利用像素邻域。因此,内容解析可以从低级细节中捕获歧视性语义,同时保留歧视性细节。
给定输入图像我去!GitHub 个人页还能这么玩?
带你读AI论文丨用于细粒度分类的Transformer结构—TransFG