Text to image论文精读PDF-GAN:文本生成图像新度量指标SSD Semantic Similarity Distance

Posted 中杯可乐多加冰

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Text to image论文精读PDF-GAN:文本生成图像新度量指标SSD Semantic Similarity Distance相关的知识,希望对你有一定的参考价值。

SSD,全称为Semantic Similarity Distance,是一种基于CLIP的新度量方式,是西交利物浦大学学者提出的一种新的文本生成图像度量指标,受益于所提出的度量,作者进一步设计了并行深度融合生成对抗网络(PDF-GAN),它可以融合不同粒度的语义信息并捕获准确的语义。文章22年10月在arcxiv发表。
论文地址:https://arxiv.org/abs/2210.15235

本篇文章是阅读这篇论文的精读笔记

一、原文摘要

从给定文本中生成一致且高质量的图像对于视觉语言理解至关重要。尽管在生成高质量图像方面取得了令人印象深刻的结果,但文本图像一致性仍然是现有基于GAN的方法中的一个主要问题。特别地,最流行的度量R精度可能不能准确地反映文本图像的一致性,这常常导致生成的图像中的语义非常误导。尽管其意义重大,但如何设计出一个更好的文本图像一致性度量,在社区中仍处于探索之中,这一点令人惊讶。

在本文中,我们进一步开发了一种新的基于CLIP的度量,称为语义相似度距离(SSD),该度量既从分布角度理论上建立,又在基准数据集上进行了实证验证。受益于所提出的度量,我们进一步设计了并行深度融合生成对抗网络(PDF-GAN),它可以融合不同粒度的语义信息并捕获准确的语义。配备了两个新颖的即插即用组件:硬否定句构造器和语义投影,所提出的PDF-GAN可以缓解不一致的语义并弥合文本-图像语义差距。一系列实验表明,与当前最先进的方法相比,我们的PDF-GAN可以显著提高文本图像的一致性,同时在CUB和COCO数据集上保持良好的图像质量。

二、为什么提出SSD?

根据文本描述生成图像,通常称为文本到图像生成(T2I),是一项具有挑战性的任务,需要生成高质量的图像并保持文本图像的一致性。

尽管RiFeGAN、SegAttnGAN、DF-GAN取得了高质量的分数,在从文本描述生成高质量图像方面取得了令人印象深刻的成果,但他们仍然难以在复杂的语义中保持文本图像的一致性。一旦文本描述变得更加复杂,生成的图像的语义可能会与文本不匹配。

基于此作者提出了一种新的基于CLIP的文本图像一致性度量,称为语义相似度距离(SSD)。

三、介绍与创新点

对于T2I合成任务,CLIP提供了一个联合语言视觉嵌入空间,可以直接测量图像和文本的语义分布之间的相似性。我们的SSD是通过结合两个阶级矩项设计的:

  1. 一阶矩项直接测量文本图像的语义相似性,反映生成的图像和文本之间的语义偏差;
  2. 二阶矩项评估了以文本为条件的合成图像和真实图像之间语义变化的差异,表明生成的图像中的语义多样性也应该与真实图像中的一致。二阶矩项可以为精确的语义带来更多的可信度,在总体一致性和详细一致性之间平衡评估。

在理论方面,作者表明SSD的基本原理植根于使用修正的Wasserstein距离来测量两个分布的散度。还表明,它可以与最近的两个指标密切相关,即CLIPScore(CS)(Hessel等人2021)和Conditional Frechet Inception Distance(CFID)(Soloveitchik等人2021),且在测量语义一致性方面表现出更理想的特性。

通过实验,作者发现:

  1. 不同层次的语义信息可以显著帮助文本图像的一致性。然而,语义差距将导致对抗性损失和语义感知损失之间的优化冲突,因此,随意地添加语义感知损失会削弱语义监督,导致文本图像一致性的不良表现。
  2. 用于鉴别的不匹配样本通常利用成批样本或来自其他类别的随机样本,这可能导致文本图像一致性的下降。

根据上述发现,我们提出了一种新的一阶段T2I生成框架,命名为PDF-GAN。

文章创新点如下:

  1. 引入了一种新的度量——语义相似度距离(Semantic Similarity Distance),它可以评估文本图像的相似度以及生成图像与受文本约束的真实图像之间的语义变化差异。SSD理论上是有根据的,可以在不同的数据集上进行交叉比较。
  2. 提出了一个新的框架——并行深度融合生成对抗网络(PDF-GAN),具有语义感知损失和PFM,以融合不同层次的语义信息。
  3. 设计了一个HNSC,用于挖掘hard negative文本样本,并设计了SProj,用于缓解语义差距,增强文本图像一致性。

四、文本生成图像专用域定量指标

4.1、R-precision(R分数)

目前文本生成图像专用域合成度量有R-precision(R分数),其通过评估生成的图像是否比其他99个随机采样的文本更符合给定文本来判断文本图像的一致性。这种度量可能不能准确反映文本和图像之间的直接一致性。

如上图所示,GT表示真实图像,可以看到,在有些情况下,真实图像反而得不到很好的R分数,这会在生成的图像中产生非常误导的语义

4.2、SOA(语义对象准确度)

另外一种专用评估指标:语义对象准确度(SOA)(Hinz、Heinrich和Wermter 2020)是最近提出的一种专门用于评估多对象文本图像一致性的度量标准,在不评估对象属性和关系的情况下,仍然无法测量整个语义一致性。更严重的是,SOA不能应用于通常只有一个对象出现在生成的图像中的数据集,如CUB。为了缓解这些问题,研究人员必须依靠人类评估。然而,该过程通常成本高昂,并且其设置在不同的方法中差异很大,这使得它更难在实际场景中应用。

4.3、其他

CS(Hessel等人2021)设计用于图像字幕,但剪辑嵌入的余弦相似性可能不会明确将属性绑定到对象,并忽略语义变化(Ramesh等人2022)。

通过条件分布,CFID(Soloveitchik等人2021)评估了文本条件下的假图像和真实图像分布之间的距离。然而,直接对齐假分布和真实分布可能会使真实图像中的冗余部分不匹配,即文本未指定的内容。这严重影响了CFID在测量文本图像一致性方面的效果。

五、SSD(语义相似距离)

SSD不仅评估直接的文本图像语义相似性,还评估基于文本的合成图像和真实图像之间的语义变化差异。

从分布的角度来看,我们假设在联合语言视觉嵌入空间中生成的图像ef、真实图像er和文本es分布都是类高斯分布Φ: Q f = Φ ( m f , C f f ) , Q r = Φ ( m r , C r r ) , Q s = Φ ( m s , C s s ) \\mathbbQ_f=\\Phi\\left(m_f, \\mathbbC_f f\\right), \\mathbbQ_r=\\Phi\\left(m_r, \\mathbbC_r r\\right), \\mathbbQ_s=\\Phi\\left(m_s, \\mathbbC_s s\\right) Qf=Φ(mf,Cff),Qr=Φ(mr,Crr),Qs=Φ(ms,Css)。其中m和C表示均值和协方差;f、 r和s分别表示生成的图像、真实图像和文本。

基于相同文本s,生成的图像分布和真实的图像分布分别为: Q f ∣ s = Φ ( m f ∣ s , C f f ∣ s ) , Q r ∣ s = Φ ( m r ∣ s , C r r ∣ s ) \\mathbbQ_f \\mid s=\\Phi\\left(m_f \\mid s, \\mathbbC_f f \\mid s\\right), \\mathbbQ_r \\mid s=\\Phi\\left(m_r \\mid s, \\mathbbC_r r \\mid s\\right) Qfs=Φ(mfs,Cffs),Qrs=Φ(mrs,Crrs),其中 C f f ∣ s \\mathbbC_f f \\mid s Cffs C r r ∣ s \\mathbbC_r r \\mid s Crrs表示ef和er的条件协方差,它们是常数并且独立于条件es。

5.1、定义

由于最终目标是测量ef和es之间的语义距离,我们考虑Qf和Qs之间的距离,以及 Q f f ∣ s \\mathbbQ_f f \\mid s Qffs Q r r ∣ s \\mathbbQ_r r \\mid s Qrrs之间的距离。SSD定义如下:
SSD ⁡ ( Q f , Q s , Q f ∣ s , Q r ∣ s ) = [ 1 − cos ⁡ ( m f , m s ) ] + ∥ d ( C f f ∣ s ) − d ( C r r ∣ s ) ∥ 2 \\beginarrayc \\operatornameSSD\\left(\\mathbbQ_f, \\mathbbQ_s, \\mathbbQ_f \\mid s, \\mathbbQ_r \\mid s\\right)= \\left[1-\\cos \\left(m_f, m_s\\right)\\right]+\\left\\|d\\left(\\mathbbC_f f \\mid s\\right)-d\\left(\\mathbbC_r r \\mid s\\right)\\right\\|^2 \\endarray SSD(Qf,Qs,Qfs,Qrs)=[1cos(mf,ms)]+ d(Cffs)d(Crrs) 2

后面做的就是需要计算解这两部分的式子。
由于预训练的CLIP模型用于将图像和文本映射到联合语言视觉嵌入空间,因此很直观地测量其嵌入的余弦距离,如等式的第一矩项中所做的那样。由于Qf和Qs之间的语义差距,仅测量余弦距离不能完全反映分布差异。

然后,我们使用Qf|s和Qr|s以弥合语义鸿沟。如果模型能够完全捕捉语义,其生成的图像应该与真实图像共享相同的语义变化。语义变化还可以帮助绑定对象和属性,从而实现更精确的语义对齐。请注意,我们不直接对齐Qf|s和Qr|s,因为它过度关注文本中未描述的冗余。

因此,我们在等式中设计了一个二阶矩项,通过计算假图像分布和真实图像分布的文本条件协方差之间的对角差来评估语义变化。

5.2、引理

如果C是非负对角矩阵,则二阶矩项可以改写为:
∥ d ( C f f ∣ s ) − d ( C r r ∣ s ) ∥ 2 ∝ Tr ⁡ [ ( C f f ∣ s 1 2 − C f f ∣ s 1 2 ) 2 ] = Tr ⁡ [ C f f ∣ s + C r r ∣ s − 2 ( C f f ∣ s 1 2 C r r ∣ s C f f ∣ s 1 2 ) 1 2 ] \\beginaligned &\\left\\|d\\left(\\mathbbC_f f \\mid s\\right)-d\\left(\\mathbbC_r r \\mid s\\right)\\right\\|^2 \\propto \\operatornameTr\\left[\\left(\\mathbbC_f f \\mid s^\\frac12-\\mathbbC_f f \\mid s^\\frac12\\right)^2\\right] = \\operatornameTr\\left[\\mathbbC_f f \\mid s+\\mathbbC_r r \\mid s-2\\left(\\mathbbC_f f \\mid s^\\frac12 \\mathbbC_r r \\mid s \\mathbbC_f f \\mid s^\\frac12\\right)^\\frac12\\right] \\endaligned d(Cffs)d(Crrs) 2Tr[(Cffs21Cffs21)2]=Tr[Cffs+CText-to-Image最新论文代码汇总

论文精读Deep Rectangling for Image Stitching: A Learning Baseline

论文精读Deep Rectangling for Image Stitching: A Learning Baseline

论文精读Deep Rectangling for Image Stitching: A Learning Baseline

AFM论文精读

论文精读LaTr: Layout-Aware Transformer for Scene-Text VQA