MM2022 | 用StyleGAN进行数据增强,真的太好用了
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了MM2022 | 用StyleGAN进行数据增强,真的太好用了相关的知识,希望对你有一定的参考价值。
MM2022 | 用StyleGAN进行数据增强,真的太好用了
【写在前面】
本文研究了生成文本-图像对的开放性研究问题,以改进细粒度图像到文本跨模态检索任务的训练,并提出了一种通过揭示StyleGAN2模型隐藏的语义信息来增强配对数据的新框架。具体来说,作者首先在给定的数据集上训练StyleGAN2模型。然后,将真实图像投影回StyleGAN2的潜在空间,以获得潜在代码。为了使生成的图像具有可操作性,进一步引入了潜在空间对齐模块来学习StyleGAN2潜在代码与相应文本字幕特征之间的对齐。当进行在线配对数据增强时,作者首先通过随机token替换生成增强文本,然后将增强文本传递到潜在空间对齐模块以输出潜在代码,最后将潜在代码馈送到StyleGAN2以生成增强图像。作者在两个公共跨模态检索数据集上评估了本文的增强数据方法的有效性,其中有希望的实验结果表明,增强的文本-图像对数据可以与原始数据一起训练,以提高图像到文本的跨模态检索性能。
1. 论文和代码地址
Paired Cross-Modal Data Augmentation for Fine-Grained Image-to-Text Retrieval(1%25200%25200%2520-1%25200%25200)%2522%2520aria-hidden%253D%2522true%2522%253E%250A%2520%253Cuse%2520xlink%253Ahref%253D%2522%2523E1-MJMATHI-45%2522%2520x%253D%25220%2522%2520y%253D%25220%2522%253E%253C%252Fuse%253E%250A%2520%253Cuse%2520transform%253D%2522scale(0.707)%2522%2520xlink%253Ahref%253D%2522%2523E1-MJMATHI-6C%2522%2520x%253D%25221044%2522%2520y%253D%2522-213%2522%253E%253C%252Fuse%253E%250A%253C%252Fg%253E%250A%253C%252Fsvg%253E%22%2C%22id%22%3A%221664240137255%22%2C%22type%22%3A%22inline%22%7D"> , 其中,文本特征映射为与相应的潜在代码w对齐。
阶段3:以在线方式进行跨模态数据扩充。通过随机token替换来构造增强文本。然后,将增强文本输入到经过训练的对齐模块中 , 其输出可用作StyleGAN2的潜代码w以生成增强图像。
3.1 Image projection to latent space
StyleGAN2模型可以表示为,其中模型使用多层感知器 (MLP) 将初始噪声空间Z映射到样式潜在空间W。然后,StyleGAN2根据解纠缠空间W的潜在代码w生成图像。在给定数据集上训练StyleGAN2模型后,将真实图像投影回潜在空间W。
在这个模块中,将潜在代码w∈ W用于优化。具体地说,首先运行10000个随机噪声输入z,以产生映射的潜代码w=MLP(z)。使用平均值作为w的初始化,并且w的近似尺度可以设置为:深度学习系列47:styleGAN总结
新垣结衣的孩子长啥样?用 StyleGAN 开源项目,一次看个够