风格迁移论文总结

Posted 2023-05-16

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了风格迁移论文总结相关的知识，希望对你有一定的参考价值。

参考技术A 本文是基于neural style transfer a review 以及其他相关论文。

代表性文章时gaty的开山之作，A neural algorithm of artistic style. 这是一种慢的神经网络实现风格迁移的方法。

重点之一：常见的深度学习问题是利用训练样本的输入来学习网络的权重。而本文利用已经训练好的权重，获取一个符合输出要求的输入。

输入：以高斯噪声为初始化的输入图像。

经过多次迭代，输入响应即为特定风格和内容的图像。所以这种方法学习的是像素值，而不是权重。

重点之二：引入了新的loss function。

content loss ：即输入输出图像之间像素点的差。用mse来做。

style loss ：用gram matrics来计算。最终表现形式也是mse类似。

基于模型迭代的方法是快速的风格迁移的方法。

代表作是perceptual losses for real-time style transfer and super-resolution。

重点之一：本文介绍了两个网络组成的大网络。前半部分的网络叫做image transfer,后半部分的网络叫做loss network。image transfer的网络，权重是更新的；而loss network的网络，权重是不更新的，是pretrained的vgg网络，是用来做高维特征提取的。其实就是输入原图，然后通过image transfer网络，来生成带有风格fs的输出，然后用loss network来优化误差，以达到理想的效果。

重点之二：提出来新的loss function。

feature reconstruction loss : 这里不采用与A neural algorithm of artistic style这篇论文一样的loss function，而是用vgg提取特征作为content loss的衡量。作者这么做的目的就是说，原来那种像素点之间的一一对应的误差函数，在很多情况下的衡量是不准确的。比如两张图片，只发生了一个像素点的偏移。用content loss算出来的话，这个结果是天差地别的，然而实际上这两张图片对人眼来说是没有太大差别的。所以用vgg提取的高层特征作为content loss是有道理的。但是，这种方法也有一个缺点，那就是学出来的东西比较假，不会太真实。

style reconstruction loss ：这里和上一篇一样，都使用了gram matrix来作为风格特征。

(1) DSLR-Quality photos on mobile devices with deep convolutional networks.

这篇论文的输入是手机照片(比如iphone, blackberry等)，输出是单反照片。

重点之一：使用gan网络

重点之二：增加了新的loss function。

color loss ：颜色损失计算之前，要对图像进行高斯模糊处理。为什么用高斯模糊处理的原因是，高斯模糊能出去高频的信息，使得颜色之间更容易比较。颜色损失对小的误差匹配有较高的容忍性。因此，能学习到和目标图片相似的颜色分布。

texture loss ：使用gan网络，用判别网络的正确率来作为质地误差的衡量。

content loss ：以vgg抽象出的高维特征的欧式距离作为内容损失。和上面采用gram matrix不同。

total variation loss ：目的是获得较为平滑的输出。

(2) Deep photo style transfer.

之前的风格迁移论文都是建立在一张为摄影图片，另一张为艺术作品。使得生成的图片像画出来的一样，而这篇论文的内容图和风格图皆为摄影作品。

重点之一：loss function进行了修改。

content loss ：采用了feature matrix，同gatys的。

photorealism regularization : 基于颜色空间局部仿射变换的photorealism的正则约束。

augmented style loss with semantic segmentation : 基于语义分割的增广内容损失函数。将分割mask作为输入图像的增广channel，一同输入到神经网络中，从而确保只处理我们感兴趣的内容。

寻求性能相当好的深度学习架构来运行风格迁移算法 [关闭]

【中文标题】寻求性能相当好的深度学习架构来运行风格迁移算法 [关闭]【英文标题】：Seek a considerably good performance deep learning architecture to run style transfer algorithm [closed] 【发布时间】：2017-08-10 13:04:08 【问题描述】：

我们的老板发现论文“艺术风格的神经算法”的想法令人惊叹，并认为它应该会吸引他的一些客户。他决定搭建一个服务器，为他们提供风格迁移的服务。

有几种深度学习架构实现了这个想法，例如 TensorFlow、Torch、caffe 等。如果旨在实现最佳性能，这些架构的哪个实现运行速度最快？如果我们用 GeForce GTX 1090 或更好的 CUDA 设备配置算法，是否有可能在几秒钟内完成 VGG 模型的任务？如果希望将当前的想法应用到上述深度学习架构中，它们是否都适用？

【问题讨论】：

我不明白你的意思我的帖子有什么问题？它是具体的，语法也不错。 【参考方案1】：

查看一些基准：https://github.com/soumith/convnet-benchmarks 我会说Nervana 和Torch 是最好的框架。

如果我们看看开源贡献和论文实现而不是时间，我认为torch 是赢家。

您可以在 Torch 中轻松找到神经风格的算法实现：Neural-Style 和 Fast Neural-Style

【讨论】：

非常感谢！如果 Torch + 快速神经风格 + GeForce GTX 1090（或类似或比它更好的东西）可以达到 VGG 模型的速度，你知道吗？我不知道很抱歉 :( 因为这是一个非常具体的问题，我敢打赌最好的方法是设置 torch + cuda 和 cudnn，快速神经风格的代码并自己尝试。那应该'不会超过 30-40 分钟。

以上是关于风格迁移论文总结的主要内容，如果未能解决你的问题，请参考以下文章

风格迁移学习三

风格迁移

风格迁移论文理解--A Neural Algorithm of Artistic Style

照片瞬间变样！看Tensorflow如何实现深度「图片风格迁移」

风格迁移模型测试效果

风格迁移CycleGAN开源项目代码运行步骤详细教程