风格迁移论文总结

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了风格迁移论文总结相关的知识,希望对你有一定的参考价值。

参考技术A 本文是基于neural style transfer a review 以及其他相关论文。

代表性文章时gaty的开山之作,A neural algorithm of artistic style. 这是一种慢的神经网络实现风格迁移的方法。

重点之一 :常见的深度学习问题是利用训练样本的输入来学习网络的权重。而本文利用已经训练好的权重,获取一个符合输出要求的输入。

输入:以高斯噪声为初始化的输入图像。

经过多次迭代,输入响应即为特定风格和内容的图像。所以这种方法学习的是像素值,而不是权重。

重点之二: 引入了新的loss function。

content loss : 即输入输出图像之间像素点的差。用mse来做。

style loss :用gram matrics来计算。最终表现形式也是mse类似。

基于模型迭代的方法是快速的风格迁移的方法。

代表作是perceptual losses for real-time style transfer and super-resolution。

重点之一 :本文介绍了两个网络组成的大网络。前半部分的网络叫做image transfer,后半部分的网络叫做loss network。image transfer的网络,权重是更新的;而loss network的网络,权重是不更新的,是pretrained的vgg网络,是用来做高维特征提取的。其实就是输入原图,然后通过image transfer网络,来生成带有风格fs的输出,然后用loss network来优化误差,以达到理想的效果。

重点之二 :提出来新的loss function。

feature reconstruction loss : 这里不采用与A neural algorithm of artistic style这篇论文一样的loss function,而是用vgg提取特征作为content loss的衡量。作者这么做的目的就是说,原来那种像素点之间的一一对应的误差函数,在很多情况下的衡量是不准确的。比如两张图片,只发生了一个像素点的偏移。用content loss算出来的话,这个结果是天差地别的,然而实际上这两张图片对人眼来说是没有太大差别的。所以用vgg提取的高层特征作为content loss是有道理的。但是,这种方法也有一个缺点,那就是学出来的东西比较假,不会太真实。

style reconstruction loss :这里和上一篇一样,都使用了gram matrix来作为风格特征。

(1) DSLR-Quality photos on mobile devices with deep convolutional networks.

这篇论文的输入是手机照片(比如iphone, blackberry等),输出是单反照片。

重点之一 :使用gan网络

重点之二 :增加了新的loss function。

color loss :颜色损失计算之前,要对图像进行高斯模糊处理。为什么用高斯模糊处理的原因是,高斯模糊能出去高频的信息,使得颜色之间更容易比较。颜色损失对小的误差匹配有较高的容忍性。因此,能学习到和目标图片相似的颜色分布。

texture loss :使用gan网络,用判别网络的正确率来作为质地误差的衡量。

content loss :以vgg抽象出的高维特征的欧式距离作为内容损失。和上面采用gram matrix不同。

total variation loss :目的是获得较为平滑的输出。

(2) Deep photo style transfer.

之前的风格迁移论文都是建立在一张为摄影图片,另一张为艺术作品。使得生成的图片像画出来的一样,而这篇论文的内容图和风格图皆为摄影作品。

重点之一 :loss function进行了修改。

content loss :采用了feature matrix,同gatys的。

photorealism regularization : 基于颜色空间局部仿射变换的photorealism的正则约束。

augmented style loss with semantic segmentation : 基于语义分割的增广内容损失函数。将分割mask作为输入图像的增广channel,一同输入到神经网络中,从而确保只处理我们感兴趣的内容。

寻求性能相当好的深度学习架构来运行风格迁移算法 [关闭]

【中文标题】寻求性能相当好的深度学习架构来运行风格迁移算法 [关闭]【英文标题】:Seek a considerably good performance deep learning architecture to run style transfer algorithm [closed] 【发布时间】:2017-08-10 13:04:08 【问题描述】:

我们的老板发现论文“艺术风格的神经算法”的想法令人惊叹,并认为它应该会吸引他的一些客户。他决定搭建一个服务器,为他们提供风格迁移的服务。

有几种深度学习架构实现了这个想法,例如 TensorFlow、Torch、caffe 等。如果旨在实现最佳性能,这些架构的哪个实现运行速度最快?如果我们用 GeForce GTX 1090 或更好的 CUDA 设备配置算法,是否有可能在几秒钟内完成 VGG 模型的任务?如果希望将当前的想法应用到上述深度学习架构中,它们是否都适用?

【问题讨论】:

我不明白你的意思我的帖子有什么问题?它是具体的,语法也不错。 【参考方案1】:

查看一些基准:https://github.com/soumith/convnet-benchmarks 我会说NervanaTorch 是最好的框架。

如果我们看看开源贡献和论文实现而不是时间,我认为torch 是赢家。

您可以在 Torch 中轻松找到神经风格的算法实现:Neural-Style 和 Fast Neural-Style

【讨论】:

非常感谢!如果 Torch + 快速神经风格 + GeForce GTX 1090(或类似或比它更好的东西)可以达到 VGG 模型的速度,你知道吗? 我不知道很抱歉 :( 因为这是一个非常具体的问题,我敢打赌最好的方法是设置 torch + cuda 和 cudnn,快速神经风格的代码并自己尝试。那应该'不会超过 30-40 分钟。

以上是关于风格迁移论文总结的主要内容,如果未能解决你的问题,请参考以下文章

风格迁移学习三

风格迁移

风格迁移论文理解--A Neural Algorithm of Artistic Style

照片瞬间变样!看Tensorflow如何实现深度「图片风格迁移」

风格迁移模型测试效果

风格迁移CycleGAN开源项目代码运行步骤详细教程