为啥使用 PIL 和 pytorch 对图像进行双线性缩放会产生不同的结果?

Posted

技术标签:

【中文标题】为啥使用 PIL 和 pytorch 对图像进行双线性缩放会产生不同的结果?【英文标题】:Why bilinear scaling of images with PIL and pytorch produces different results?为什么使用 PIL 和 pytorch 对图像进行双线性缩放会产生不同的结果? 【发布时间】:2020-07-11 23:11:21 【问题描述】:

为了将图像提供给 pytorch 网络,我首先需要将其缩小到某个固定大小。起初我使用 PIL.Image.resize() 方法完成了它,插值模式设置为 BILINEAR。然后我认为首先将一批图像转换为 pytorch 张量然后使用 torch.nn.functional.interpolate() 函数在 GPU 上一次缩放整个张量会更方便(“双线性”插值模式也是如此) .这导致模型准确性降低,因为现在在推理期间,一种缩放(火炬)与训练期间使用的缩放(PIL)不同。之后,我在视觉上比较了两种缩小比例的方法,发现它们产生了不同的结果。枕头缩小似乎更顺利。尽管这些方法都是双线性的,但它们是否在后台执行不同的操作?如果是这样,我也很好奇是否有办法使用火炬张量缩放实现与枕头图像缩放相同的结果?

Original image(著名的 Lenna 图片)

枕头缩放图像:

火炬缩放图像:

平均通道绝对差图:

演示代码:

import numpy as np
from PIL import Image
import torch
import torch.nn.functional as F
from torchvision import transforms
import matplotlib.pyplot as plt

pil_to_torch = transforms.ToTensor()
res_shape = (128, 128)


pil_img = Image.open('Lenna.png')
torch_img = pil_to_torch(pil_img)

pil_image_scaled = pil_img.resize(res_shape, Image.BILINEAR)
torch_img_scaled = F.interpolate(torch_img.unsqueeze(0), res_shape, mode='bilinear').squeeze(0)

pil_image_scaled_on_torch = pil_to_torch(pil_image_scaled)
relative_diff = torch.abs((pil_image_scaled_on_torch - torch_img_scaled) / pil_image_scaled_on_torch).mean().item()
print('relative pixel diff:', relative_diff)

pil_image_scaled_numpy = pil_image_scaled_on_torch.cpu().numpy().transpose([1, 2, 0])
torch_img_scaled_numpy = torch_img_scaled.cpu().numpy().transpose([1, 2, 0])
plt.imsave('pil_scaled.png', pil_image_scaled_numpy)
plt.imsave('torch_scaled.png', torch_img_scaled_numpy)
plt.imsave('mean_diff.png', np.abs(pil_image_scaled_numpy - torch_img_scaled_numpy).mean(-1))

Python 3.6.6,要求:

cycler==0.10.0
kiwisolver==1.1.0
matplotlib==3.2.1
numpy==1.18.2
Pillow==7.0.0
pyparsing==2.4.6
python-dateutil==2.8.1
six==1.14.0
torch==1.4.0
torchvision==0.5.0

【问题讨论】:

【参考方案1】:

“双线性插值”是一种插值方法。

但缩小图像不一定只能使用插值来完成。

可以简单地将图像重新采样为较低的采样率,使用插值方法计算与旧样本不一致的新样本。但这会导致混叠(这是当图像中的较高频率分量无法以较低的采样密度表示时得到的,将这些较高频率的能量“混叠”到较低频率分量上;也就是说,新的低频分量出现在重采样后的图像)。

为避免混叠,一些库会在重新采样之前应用低通滤波器(去除无法以较低采样频率表示的高频)。这些库中的二次采样算法不仅仅是插值。

您看到的不同是因为这两个库采用不同的方法,一个尝试通过低通滤波来避免混叠,另一个则没有。

要在 Torch 中获得与在 Pillow 中相同的结果,您需要自己显式地对图像进行低通滤波。要获得相同的结果,您必须弄清楚 Pillow 如何过滤图像,有不同的方法和不同的可能参数设置。查看源代码是了解它们的确切用途的最佳方式。

【讨论】:

这并没有真正解决这个问题,最后是如何在 Torch 中做到这一点(不幸的是,AFAIK 还没有一种在 Torch 中缩小图像的好方法......)。请注意,您的最后一段中有一个错误,它应该是“在 Pillow 中获得相同的结果” @BjornW:您的更正与那里的文本相同。但我看到我确实在那段中交换了“枕头”和“火炬”。谢谢。 // 关于这个问题:它没有说“怎么做?”,而是说“这是为什么?”和“有办法吗?”。我相信我已经回答了这两个问题。

以上是关于为啥使用 PIL 和 pytorch 对图像进行双线性缩放会产生不同的结果?的主要内容,如果未能解决你的问题,请参考以下文章

pytorch图像基本操作

pytorch图像基本操作

pytorch+numpy+PIL将dat文件读取为图像

pytorch训练模型的一些坑

Pytorch加载模型并进行图像分类预测

为啥在 PIL(low) 中读取图像会破坏 Flask 图像端点?