从 C 到 Neon 的双线性插值

Posted 2023-02-16

技术标签:

【中文标题】从 C 到 Neon 的双线性插值【英文标题】：Bilinear Interpolation from C to Neon 【发布时间】：2013-03-19 13:54:17 【问题描述】：

我正在尝试使用 Neon 对图像进行下采样。所以我尝试通过编写一个使用霓虹灯减去两个图像的函数来锻炼霓虹灯，我已经成功了。现在我回来使用霓虹内在函数编写双线性插值。现在我有两个问题，从一行和一列中获取 4 个像素，并且还从 4 个像素中计算插值（灰色），或者是否可以从一行和一列中的 8 个像素中计算。我试着想了想，但我认为算法应该重写吗？

void resizeBilinearNeon( uint8_t *src, uint8_t *dest,  float srcWidth,  float srcHeight,  float destWidth,  float destHeight)


    int A, B, C, D, x, y, index;

       float x_ratio = ((float)(srcWidth-1))/destWidth ;
       float y_ratio = ((float)(srcHeight-1))/destHeight ;
       float x_diff, y_diff;

       for (int i=0;i<destHeight;i++) 
          for (int j=0;j<destWidth;j++) 
               x = (int)(x_ratio * j) ;
               y = (int)(y_ratio * i) ;
               x_diff = (x_ratio * j) - x ;
               y_diff = (y_ratio * i) - y ;
               index = y*srcWidth+x ;

               uint8x8_t pixels_r = vld1_u8 (src[index]);
               uint8x8_t pixels_c = vld1_u8 (src[index+srcWidth]);

               // Y = A(1-w)(1-h) + B(w)(1-h) + C(h)(1-w) + Dwh
               gray = (int)(
                           pixels_r[0]*(1-x_diff)*(1-y_diff) +  pixels_r[1]*(x_diff)*(1-y_diff) +
                           pixels_c[0]*(y_diff)*(1-x_diff)   +  pixels_c[1]*(x_diff*y_diff)
                           ) ;

               dest[i*w2 + j] = gray ;

【问题讨论】：

一个适当的下采样例程必须考虑到每个输出像素多于 4 个像素。双线性是错误的方法，在这个应用程序中它并不比最近邻更好。 @MarkRansom 我尝试了正常的最近邻居，但图像质量影响了我的计算机视觉程序。最适合我的应用程序的是使用双线性插值，但是 opencv 函数很慢的问题。双线性在 +-50% 缩放范围内工作得相当好。在另一端体验像素化和在另一端频率混叠（例如莫尔效应）。并行化/矢量化的瓶颈是每个像素必须访问至少 4 个“随机”内存元素并生成它们的有效地址；解决方案是在 Intel 上使用 pshufb 并在 Neon 上使用 vtbl 从非常本地的查找表中访问 8、16 甚至 32 (ymm) 个单独的字节。 【参考方案1】：

Neon 肯定有助于使用双线性过滤以任意比率进行下采样。关键是巧妙地使用了 vtbl.8 指令，它能够对预加载数组中的 8 个连续目标像素执行并行查找表：

 d0 = a [b] c [d] e [f]  g  h, d1 =  i  j  k  l  m  n  o  p 
 d2 = q  r  s  t  u  v  [w] x, d3 = [y] z [A] B [C][D] E  F ...
 d4 = G  H  I  J  K  L   M  N, d5 =  O  P  Q  R  S  T  U  V ...

可以很容易地计算括号中像素的分数位置：

 [b] [d] [f] [w] [y] [A] [C] [D],  accessed with vtbl.8 d6, d0,d1,d2,d3
 The row below would be accessed with            vtbl.8 d7, d2,d3,d4,d5

递增 vadd.8 d6, d30 ; with d30 = [1 1 1 1 1 ... 1] 为原点右侧的像素等提供查找索引。

没有理由从两行获取像素，除了说明这是可能的，并且如果需要，该方法还可用于实现轻微失真。

在实时应用程序中使用例如lanzcos 可能有点矫枉过正，但使用 NEON 仍然可行。较大因子的下采样当然需要（重度）过滤，但可以通过迭代平均和 2:1 抽取很容易实现，并且只能在最后使用分数采样。

对于任意8个连续像素写，可以计算向量

  x_positions = (X + [0 1 2 3 4 5 6 7]) * source_width / target_width;
  y_positions = (Y + [0 0 0 0 0 0 0 0]) * source_height / target_height;

  ptr = to_int(x_positions) + y_positions * stride;
  x_position += (ptr & 7); // this pointer arithmetic goes only for 8-bit planar
  ptr &= ~7;               // this is to adjust read pointer to qword alignment

  vld1.8 d0,d1, [r0]
  vld1.8 d2,d3], [r0], r2 // wasn't this possible? (use r2==stride)

  d4 = int_part_of (x_positions);
  d5 = d4 + 1;
  d6 = fract_part_of (x_positions);
  d7 = fract_part_of (y_positions);

  vtbl.8 d8,d4,d0,d1  // read top row
  vtbl.8 d9,d5,d0,d1  // read top row +1
  MIX(d8,d9,d6)             // horizontal mix of ptr[] & ptr[1]
  vtbl.8 d10,d4,d2,d3 // read bottom row
  vtbl.8 d11,d5,d2,d3 // read bottom row
  MIX(d10,d11,d6)           // horizontal mix of ptr[1024] & ptr[1025]
  MIX(d8,d10,d7)

  // MIX (dst, src, fract) is a macro that somehow does linear blending
  // should be doable with ~3-4 instructions

要计算整数部分，使用 8.8 位分辨率就足够了（实际上不必计算 666+[0 1 2 3 .. 7]）并将所有中间结果保存在 simd 寄存器中。

免责声明——这是概念性的伪 c / 矢量代码。在 SIMD 中，有两个并行任务需要优化：最少需要多少算术运算以及如何最小化不必要的数据混洗/复制。在这方面，具有三个寄存器方法的 NEON 也比 SSE 更适合严重的 DSP。第二方面是乘法指令的数量，第三方面是交错指令。

【讨论】：

当输入维度为奇数时，我从来没有想过如何正确地按 2:1 抽取。特别是当你重复它时，边缘的错误会累积。 [吹牛模式] 我的记忆可能不正确，但在 600MHz Cortex-A8 上，我的一个 NEON 实现能够在不规则网格上运行 30 FPS 双线性插值，用于立体 (3D) 视频对齐：3D-轴校准、缩放、桶形校正、直方图均衡等——所有参数在运行时可变。关键词：霓虹灯和双线性。 [\吹牛模式关闭] @Ahi Suihkonen：如果您提供指向组合管道源代码的指针，我会支持您的吹牛评论 ;-) 恐怕仅出于法律原因，交付一些实际代码是不可能的。但我可以重建选定的部分/回答特定问题。【参考方案2】：

@MarkRansom 对最近邻与 2x2 双线性插值不正确；使用 4 个像素的双线性将产生比最近邻更好的输出。他是正确的，平均适当数量的像素（如果按 > 2:1 缩放，则超过 4 个）仍然会产生更好的输出。但是，除非按整数比例进行缩放，否则 NEON 对图像下采样没有帮助。

NEON 和其他 SIMD 指令集的最大好处是能够使用相同的操作一次处理 8 或 16 个像素。通过以您的方式访问单个元素，您将失去所有 SIMD 优势。另一个问题是将数据从 NEON 移动到 ARM 寄存器是一个缓慢的操作。最好通过 GPU 或优化的 ARM 指令对图像进行下采样。

【讨论】：

我已经尝试过 GPU 方法，从 GPU 读取数据比 OpenCV 更慢！这是我现在的问题，我不知道如何一次使用 8 像素，以便我执行等效的 C 代码。我希望你能帮忙，至少我是亲眼所见:)。这不是用眼睛看的问题，而是很难用矢量化的方式解决的问题。如果您可以将问题限制为以固定数量（例如 2:1）重新采样图像，那么您可以编写优化的 NEON 解决方案。这就是为什么我想亲眼看到它。我在纸上使用 8 字节向量对此进行了很多思考，并且很难遍历列并进行处理。从 1280*960 到 400*300 的函数怎么样？然后为另一种解决方案再写一个？更快的方法可能是 1280x960 -> 640x480 使用 NEON，然后 640x480->400x300 使用优化的 C/ASM 例程。我的评论基于远大于 2:1 的下采样率，例如创建缩略图；因为这个问题没有提到比率，所以我坚持我原来的说法。在 1:1 到 2:1 范围内，由于双线性的平滑效果（相当于帐篷过滤器），您可能会得到可接受的结果。

以上是关于从 C 到 Neon 的双线性插值的主要内容，如果未能解决你的问题，请参考以下文章