结合英特尔 IPP 和 TBB
Posted
技术标签:
【中文标题】结合英特尔 IPP 和 TBB【英文标题】:combining Intel IPP and TBB 【发布时间】:2012-10-23 20:47:40 【问题描述】:我正在尝试通过结合 IPP 和 TBB 来进一步改进我的图像调整算法。我可以完成这项任务的两种方法是:
-
使用不带 TBB 的 IPP
在 parallel_for 循环中使用 IPP 和 TBB
我的问题是我已经对应用程序进行了编码,并且得到了正确的结果。但令人惊讶的是,当它们组合在一起时,我的计算时间会更大。为避免混乱,我只在此处粘贴部分代码。但如果需要,我可以提供整个代码。对于我只使用 IPP 的第一种情况,代码如下:(算法的基础是从英特尔 TBB 图像大小调整示例代码中借用的)
ippiResizeSqrPixel_8u_C1R(src, srcSize, srcStep, srcRoi, dst, dstStep, dstRoi,
m_nzoom_x,m_nzoom_y,0, 0, interpolation, pBufferWhole);
parallel_for 循环如下所示:
parallel_for(
blocked_range<size_t>(0,CHUNK),
[=](const blocked_range<size_t> &r)
for (size_t i= r.begin(); i!= r.end(); i++)
ippiResizeSqrPixel_8u_C1R(src+((int)(i*srcWidth*srcHeight)), srcSize,
srcStep, srcRoi, dst+((int)(i*dstWidth*dstHeight)), dstStep, dstRoi,
m_nzoom_x,m_nzoom_y,0, 0, interpolation, pBuffer);
);
src
和dst
是指向源图像和目标图像的指针。使用 TBB 时,图像被划分为CHUNKS
部分,parallel_for 循环遍历所有CHUNKS
并使用 IPP 函数独立调整每个 CHUNK 的大小。 dstHeight
、srcHeight
、srcRoi
和 dstRoi
的值被修改以适应图像的分区,src+((int)(i*srcWidth*srcHeight))
和 dst+((int)(i*dstWidth*dstHeight))
将指向源和目标中每个分区的开头图片。
显然,IPP 和 TBB 可以以这种方式组合 - 因为我得到了正确的结果 - 但让我感到困惑的是,与单独使用 IPP 相比,当它们组合时计算时间会变差。关于可能是什么原因,或者我如何解决这个问题的任何想法?
谢谢!
【问题讨论】:
我认为图像尺寸太小而无法利用并行性。你测试了多大的输入/输出图像? 这是我最初的想法,但即使我测试了比原始尺寸大几倍的大尺寸图像,我也没有看到任何改进。 您是否尝试对此进行分析?你在哪个平台上。 【参考方案1】:在您的代码中,parallel_for
中的每个并行化任务都包含多个 ippiResizeSqrPixel
调用。
与只调用一次的串行版本相比,这可能是毫无意义的开销,因为此类函数可能包含准备阶段(例如,设置插值系数表),并且它通常旨在一次处理大内存块以提高运行时效率。 (但我不知道 IPP 实际上是怎么做的。)
我建议你遵循并行结构:
parallel_for(
// Range = src (or dst) height of image.
blocked_range<size_t>(0, height),
[=](const blocked_range<size_t> &r)
// 'r' = vertical range of image to process in this task.
// You can calculate src/dst region from 'r' here,
// and call ippiResizeSqrPixel once per task.
ippiResizeSqrPixel_8u_C1R( ... );
);
【讨论】:
我很难弄清楚您的代码中有哪些不同之处。你能完成你的循环体吗? 基本思想是(1)通过调用一次IPP函数来最小化并行执行的任务,以及(2)纵向分割parallel_for
的图像块并让TBB确定块大小,它是一个单位调用函数。【参考方案2】:
原来某些 IPP 函数会自动使用多线程。对于此类功能,使用 TBB 无法获得任何改进。显然ippiResizeSqrPixel_8u_C1R( ... )
函数就是这些函数之一。当我禁用除一个之外的所有内核时,两个版本的表现都一样好。
【讨论】:
以上是关于结合英特尔 IPP 和 TBB的主要内容,如果未能解决你的问题,请参考以下文章