coreml 推理结果与 cpu 和 gpu 不同

Posted 2023-03-27

技术标签:

【中文标题】coreml 推理结果与 cpu 和 gpu 不同【英文标题】：coreml inference results are different with cpu and gpu 【发布时间】：2020-05-07 13:27:32 【问题描述】：

操作系统：macos Catalina 10.15.2 xcode: 11.3 coreml3.0

我将相同的模型输入提供给相同的 mlmodel。但是使用 cpu 设备和 gpu 设备的推理结果是不同的。

结果如下，左边文件是使用cpu的推理结果（第二列），右边文件是使用CpuAndGpu的推理结果（第二列）。我用beyond compare来比较两个文件，红色标注的数据就是区别。

有谁知道这个问题以及如何解决它？

enter image description here

【问题讨论】：

【参考方案1】：

这本身不是问题。在 GPU 上使用 16 位浮点数，而在 CPU 上使用 32 位浮点数。 16 位浮点数的精度较低，这解释了您得到的不同结果。

有些数字会稍大一些，有些会稍小一些，但通常这些影响会相互抵消，您不会注意到差异。

（但是，如果您的模型生成图像，您可能会注意到 16 位浮点数提供的较低精度造成的像素伪影。）

【讨论】：

我还有两个问题。首先，我使用 coremltools 对模型进行了 16 位量化。但是在设备上的推理速度并没有提高。只有模型尺寸减小。其次，某些检测模型使用coremltools的16bit量化可能会损失很多精度。但是在设备（gpu-16bit）上运行的模型不会损失精度。那么为什么设备上的 gpu（或 npu）-16bit 比使用 coremltools 的 quantization-16bit 更好呢？他们用来量化 mlmodel 的方法可能不同吗？谢谢@Matthijs Hollemans 量化仅影响权重在模型中的存储方式，而不影响运行时发生的情况。在 GPU/ANE 上，无论权重如何量化（或不量化），网络始终以 16 位浮点数运行。

以上是关于coreml 推理结果与 cpu 和 gpu 不同的主要内容，如果未能解决你的问题，请参考以下文章

CPU和GPU上的不同结果

深度学习图像处理场景应该用什么配置的云服务器？

CoreML 推理时间是不是会随着迭代而增长？

详解GPU的内存带宽与CPU的不同

gpu版本低能用啥跑代码

移动端深度学习框架汇总