为什么Apple Accelerate框架有时会很慢？

Question

我正在使用C和Swift 3.0代码，使用来自Apple的vecLib和Accelerate framework作为基于C lang的项目和Swift playground中的动态库+我的代码。

并且，当函数从接近1.000倍的循环调用时，从SIMD指令的框架调用Apple的包装器与1或<4元素计算函数（如vvcospif()）的情况比简单的标准cos(x * PI)慢。

我知道vvcospif()和cos()之间的区别，我应该使用vvcospif()为x * PI。

在游乐场中的示例，您只需复制代码并运行它：

import Cocoa
import Accelerate

func cosine_interpolate(alpha: Float, a: Float, b: Float) -> Float {
    let ft: Float = alpha * 3.1415927;
    let f: Float = (1 - cos(ft)) * 0.5;

    return a + f*(b - a);
}

var start: Date = NSDate() as Date

var interp: Float;

for index in 0..<1000 {
   interp = cosine_interpolate(alpha: 0.25, a: 1.0, b: 0.75)
}

var end = NSDate();
var timeInterval: Double = end.timeIntervalSince(start);

print("cosine_interpolate in (timeInterval) seconds")

func fast_cosine_interpolate(alpha: Float, a: Float, b: Float) -> Float {
    var x: Float = alpha
    var count: Int32 = 1

    var result: Float = 0
    vvcospif(&result, &x, &count)

    let SINSIN_HALF_X: Float = (1 - result) * 0.5;

    return a + SINSIN_HALF_X * (b - a);
}

start = NSDate() as Date

for index in 0..<1000 {
    interp = fast_cosine_interpolate(alpha: 0.25, a: 1.0, b: 0.75)
}

end = NSDate();
timeInterval = end.timeIntervalSince(start);

print("fast_cosine_interpolate in (timeInterval) seconds")

我的问题是：

为什么`vvcospif()`在这个例子中很慢？

可能是因为vvcospif()它是Objective-C运行时下的包装器，并且转换数据结构/从Intel SIMD复制内存 - > Objective-C - > Swift运行时比微小的cos()慢？

我也有C代码+的性能问题

#include <Accelerate/Accelerate.h>

vvcospif(resultVector, inputVector, &count);

当inputVector和resultVector是带有1或2个元素的小数组或者只是浮点变量时，并且循环调用~1.000.000次。

cos(x * PI)计算时间接近20毫秒。

和

vvcospif(x)处理一个float或float array[2] - 计算时间接近80毫秒！加速在哪里？ :)

是的，在Xcode中我使用编译器-O -whole-module-optimization优化与整个模块opt。启用。

为什么Apple Accelerate框架有时会很慢？

为什么vvcospif()在这个例子中很慢？

我也有C代码+的性能问题

为什么`vvcospif()`在这个例子中很慢？