比较 Intel Xeon Phi 和 Nvidia Tesla K20 的基准

Posted

技术标签:

【中文标题】比较 Intel Xeon Phi 和 Nvidia Tesla K20 的基准【英文标题】:Benchmarks comparing Intel Xeon Phi and Nvidia Tesla K20 【发布时间】:2013-01-02 19:17:56 【问题描述】:

令我惊讶的是,我找不到这些产品使用开源 OpenCL 基准测试套件的比较,例如 rodinia 和 SHOC。这样的比较可能比我能够找到的理论峰值性能比较或简单矩阵乘法内核中的性能比较更有趣。

有谁知道在哪里可以获得这样的结果?如果做不到这一点,是否有任何堆栈溢出用户可以访问一种或两种产品,以及运行基准测试和共享结果的时间和倾向?任何一张卡的任何版本的结果都会很有趣。

【问题讨论】:

至强融核是否支持 OpenCL?我没有看到任何公告。另外,我预计 Xeon Phi 会非常慢,因为它的架构更适合消息传递应用程序。 @Tim Xeon Phi 确实支持 OpenCL,尽管它仍处于测试阶段:software.intel.com/en-us/vcsource/tools/opencl-sdk-xe 我可以在我的工作地点访问这两个文件。您是在寻找 k20 上的 opencl 性能还是 cuda 性能? 在周末构建它们对我来说变得越来越痛苦(不能很好地使用 cuda 5.0)。我将尝试在这周晚些时候回来。 @Pavan 您有时间在 Xeon Phi 上运行基准测试吗? (我认为不对 CUDA 进行基准测试很好。) 【参考方案1】:

CLBenchmark.com 现在有一些Xeon Phi 的结果,以及K20c 的完整集合。

Here is a side-by-side comparison.

【讨论】:

【参考方案2】:

这是 Xeon Phi 与 GTX Titan 的比较。

http://clbenchmark.com/compare.jsp?config_0=14470292&config_1=15887974

Xeon Phi 基本上在 10/12 基准测试中完全被破坏,并且与其他 2 个相当。因此 300 瓦 22 纳米 Phi 部件与 250 瓦 28 纳米 GPU 相比并没有那么好。

基本上,Phi 似乎在利用其带宽容量时遇到了重大问题,矢量化代码似乎是另一个问题。

【讨论】:

【参考方案3】:

这是一个比较稀疏矩阵乘法性能的基准:

http://uk.arxiv.org/abs/1302.1078

它部分回答了我的问题,但我宁愿看到不止一种算法,而且我想看看 OpenCL 的可移植性如何,我仍然会接受任何可以提供该信息的答案。

【讨论】:

【参考方案4】:

至强融核的 SHOC 基准测试套件位于 github 上:

Intel Xeon Phi SHOC Benchmark Suite

大量基准测试帖子开始公开并“可在 Google 上搜索”,但这里是英特尔关于 Xeon Phi 与双插槽 E5-2670 基准测试的标准通信:

Intel Xeon Phi Performance Doc。

在将 Xeon Phi 的性能与常规 Xeon 或任何其他平台进行比较时,请确保您考虑了平台的功率范围(双插槽 Xeon)以及应用程序是否已针对 Xeon 进行了调整或不。 Xeon Phi 的一大卖点是,除了 Xeon Phi 改进之外,您通常还会获得 Xeon 改进。好甜啊。。

【讨论】:

很高兴收到来自英特尔的答复!谢谢。我注意到“Intel Xeon Phi SHOC Benchmark Suite”似乎不再使用 OpenCL。那正确吗?如果是这样就有点可惜了,比较一下 OpenCL 的性能就好了。 我敢肯定,从长远来看,情况并非如此……更有可能是有人在本地分支上工作,他们很快就会将其推送到 github。

以上是关于比较 Intel Xeon Phi 和 Nvidia Tesla K20 的基准的主要内容,如果未能解决你的问题,请参考以下文章

Intel Xeon Phi 上每个时钟周期的乘法次数

如何检测 Xeon Phi (Knights Landing)

在 Xeon Phi 上为双打操作面具

使用 gcc 进行英特尔至强 phi 编程

在 xeon-phi 上引导自定义内核

Xeon phi 卸载模式如何利用线程并行和矢量化