2

我正在尝试使用英特尔 FMA 内在函数,例如_mm_fmadd_ps (__m128 a, __m128 b, __m128 c),以便在我的代码中获得更好的性能。

所以,首先,我做了一个小测试程序,看看它可以做什么以及我如何使用它们。

#include <stdio.h>
#include <stdlib.h>
#include "xmmintrin.h"

int main()
{
   __m128 v1,v2,v3,vr;
   v1 = _mm_set_ps (5.0, 5.0, 5.0, 5.0);
   v2 = _mm_set_ps (2.0, 2.0, 2.0, 2.0);
   v3 = _mm_set_ps (3.0, 3.0, 3.0, 3.0);

   vr = _mm_fmadd_ps (v1, v2, v3);
}

我有这个错误:

vr = 错误:从类型 'int' 分配给类型 '__m128' 时类型不兼容 vr = _mm_fmadd_ps (v1, v2, v3);

我认为可能是处理器功能不允许使用此类指令,所以我在互联网上查找了我的处理器型号(英特尔®酷睿™ i7-4700MQ 处理器),我发现它仅支持SSE4.1/4.2, AVX 2.0内在函数对我来说有点奇怪!!所以我查看了 proc/cpuinfo 文件和标志部分,我找到了 ** fma ** 标志。这是关于硬件的令人困惑的部分。

至于软件,我在互联网上进行了一些挖掘后使用了这个 makefile 选项,我希望这不是问题。

CC=gcc
CFLAGS=-g -c -Wall -O2 -mavx2 -mfma 

我在 Ubuntu 12.04 LTS 上使用 Eclipse,GCC 版本 4.9.4 谢谢。

4

2 回答 2

3

C 语言的一个怪癖是,该语言表明编译器将假定一个以前从未见过的符号,int如果您像函数一样调用它,则必须返回它。由于您没有包含实际定义签名的标头,因此_mm_fmadd_ps您会收到有关转换int__m128.

内在函数头的原始组织是每个指令代都有一个唯一的头,所以你有:

mmintrin.h     The original MMX instruction set (deprecated for x64 native)
mm3dnow.h      The AMD 3D Now! instruction set (deprecated for x64 native)
emmintrin.h    SSE (i.e. single-precision 4-wide SIMD)
xmmintrin.h    SSE2 (i.e. double-precision and integer 4-wide SIMD)

之后,他们开始使用引入新指令的处理器架构的代号。

pmmintrin.h    SSE3 (the p stands for Prescott)
tmmintrin.h    Supplemental SSE3 (the t stands for Tejas)
smmintrin.h    SSE4.1 (not sure what the s is here for.
               They were added for Penryn but p
               was already used for Prescott)
nmmintrin.h    SSE4.2 (the n stands for Nehalem)
wmmintrin.h    AES (the w stands for Westmere)

这些天来,新指令集往往最终ammintrin.h用于 AMD 起源的东西(ABM、BMI、LWP、TBM、XOP、FMA4、SSE4a、SSE5)或immintrin.hIntel 起源的东西(AVX、FMA3、F16C、AVX2 等.)。AVX-512 在zmmintrin.h.

旧系统不是特别直观,但新系统也不是。定义了许多 AMD 指令子集,immintrin.h因为它们是相同的指令。在文档或标题中查找它确实是知道哪个内在函数在哪里的唯一方法。

对于英特尔来说,这个网站是一个很好的参考。否则,您需要查看AMD和/或Intel的开发人员指南。

您可能会发现我的这个博客系列很有用。

于 2017-06-19T17:14:31.507 回答
1

-mfma 可能看起来有点麻烦,但它的存在是有充分理由的。的结果

_mm_add_ps(_mm_mul_ps(a, b), c)
_mm_fmadd_ps(a, b, c)

其实不一样。如果您编写的代码必须在您运行代码的所有机器上计算完全相同的结果(确定性),那么您可能需要禁用 fma!这就是为什么您需要在构建中使用 -fma 启用它的原因。

尽管如此,至少它不像启用 avx512 的 SkyLake-X CPU 所需的六个编译标志那么糟糕:(

于 2017-06-20T09:31:45.540 回答