c - 具有内在函数和程序集的嵌入式广播

Question

在英特尔架构指令集扩展编程参考的第 2.5.3 节“广播”中，我们了解到 AVX512（和 Knights Corner）有

为某些加载操作指令编码数据广播的位字段，即从内存加载数据并执行某些计算或数据移动操作的指令。

例如，使用 Intel 汇编语法，我们可以在存储的地址广播标量，rax然后乘以 16 个浮点数zmm2并将结果写成zmm1这样

vmulps zmm1, zmm2, [rax] {1to16}

但是，没有内在函数可以做到这一点。因此，使用内在函数，编译器应该能够折叠

__m512 bb = _mm512_set1_ps(b);
__m512 ab = _mm512_mul_ps(a,bb);

单条指令

vmulps zmm1, zmm2, [rax] {1to16}

但我没有观察到 GCC 这样做。我发现了一个关于这个的 GCC 错误报告。

我观察到与 GCC 的 FMA 类似的东西。例如，GCC 4.9 不会崩溃_mm256_add_ps(_mm256_mul_ps(areg0,breg0) 为带有-Ofast. 但是，GCC 5.1 现在确实将其折叠为单个 fma。至少有内在函数可以使用 FMA 执行此操作，例如_mm256_fmadd_ps. 但是没有例如_mm512_mulbroad_ps(vector,scalar)内在的。

GCC 可能会在某个时候解决这个问题，但在那之前，汇编是唯一的解决方案。

所以我的问题是如何在 GCC 中使用内联汇编来做到这一点？

对于上面的示例，我想我可能已经为 GCC 内联汇编提出了正确的语法（但我不确定）。

"vmulps        (%%rax)%{1to16}, %%zmm1, %%zmm2\n\t"

我真的在寻找这样的功能

static inline __m512 mul_broad(__m512 a, float b) {
    return a*b;
}

如果b在内存中指向rax它产生

vmulps        (%rax){1to16}, %zmm0, %zmm0
ret

如果b在xmm1其中产生

vbroadcastss    %xmm1, %zmm1
vmulps          %zmm1, %zmm0, %zmm0
ret

GCC 已经vbroadcastss使用内部函数执行 -from-register 案例，但如果b在内存中，则将其编译为vbroadcastss来自内存。

__m512 mul_broad(__m512 a, float b) {       
    __m512 bb = _mm512_set1_ps(b);
    __m512 ab = _mm512_mul_ps(a,bb);
    return ab;
}

如果b在内存中，clang 将使用广播内存操作数。

score 5 · Accepted Answer

正如 Peter Cordes 所指出的，GCC 不允许您为不同的约束选项指定不同的模板。因此，我的解决方案是让汇编程序根据选择的操作数选择正确的指令。

我没有支持 ZMM 寄存器的 GCC 版本，因此以下示例使用 XMM 寄存器和一些不存在的指令来演示如何实现所需的内容。

typedef __attribute__((vector_size(16))) float v4sf;

v4sf
foo(v4sf a, float b) {
    v4sf ret;
    asm(".ifndef isxmm\n\t"
        ".altmacro\n\t"
        ".macro ifxmm operand, rnum\n\t"
        ".ifc \"\\operand\",\"%%xmm\\rnum\"\n\t"
        ".set isxmm, 1\n\t"
        ".endif\n\t"
        ".endm\n\t"
        ".endif\n\t"
        ".set isxmm, 0\n\t"
        ".set regnum, 0\n\t"
        ".rept 8\n\t"
        "ifxmm <%2>, %%regnum\n\t"
        ".set regnum, regnum + 1\n\t"
        ".endr\n\t"
        ".if isxmm\n\t"
        "alt-1 %1, %2, %0\n\t"
        ".else\n\t"
        "alt-2 %1, %2, %0\n\t"
        ".endif\n\t"
        : "=x,x" (ret)
        : "x,x" (a), "x,m" (b));
    return ret;
}


v4sf
bar(v4sf a, v4sf b) {
    return foo(a, b[0]);
}

这个例子应该被编译gcc -m32 -msse -O3并且应该产生两条类似如下的汇编错误信息：

t103.c: Assembler messages:
t103.c:24: Error: no such instruction: `alt-2 %xmm0,4(%esp),%xmm0'
t103.c:22: Error: no such instruction: `alt-1 %xmm0,%xmm1,%xmm0'

这里的基本思想是汇编器检查第二个操作数 ( %2) 是 XMM 寄存器还是其他东西，大概是内存位置。由于 GNU 汇编器不支持对字符串的操作方式，第二个操作数在循环中一次与每个可能的 XMM 寄存器进行比较.rept。该isxmm宏用于将%xmm一个寄存器号粘贴在一起。

对于您的特定问题，您可能需要像这样重写它：

__m512
mul_broad(__m512 a, float b) {
    __m512 ret;
    __m512 dummy;
    asm(".ifndef isxmm\n\t"
        ".altmacro\n\t"
        ".macro ifxmm operand, rnum\n\t"
        ".ifc \"\\operand\",\"%%zmm\\rnum\"\n\t"
        ".set isxmm, 1\n\t"
        ".endif\n\t"
        ".endm\n\t"
        ".endif\n\t"
        ".set isxmm, 0\n\t"
        ".set regnum, 0\n\t"
        ".rept 32\n\t"
        "ifxmm <%[b]>, %%regnum\n\t"
        ".set regnum, regnum + 1\n\t"
        ".endr\n\t"
        ".if isxmm\n\t"
        "vbroadcastss %x[b], %[b]\n\t"
        "vmulps %[a], %[b], %[ret]\n\t"
        ".else\n\t"
        "vmulps %[b] %{1to16%}, %[a], %[ret]\n\t"
        "# dummy = %[dummy]\n\t"
        ".endif\n\t"
        : [ret] "=x,x" (ret), [dummy] "=xm,x" (dummy)
        : [a] "x,xm" (a), [b] "m,[dummy]" (b));
    return ret;
}

c - 具有内在函数和程序集的嵌入式广播

1 回答 1

Related

Reference