c++ - 如何从 __m64 值的 lsb 创建一个 8 位掩码？

Question

我有一个用例，其中我有一个位数组，每个位表示为 8 位整数，例如uint8_t data[] = {0,1,0,1,0,1,0,1};我想通过仅提取每个值的 lsb 来创建一个整数。我知道使用int _mm_movemask_pi8 (__m64 a)函数我可以创建一个掩码，但这个内在函数只需要一个字节的 msb 而不是 lsb。是否有类似的内在或有效方法来提取 lsb 以创建单个 8 位整数？

score 5 · Accepted Answer

没有直接的方法可以做到这一点，但显然你可以简单地将 lsb 转换为 msb 然后提取它：

_mm_movemask_pi8(_mm_slli_si64(x, 7))

这些天使用 MMX 很奇怪，应该避免使用。

这是一个 SSE2 版本，仍然只读取 8 个字节：

int lsb_mask8(uint8_t* bits) {
    __m128i x = _mm_loadl_epi64((__m128i*)bits);
    return _mm_movemask_epi8(_mm_slli_epi64(x, 7));
}

使用 SSE2 而不是 MMX 避免了对EMMS

score 2 · Accepted Answer

如果您有高效的 BMI2 pext（例如 Haswell 和更新版本，与 AVX2 相同），请使用 @wim 的反面回答您关于另一个方向的问题（如何有效地将 8 位位图转换为 0/1 整数数组x86 SIMD）。

unsigned extract8LSB(uint8_t *arr) {
    uint64_t bytes;
    memcpy(&bytes, arr, 8);
    unsigned LSBs = _pext_u64(bytes ,0x0101010101010101);
    return LSBs;
}

这就像您期望的 qword 加载 +pext指令一样编译。编译器将在内联后将常量设置提升0x01...出循环。

pext/pdep在支持它们的 Intel CPU 上是有效的（3 个周期延迟/1c 吞吐量，1 uop，与乘法相同）。但是它们在 AMD 上效率不高，比如 18c 延迟和吞吐量。（https://agner.org/optimize/）。如果您关心 AMD，您绝对应该使用@harold 的pmovmskb答案。

或者，如果您有多个 8 字节的连续块，则使用单个宽向量进行处理，并获得 32 位位图。如果需要，您可以将其拆分，或使用 4 展开循环以右移位图以获得所有 4 个单字节结果。

如果您只是立即将其存储到内存中，那么您可能应该在写入源数据的循环中完成此提取，而不是单独的循环，因此它在缓存中仍然很热。AVX2_mm256_movemask_epi8是具有低延迟的单个 uop（在 Intel CPU 上），因此如果您的数据在 L1d 缓存中不热，那么执行此操作的循环不会在等待内存时使其执行单元保持忙碌。

c++ - 如何从 __m64 值的 lsb 创建一个 8 位掩码？

2 回答 2

Related

Reference