python - 使用整数的 Numpy 点积非常慢

Question

抱歉这么多问题。我在 Intel core 2 Duo 上运行 Mac OSX 10.6。我正在为我的研究运行一些基准测试，但我遇到了另一件让我困惑的事情。

如果我跑

python -mtimeit -s 'import numpy as np; a = np.random.randn(1e3,1e3)' 'np.dot(a,a)'

我得到以下输出：10 loops, best of 3: 142 msec per loop

但是，如果我运行

python -mtimeit -s 'import numpy as np; a = np.random.randint(10,size=1e6).reshape(1e3,1e3)' 'np.dot(a,a)'

我得到以下输出：10 loops, best of 3: 7.57 sec per loop

然后我跑了

python -mtimeit -s 'import numpy as np; a = np.random.randn(1e3,1e3)' 'a*a'接着

python -mtimeit -s 'import numpy as np; a = np.random.randint(10,size=1e6).reshape(1e3,1e3)' 'a*a'

两者都以每个循环约 7.6 毫秒的速度运行，因此它不是乘法。添加也有相似的速度，所以这些都不应该影响点积，对吧？那么为什么使用整数计算点积比使用浮点数慢 50 倍以上呢？

score 15 · Accepted Answer

非常有趣，我很好奇它是如何实现的，所以我做了：

>>> import inspect
>>> import numpy as np
>>> inspect.getmodule(np.dot)
<module 'numpy.core._dotblas' from '/Library/Python/2.6/site-packages/numpy-1.6.1-py2.6-macosx-10.6-universal.egg/numpy/core/_dotblas.so'>
>>>

所以它看起来像是在使用BLAS图书馆。

所以：

>>> help(np.core._dotblas)

我从中找到了这个：

当 Numpy 使用 ATLAS 等加速 BLAS 构建时，这些函数将被替换以利用更快的实现。更快的实现只影响 float32、float64、complex64 和 complex128 数组。此外，BLAS API 仅包括矩阵-矩阵、矩阵-向量和向量-向量乘积。具有较大维度的数组的产品使用内置函数并且不加速。

所以看起来 ATLAS 微调了某些功能，但它只适用于某些数据类型，非常有趣。

所以是的，看起来我会更频繁地使用花车......

score 7 · Accepted Answer

使用 int vs float 数据类型会导致执行不同的代码路径：

float 的堆栈跟踪如下所示：

(gdb) backtr
#0  0x007865a0 in dgemm_ () from /usr/lib/libblas.so.3gf
#1  0x007559d5 in cblas_dgemm () from /usr/lib/libblas.so.3gf
#2  0x00744108 in dotblas_matrixproduct (__NPY_UNUSED_TAGGEDdummy=0x0, args=(<numpy.ndarray at remote 0x85d9090>, <numpy.ndarray at remote 0x85d9090>), 
kwargs=0x0) at numpy/core/blasdot/_dotblas.c:798
#3  0x08088ba1 in PyEval_EvalFrameEx ()
...

..而 int 的堆栈跟踪如下所示：

(gdb) backtr
#0  LONG_dot (ip1=0xb700a280 "\t", is1=4, ip2=0xb737dc64 "\a", is2=4000, op=0xb6496fc4 "", n=1000, __NPY_UNUSED_TAGGEDignore=0x85fa960)
at numpy/core/src/multiarray/arraytypes.c.src:3076
#1  0x00659d9d in PyArray_MatrixProduct2 (op1=<numpy.ndarray at remote 0x85dd628>, op2=<numpy.ndarray at remote 0x85dd628>, out=0x0)
at numpy/core/src/multiarray/multiarraymodule.c:847
#2  0x00742b93 in dotblas_matrixproduct (__NPY_UNUSED_TAGGEDdummy=0x0, args=(<numpy.ndarray at remote 0x85dd628>, <numpy.ndarray at remote 0x85dd628>), 
kwargs=0x0) at numpy/core/blasdot/_dotblas.c:254
#3  0x08088ba1 in PyEval_EvalFrameEx ()
...

这两个调用都导致了 dotblas_matrixproduct，但似乎 float 调用保留在 BLAS 库中（可能访问一些优化良好的代码），而 int 调用被踢回 numpy 的 PyArray_MatrixProduct2。

所以这要么是一个错误，要么是 BLAS 只是不支持 matrixproduct 中的整数类型（这似乎不太可能）。

这是一个简单且便宜的解决方法：

af = a.astype(float)
np.dot(af, af).astype(int)

python - 使用整数的 Numpy 点积非常慢

2 回答 2

Related

Reference