我们正在编写针对某些英特尔硬件的图像处理算法。一般来说,我们更喜欢通用的 C 实现,但我们已经确定了一种算法,该算法的核心是大量的离散余弦变换 (DCT),效果非常好。不幸的是,我们的吞吐量要求使得通用 C 实现慢了大约 2 个数量级。我可以通过其他一些技巧获得一个数量级,所以如果我可以将我的 DCT 提高大约一个数量级,我就有了通往成功的道路。
英特尔 MMX 是一种获得硬件加速来执行这些 DCT 的方法吗?我可以利用其他英特尔特定库和/或硬件来加快这些坏男孩的速度吗?
我从哪里开始看?这对我来说是一项新工作,也是我第一次深入研究英特尔硬件,所以任何指针都将不胜感激。