1

我们正在编写针对某些英特尔硬件的图像处理算法。一般来说,我们更喜欢通用的 C 实现,但我们已经确定了一种算法,该算法的核心是大量的离散余弦变换 (DCT),效果非常好。不幸的是,我们的吞吐量要求使得通用 C 实现慢了大约 2 个数量级。我可以通过其他一些技巧获得一个数量级,所以如果我可以将我的 DCT 提高大约一个数量级,我就有了通往成功的道路。

英特尔 MMX 是一种获得硬件加速来执行这些 DCT 的方法吗?我可以利用其他英特尔特定库和/或硬件来加快这些坏男孩的速度吗?

我从哪里开始看?这对我来说是一项新工作,也是我第一次深入研究英特尔硬件,所以任何指针都将不胜感激。

4

1 回答 1

3

看看英特尔的集成性能基元库。它包含大量经过优化以使用英特尔架构的例程,特别是 MMX 和 SSE。除其他外,IPP 还包含 DCT 的例程(此处的文档)。

于 2012-01-19T17:46:02.080 回答