我正在开发一个项目,使用 ImageMagick 和 ghostscript 将 OCR 的 PDf 转换为 png 并显示在浏览器中,以便我可以通过让用户查询单词来选择图像中的单词。Imagemagick 与 ghostscript 一起工作得很好。
我对 ps2text 实用程序有疑问,它不能与 pdf 的 . 任何人都可以建议一个很好的实用程序来在 Linux 中将 postscript 转换为文本,以便我可以将它存储在 db 中。此后,我使用自定义的书面搜索类来找出每个单词的坐标并突出显示浏览器中的文本。
谢谢