6

从pdf中提取文本的最佳方法是什么?

4

1 回答 1

7

CAM::PDF模块对于提取文本和维护一些关于它在文档中的来源的信息非常有用。它安装了 /usr/local/bin/getpdftext.pl ,它演示了简单的提取。但是,CAM::PDF 只能读取完全有效的 PDF。

如果您正在处理格式错误的 PDF,您可能需要更宽松的解析器,例如 pdftotext。它将 foo.pdf 转储到 foo.txt,然后您可以将其读入 Perl。

于 2011-01-19T01:29:44.513 回答