我正在使用 pdfbox 将页面呈现到 BufferedImage。文档是扫描的一张纸 (A4)。不幸的是,其中许多文档已经被扫描,并且只有我可用的 OCR 在扫描时执行。所以我使用 tess4j 对这些文档进行排序。
try (PDDocument inputPDF = PDDocument.load(pdf)) {
firstPage = new PDFRenderer(inputPDF).renderImageWithDPI(0, 200);
但是,这种渲染方式非常缓慢。我实际上只需要该 pdf 第一页的一小部分,因此渲染整个页面是没有意义的。我的问题是:如何从 pdf 文档中提取区域作为 BufferedImage。例如在右上角提取大小为 100x100 的区域。
谢谢 :)