java - pdf页面的Java渲染部分

翻译自：https://stackoverflow.com/questions/43557177 2017-04-22T08:47:24.287

369 次

我正在使用 pdfbox 将页面呈现到 BufferedImage。文档是扫描的一张纸 (A4)。不幸的是，其中许多文档已经被扫描，并且只有我可用的 OCR 在扫描时执行。所以我使用 tess4j 对这些文档进行排序。

            try (PDDocument inputPDF = PDDocument.load(pdf)) {
            firstPage = new PDFRenderer(inputPDF).renderImageWithDPI(0, 200);

但是，这种渲染方式非常缓慢。我实际上只需要该 pdf 第一页的一小部分，因此渲染整个页面是没有意义的。我的问题是：如何从 pdf 文档中提取区域作为 BufferedImage。例如在右上角提取大小为 100x100 的区域。

谢谢：）

0 回答 0