问题标签 [pdftoppm]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

15 问题

0 投票

2 回答

1110 浏览

docusignapi - Pdf2Image 库无法读取使用 docusign 签名的 pdf

我正在尝试将使用 docusign 签名的 pdf 转换为图像格式。我们正面临 convert_from_path 方法中的错误。代码和错误如下所示

导入pdf2image

data=pdf2image.convert_from_path('name.pdf')

PDFPageCountError：无法获取页数。语法错误：外部参照表内的生成太大（大于 INT_MAX）语法错误：找不到尾部字典语法错误：外部参照条目无效语法错误：外部参照条目无效语法错误：顶级页面对象类型错误（空）命令行错误：给定的页面范围错误：第一页 (1) 不能在最后一页 (0) 之后。

docusignapi poppler pdftoppm

2021-03-15T10:43:20.277

0 投票

1 回答

27 浏览

command-line - 使用 pdftoppm 将 PDF 文件页面转换为 PPM 时出错

我无法使用 pdftoppm.exe 将 PDF 文件转换为 PPM。PDF 文件有多个页面，我只想转换文件的第 6 页。我尝试了以下方法，但它莫名其妙地无法进行转换：

command-line pdftoppm

2021-04-07T08:05:08.767

0 投票

3 回答

332 浏览

python - 为什么 pdf2image 给我一个空白图像文件？

我尝试在多个大 pdf 文件（约 400-600 页）上使用 Tesseract OCR 执行 OCR。我不一定要从所有页面中提取文本，但我只想要几页（页码已知）。PDF 文件似乎已经对其执行了某种 OCR，但这并不是一项好工作。当我运行我在 Jupyter 中编写的这段代码时：

我看到这个输出：[ images[0].show()1 的输出

输出应该是这样的：

我确实认为在 PDF 上完成的 OCR 在这里造成了一些问题。我不知道如何绕过它，有人可以帮忙吗？

我还通过手动将页面转换为图像（截图工具）来尝试 OCR，并且 OCR 引擎工作。我还尝试在pdf2image.convert_from_path()没有poppler_path选项的情况下使用选项或其他页面。我尝试阅读另一个 PDF 文件，它没有在其上执行OCR，它似乎工作。

python pdf ocr pdftoppm pdf2image

2021-06-06T17:01:08.290

0 投票

0 回答

81 浏览

python - 如何将 PDF 文档直接解析为图像数组到 RAM 缓冲区

我正在尝试将一个巨大的 PDF 文档解析为图像列表（每个图像都有一个 bmp 格式）。我使用 ghostscript 和 python 将 PDF 解析为 numpy 数组列表，但使用非常无用的方法：

正如您从上面的代码中看到的那样，我保存了这些图像，然后将其删除。

那么，我怎样才能避免这一步。我尝试使用 gs 的 ANSI-c API，但没有找到解决方案。唯一的机会从标准获取图像的位图。

有人可以帮助我吗？顺便说一句，我想提高速度（-dNumRenderingThreads={cpu_number}），但这对我没有帮助。可能有人可以帮助我。

python pdf multiprocessing ghostscript pdftoppm

2021-07-20T15:20:46.277

0 投票

0 回答

44 浏览

python - Python的Pdf2image库抛出“显示/空间中没有字体”错误

对于一些 pdf，pdf2image 库会引发此错误。我已经设置strict=True了 convert_from_path 方法，因此我收到了这些语法错误

我认为这意味着我的系统没有所需的字体，但有没有其他方法可以解决这个问题？

我相信这实际上是一个poppler问题，但我无法找到任何东西。

这是代码片段：

这是错误：“语法错误（1077）：显示/空间中没有字体语法错误（1117）：显示/空间中没有字体语法错误：未知字体标签'F5'”

python poppler pdftoppm poppler-utils

2021-09-24T08:42:57.007

1 2 3 4 5 6 7 8 9 10