问题标签 [pdftoppm]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
docusignapi - Pdf2Image 库无法读取使用 docusign 签名的 pdf
我正在尝试将使用 docusign 签名的 pdf 转换为图像格式。我们正面临 convert_from_path 方法中的错误。代码和错误如下所示
导入pdf2image
data=pdf2image.convert_from_path('name.pdf')
PDFPageCountError:无法获取页数。语法错误:外部参照表内的生成太大(大于 INT_MAX) 语法错误:找不到尾部字典 语法错误:外部参照条目无效 语法错误:外部参照条目无效 语法错误:顶级页面对象类型错误(空) 命令行错误:给定的页面范围错误:第一页 (1) 不能在最后一页 (0) 之后。
command-line - 使用 pdftoppm 将 PDF 文件页面转换为 PPM 时出错
我无法使用 pdftoppm.exe 将 PDF 文件转换为 PPM。PDF 文件有多个页面,我只想转换文件的第 6 页。我尝试了以下方法,但它莫名其妙地无法进行转换:
python - 为什么 pdf2image 给我一个空白图像文件?
我尝试在多个大 pdf 文件(约 400-600 页)上使用 Tesseract OCR 执行 OCR。我不一定要从所有页面中提取文本,但我只想要几页(页码已知)。PDF 文件似乎已经对其执行了某种 OCR,但这并不是一项好工作。当我运行我在 Jupyter 中编写的这段代码时:
我看到这个输出:[
我确实认为在 PDF 上完成的 OCR 在这里造成了一些问题。我不知道如何绕过它,有人可以帮忙吗?
我还通过手动将页面转换为图像(截图工具)来尝试 OCR,并且 OCR 引擎工作。我还尝试在pdf2image.convert_from_path()
没有poppler_path
选项的情况下使用选项或其他页面。我尝试阅读另一个 PDF 文件,它没有在其上执行OCR,它似乎工作。
python - 如何将 PDF 文档直接解析为图像数组到 RAM 缓冲区
我正在尝试将一个巨大的 PDF 文档解析为图像列表(每个图像都有一个 bmp 格式)。我使用 ghostscript 和 python 将 PDF 解析为 numpy 数组列表,但使用非常无用的方法:
正如您从上面的代码中看到的那样,我保存了这些图像,然后将其删除。
那么,我怎样才能避免这一步。我尝试使用 gs 的 ANSI-c API,但没有找到解决方案。唯一的机会从标准获取图像的位图。
有人可以帮助我吗?顺便说一句,我想提高速度(-dNumRenderingThreads={cpu_number}),但这对我没有帮助。可能有人可以帮助我。
python - Python的Pdf2image库抛出“显示/空间中没有字体”错误
对于一些 pdf,pdf2image 库会引发此错误。我已经设置strict=True
了 convert_from_path 方法,因此我收到了这些语法错误
我认为这意味着我的系统没有所需的字体,但有没有其他方法可以解决这个问题?
我相信这实际上是一个poppler问题,但我无法找到任何东西。
这是代码片段:
这是错误:“语法错误(1077):显示/空间中没有字体语法错误(1117):显示/空间中没有字体语法错误:未知字体标签'F5'”