apache-tika - 如何使用 Apache Tika Server 从 PDF 中提取内联图像并将其保存为文件？

Question

有没有办法做到这一点？我在 PUT 请求中使用以下标头http://localhost:9998/tika

"Content-Type", "application/pdf"
"X-Tika-OCRLanguage", "eng"
"X-Tika-PDFextractInlineImages", "true"
"X-Tika-PDFOcrStrategy", "no_ocr"

响应是否包含图像？如果是这样，我该如何保存它们？

使用 Apache Tika 服务器 1.26

score 0 · Accepted Answer

响应将是字符串而不是图像标志：PDFOcrStrategy 告诉 tika 使用 ocr (tesseract) 或仅尝试从没有 ocr 的文档中提取文本 - 对于本机 pdf 很有用

标志： PDFextractInlineImages 告诉 tika 忽略/包含嵌入的图像

因此，当您拥有扫描的 pdf 文件时，您应该使用
“X-Tika-PDFextractInlineImages”、“true”、“X-Tika-PDFOcrStrategy”、“ocr_only”作为原生 pdf 文件“X-Tika-PDFextractInlineImages”、“false”“X-Tika -PDFOcrStrategy", "no_ocr" 但在这两种情况下 tika 都会返回文本

如果您想从 pdf 文档 IMO 中获取图像，您应该使用 pdf 框或类似的库。tika 的目标是从输入中返回文本

apache-tika - 如何使用 Apache Tika Server 从 PDF 中提取内联图像并将其保存为文件？

1 回答 1

Related

Reference