1

我正在将我的 PDF 转换为Python来自convert_from_pathpdf2image的图像。

这是原始 PDF: PDF格式

这是生成的图像: 图片

如您所见,这里的问题是图像中的字体不是好的字体,并且缺少一些文本(底部的地址)。所以 :

  • 为什么我的文字被裁剪?
  • 如何将字体添加到pdf2library

编辑:链接到 PDF(将其下载到您的计算机以查看正确的字体Mistral

4

1 回答 1

1

打开文件时,外观应如下所示,其中未突出显示字段。有一些文本" "和字段似乎正在深入挖掘,需要在视觉上进行更改NeedAppearances true

在此处输入图像描述

而其他人可能会尝试在字段位置放置一些东西,并与多行输入作斗争,因为这对于单行打印机文本块是常态的 PDF 来说是不正常的行为。一个很好的简单字体测试,在 MS Edge 中用于放置良好的字体,可以选择并大声读出吗?这不是这里的情况,所以插入的文本有问题。后来我们看到它们是 FDF(即纯文本)条目。

在此处输入图像描述

使用非 14base 字体时,必须将它们完全嵌入或更差的子集,但在这两种情况下,字体许可证都可能受到限制,这也应该被检查 :-) 双关语。

字体可能没有很好地嵌入,因此一些查看者可能会看到除了 之外没有可搜索的内容 ,但是文件显示使用的基本字体是BaseFont/BCDEEE+Calibri& FontName/BCDEEE+Calibri(大概对于所有那些空白文本)这包括嵌入在字体中的使用许可,© 2018 Microsoft ... 为 ... 圣经希伯来语 ... 是 MIT 许可下的开源软件 ... 您可以使用此字体创建 ... Microsoft ... 内容 ... 禁止任何其他用途。 Producer(DocHub v5.0.7, build 9d3cd43)(来自 MS Office 365)。

与字段有关的另一种字体/Font << /FThcmByOND后来/BaseFont/Helvetica被认为是打算与自调整字段一起使用的字体。并且 Adob​​e 还报告说有一个 MyriadPro-Regular 嵌入某处作为开放类型(我无法轻易看到该许可证,因此可能被排除或编码)

但是,如果 Xchange 编辑器窗口中没有应用嵌入的字符,则 Windows 上的字体很可能默认为 Arial。

从内部看,我们可以看到左侧的所有文本都被描述为“”,因此没有显示任何内容,虽然文件声明它可以整体使用 Calibri,但这里的字体名称默认为不可见的 Arial。

因此,许多行为冲突导致没有字体被认为是可用的。可见文本来自表单字段,根据这些字段的定义方式,需要更改其外观,这在某些查看器中是不允许的,因此初始空白检查条目。

在此处输入图像描述

于 2022-02-03T14:28:08.583 回答