1

我有一堆 PDF,它们是公司的财务报告。这些财务报告采用表格形式,但大小、形状和格式各不相同。我想提取流动资产、负债和权益等信息并将它们保存在数据库中。

UIMA 可以允许我这样做吗?

我的计划是使用 Tika 将 PDF 转换为文本,然后使用 UIMA 对这些文本进行注释,并像 Current Asset、Current Liability 对这些注释进行索引。

谢谢你的手。

4

1 回答 1

3

是的,这是 UIMA 的一个非常好的用例。几点建议:

  • DKPro Core 已经有一个使用PDFbox的PDF 阅读器
  • 如果 PDFbox 不符合您的要求,我发现PdfTextStream给出了很好的结果
  • 你应该看看RUTA 工作台来编写规则来提取信息。它会真正加快和简化您使用 UIMA 的工作。
于 2014-06-05T08:24:36.317 回答