uima - 跟踪地址所需的 Apache UIMA 注释

Question

我们有一个要求，我们需要使用 Apache UIMA 跟踪非结构化文档中的“地址”数据。地址可以来自任何地理位置。英国地理的一些示例地址如下.. 190 Stanley road Llanddoged Conwy LL26 6CM 227,Sankey street,Bourne,Lincolnshire,PE10 1LW

如果您可以共享可能的注释以从非结构化文档中识别地址数据，这将很有帮助。

score 1 · Accepted Answer

有两种方法（示例参考 UIMA 特定的工具）：

手动指定提取规则，例如，使用UIMA Ruta、zanzibar、UIMA Regex，...
注释足够多的示例并训练模型，例如，使用ClearTK、OpenNLP ……

哪种方法最适合您取决于您的要求。许多人认为统计模型通常优于基于规则的方法。但是，有时编写一些规则比注释足够多的示例要快。

（我是 UIMA Ruta 的开发者）

score 1 · Accepted Answer

我建议您使用RUTA 工作台编写规则来提取地址。它会真正加快和简化您使用 UIMA 的工作。

uima - 跟踪地址所需的 Apache UIMA 注释

2 回答 2

Related

Reference