我们有一个要求,我们需要使用 Apache UIMA 跟踪非结构化文档中的“地址”数据。地址可以来自任何地理位置。英国地理的一些示例地址如下.. 190 Stanley road Llanddoged Conwy LL26 6CM 227,Sankey street,Bourne,Lincolnshire,PE10 1LW
如果您可以共享可能的注释以从非结构化文档中识别地址数据,这将很有帮助。
我们有一个要求,我们需要使用 Apache UIMA 跟踪非结构化文档中的“地址”数据。地址可以来自任何地理位置。英国地理的一些示例地址如下.. 190 Stanley road Llanddoged Conwy LL26 6CM 227,Sankey street,Bourne,Lincolnshire,PE10 1LW
如果您可以共享可能的注释以从非结构化文档中识别地址数据,这将很有帮助。
有两种方法(示例参考 UIMA 特定的工具):
哪种方法最适合您取决于您的要求。许多人认为统计模型通常优于基于规则的方法。但是,有时编写一些规则比注释足够多的示例要快。
(我是 UIMA Ruta 的开发者)
我建议您使用RUTA 工作台编写规则来提取地址。它会真正加快和简化您使用 UIMA 的工作。