我正在尝试解析韩语、中文等非英语语言的内容。UIMA 是否有任何内置支持。我无法在 Apache UIMA 门户中获得太多关于此的信息。我所能想到的只是想出 unicode 正则表达式模式,但即使是那些出于某种原因似乎也不起作用。我的具有 unicode 字符的正则表达式模式没有注释我需要的单词。
我正在使用JDK1.7,UIMA 2.4.2。
非常感谢任何帮助或建议。
下面是我正在尝试的示例
文本:Numéro de réservation 445566553 代码[此文本位于我正在使用 FileSystemCollectionReader 读取的文件中,并且我已将编码设置为 UTF-8]
我的正则表达式 (?<=Num\u00E9ro\sde\sr\u00E9servation\s)(.*?)(?=\sCode)
预期输出:445566553