问题标签 [uima]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
uima - 跟踪地址所需的 Apache UIMA 注释
我们有一个要求,我们需要使用 Apache UIMA 跟踪非结构化文档中的“地址”数据。地址可以来自任何地理位置。英国地理的一些示例地址如下.. 190 Stanley road Llanddoged Conwy LL26 6CM 227,Sankey street,Bourne,Lincolnshire,PE10 1LW
如果您可以共享可能的注释以从非结构化文档中识别地址数据,这将很有帮助。
nlp - UIMA 是只提供一个包装器还是像 StandfordCore NLP 和 GATE 一样?
Standford Core NLP 和 GATE 提供了各种 NLP 操作,如 NER、POS 标记。有一些 NLP 操作,如 Tokenizer、Snowball Stemmer,可作为 UIMA 组件使用。那么,UIMA 是否可以与 StandfordCore NLP/GATE 相媲美,还是用于为管道包装此类 API?
uima - UIMA Ruta 单词表大小写忽略
我的用例是这样的,我在 WORDLIST“MonthNames.txt”中有一个匹配词列表。
现在我想在给定文档中标记这些单词的所有出现,而不管文本大小写。
有什么办法吗?
我试过了
但这只是忽略空格而不是文本大小写。
请帮忙
solr - 让 solr 看懂英语
我正在尝试设置应该理解英语的 solr。例如,我已经索引了我们公司的网站 (www.biginfolabs.com),或者它可以是任何其他网站或我们自己的数据。
如果我提出一些类似英语的查询,我应该得到谷歌所做的一个词的答案;查询是:
- 印度位于哪里。
- 谁是奥巴马的父亲。
解决方法:
- 集成 UIMA、Mahout 和 solr(人名、城市名提取完成)。
- 我阅读了名为“Taming Text”的书并实现了https://github.com/tamingtext/book。但没有得到我想要的。
谁能告诉我如何进一步移动。它可以是我们团队准备做的任何事情。
uima - 我应该如何使用 UIMA Ruta 来匹配换行符之间的所有单词?
感谢任何强有力的手!
我有一些类似以下的文字
我想使用 Ruta 创建与换行符之间的所有字符串匹配的注释。我希望我的注释创建以下三个匹配项:
我尝试匹配换行符之间的所有内容,如下所示
但没有运气。有人可以提出一些建议吗?
非常感谢你!
uima - 使用 UIMA 提取带有 CD 标记的令牌
我写了一个注释器,可以提取所有带有 CD 标记的令牌,代码如下所示
}
但是当我试图在管道中创建一个迭代器时,迭代器返回 null。这是我的管道的外观。
我使用 JCasGen 生成了 WeightAnnotator 和 WeightAnnotator_Type。我调试了整个代码,但我不明白我在哪里弄错了。任何关于如何改进这一点的想法都值得赞赏。
uima - CAS 消费者未按预期工作
我有一个 CAS 消费者 AE,预计它会遍历管道中的 CAS 对象,序列化它们并将序列化的 CAS 添加到 xml 文件中。公共类 DataWriter 扩展 JCasConsumer_ImplBase {
在我的所有注释器之后,我在管道中使用它,但它无法读取 CAS 对象(我在 jCas.getCas() 处收到 NullPointerException)。看起来我似乎不了解 CAS 消费者的正确用法。我很感激任何建议。
uima - UIMA Ruta 创建带有由一些文本分隔的特征的注释
我有一些带有注释的文本,如下所示:
我想用 AnnotationA 及其最接近的 AnnotationB 作为特征创建一个注释。我应该如何用 Ruta 来表达这个?
我尝试了以下不正确的方法:
该规则涵盖整个文档。我只想要以 AnnotationA 及其最接近的 AnnotationB 作为特征的注释。非常感谢您的任何回答。
uima - XmiCasDeserializer 未按预期工作
我有一个序列化为 xmi 文件的 CAS,当我尝试反序列化 xmi 文件时,输出是 xml 文件应该的纯文本。这就是我正在做的,
我在哪里弄错了?
uima - 将特征值设置为 UIMA Ruta 中包含注释的计数
我有一个 RUTA 脚本,其中所有句子都用句子注释进行了注释,并且各种单词和短语都用它们自己的特定注释进行了注释。这一切都按预期工作。
这些注释中的每一个都具有包含它的句子索引的特征。所以在一个人为的例子中并给出文本
杰克和吉尔上了山。杰克摔倒了。
我有一个“向下”注释,我想将句子索引设置为 2,表示它在第二个句子中。我在想类似下面的事情,虽然我知道那是不正确的。
其中 index 是句子的索引。使用 RUTA 可以做到这一点吗?如果是这样,什么是合适的脚本。我可以在一个单独的分析引擎中执行此操作,并且过去已经这样做了,但我希望用 ruta 脚本替换其中的一些。
谢谢,
缺口