问题标签 [uima]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
168 浏览

uima - 跟踪地址所需的 Apache UIMA 注释

我们有一个要求,我们需要使用 Apache UIMA 跟踪非结构化文档中的“地址”数据。地址可以来自任何地理位置。英国地理的一些示例地址如下.. 190 Stanley road Llanddoged Conwy LL26 6CM 227,Sankey street,Bourne,Lincolnshire,PE10 1LW

如果您可以共享可能的注释以从非结构化文档中识别地址数据,这将很有帮助。

0 投票
1 回答
980 浏览

nlp - UIMA 是只提供一个包装器还是像 StandfordCore NLP 和 GATE 一样?

Standford Core NLP 和 GATE 提供了各种 NLP 操作,如 NER、POS 标记。有一些 NLP 操作,如 Tokenizer、Snowball Stemmer,可作为 UIMA 组件使用。那么,UIMA 是否可以与 StandfordCore NLP/GATE 相媲美,还是用于为管道包装此类 API?

0 投票
1 回答
372 浏览

uima - UIMA Ruta 单词表大小写忽略

我的用例是这样的,我在 WORDLIST“MonthNames.txt”中有一个匹配词列表。

现在我想在给定文档中标记这些单词的所有出现,而不管文本大小写。

有什么办法吗?

我试过了

但这只是忽略空格而不是文本大小写。

请帮忙

0 投票
1 回答
50 浏览

solr - 让 solr 看懂英语

我正在尝试设置应该理解英语的 solr。例如,我已经索引了我们公司的网站 (www.biginfolabs.com),或者它可以是任何其他网站或我们自己的数据。

如果我提出一些类似英语的查询,我应该得到谷歌所做的一个词的答案;查询是:

  • 印度位于哪里。
  • 谁是奥巴马的父亲。

解决方法:

  • 集成 UIMA、Mahout 和 solr(人名、城市名提取完成)。
  • 我阅读了名为“Taming Text”的书并实现了https://github.com/tamingtext/book。但没有得到我想要的。

谁能告诉我如何进一步移动。它可以是我们团队准备做的任何事情。

0 投票
1 回答
778 浏览

uima - 我应该如何使用 UIMA Ruta 来匹配换行符之间的所有单词?

感谢任何强有力的手!

我有一些类似以下的文字

我想使用 Ruta 创建与换行符之间的所有字符串匹配的注释。我希望我的注释创建以下三个匹配项:

我尝试匹配换行符之间的所有内容,如下所示

但没有运气。有人可以提出一些建议吗?

非常感谢你!

0 投票
0 回答
87 浏览

uima - 使用 UIMA 提取带有 CD 标记的令牌

我写了一个注释器,可以提取所有带有 CD 标记的令牌,代码如下所示

}

但是当我试图在管道中创建一个迭代器时,迭代器返回 null。这是我的管道的外观。

我使用 JCasGen 生成了 WeightAnnotator 和 WeightAnnotator_Type。我调试了整个代码,但我不明白我在哪里弄错了。任何关于如何改进这一点的想法都值得赞赏。

0 投票
0 回答
135 浏览

uima - CAS 消费者未按预期工作

我有一个 CAS 消费者 AE,预计它会遍历管道中的 CAS 对象,序列化它们并将序列化的 CAS 添加到 xml 文件中。公共类 DataWriter 扩展 JCasConsumer_ImplBase {

在我的所有注释器之后,我在管道中使用它,但它无法读取 CAS 对象(我在 jCas.getCas() 处收到 NullPointerException)。看起来我似乎不了解 CAS 消费者的正确用法。我很感激任何建议。

0 投票
1 回答
397 浏览

uima - UIMA Ruta 创建带有由一些文本分隔的特征的注释

我有一些带有注释的文本,如下所示:

我想用 AnnotationA 及其最接近的 AnnotationB 作为特征创建一个注释。我应该如何用 Ruta 来表达这个?

我尝试了以下不正确的方法:

该规则涵盖整个文档。我只想要以 AnnotationA 及其最接近的 AnnotationB 作为特征的注释。非常感谢您的任何回答。

0 投票
1 回答
234 浏览

uima - XmiCasDeserializer 未按预期工作

我有一个序列化为 xmi 文件的 CAS,当我尝试反序列化 xmi 文件时,输出是 xml 文件应该的纯文本。这就是我正在做的,

我在哪里弄错了?

0 投票
1 回答
506 浏览

uima - 将特征值设置为 UIMA Ruta 中包含注释的计数

我有一个 RUTA 脚本,其中所有句子都用句子注释进行了注释,并且各种单词和短语都用它们自己的特定注释进行了注释。这一切都按预期工作。

这些注释中的每一个都具有包含它的句子索引的特征。所以在一个人为的例子中并给出文本

杰克和吉尔上了山。杰克摔倒了。

我有一个“向下”注释,我想将句子索引设置为 2,表示它在第二个句子中。我在想类似下面的事情,虽然我知道那是不正确的。

其中 index 是句子的索引。使用 RUTA 可以做到这一点吗?如果是这样,什么是合适的脚本。我可以在一个单独的分析引擎中执行此操作,并且过去已经这样做了,但我希望用 ruta 脚本替换其中的一些。

谢谢,

缺口