问题标签 [uima]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
279 浏览

java - 结构化数据的 UIMA

我是 UIMA 的新手...

我想连接到数据库,提取数据并使用 UIMA 正则表达式注释器对其进行处理并写回数据库。

示例:
表:emp

使用 UIMA 正则表达式注释器进行转换

期望的输出

我已经安装了 UIMA、ECLIPSE 和相关的 JDBC 驱动程序来连接数据库。

提前致谢

0 投票
0 回答
423 浏览

java - 基于 uimaFIT 代码的字典示例

我正在查看uimaFIT ,但在将Dictionary Annotator添加到分析引擎时遇到了一些困难。

这是我迄今为止最好的关闭:

我正在执行这样的引擎:

没有更优雅的方式吗?不喜欢初始化。期望用注释初始化字典作为@ExternalResource.

如果有人能给我提供一个更简单的例子,我会很高兴。谢谢!

0 投票
1 回答
517 浏览

uima - 如何匹配 UIMA Ruta 中的特定令牌?

我用 GATHER 做过

但是如果是 A 类型的未知序列呢?如下所示,如何将所有 A 存储在特征中?特征的数量也是未知的。在plan java中,我们声明String数组并可以添加元素,但在Ruta中似乎没有这样的过程。

0 投票
1 回答
240 浏览

java - 在“概念验证模式”中使用 Apache UIMA ConceptMapper

我正在尝试使用 UIMA ConceptMapper 从文本文档中提取一些关键概念和其他有趣的元数据。由于项目的时间限制以及我不确定 UIMA ConceptMapper 是否可以在这种情况下工作的事实,有没有人知道使用 ConceptMapper 创建基本程序的任何快速方法?也就是说,我可以不用写就可以快速进行概念验证吗:

  • 分析引擎描述符
  • 不同的结构、接口等
  • 其他各种元数据

只是为了看看它可以从单个文档中注释什么?显然,如果它在概念验证级别上起作用,那么长期计划就是让所有这些结构都到位......

0 投票
1 回答
305 浏览

uima - Cleartk - Mallet Classifier 在 0 个实例上训练,尽管有数据

我正在使用 Cleartk (V. 2.0) 简单管道为 CAS 中的单个句子开发二进制分类器。然而,即使生成了训练数据,分类器也不会在训练期间拾取它,见下文。

我正在处理这个例子,特别是这个代码片段:

所以我的初始化代码如下所示:

当我运行我的管道时,数据被创建并存储到target/classifier-data/training-data.malletcrf中,其中每一行都是一个特征向量,其中各个条目的格式<featurename>_<value>和我的布尔目标属性。我可以在文本编辑器中打开它并查看它。

我正在使用字符串结果分类器,因为我的目标变量注释器继承自CleartkSequenceAnnotator并且,正如我从对 Cleartk 列表的先前答案所了解的那样,似乎没有一个布尔分类器能够处理每个 CAS 的多个分类任务。

我粗略的分类器代码:

这是管道代码:

当我运行管道时,即使已经写入了训练数据,我也会得到以下控制台输出:

...这向我表明,分类器以某种方式没有从文件中提取训练数据。

我究竟做错了什么?提前致谢!

0 投票
0 回答
154 浏览

uima - UIMA Ruta:不能使用 MarkTable 忽略句点

如果我有一本包含各种首字母缩写词和名称的字典,理想情况下,我希望能够避免每个“USA”、“USA”和“usa”都有条目。我可以毫不费力地忽略大小写,但忽略字符的论点似乎并不能全面发挥作用。在适当的导入和声明语句之后,我得到如下内容:

Document{->MARKTABLE(Acroynm,1,AcronymDict,true,0,".,-",10,"expandedForm"=2)};

它成功地忽略了一组 1-10 个连字符。它不会忽略整个单词中间隔的 10 个连字符。(它会忽略 a-bc 和 a--bc 但不会忽略 abc。)这对于连字符来说实际上很好,但我不能用上面的语句让它完全忽略句点。(它既不忽略 a.bc 也不忽略 abc)此外,如果我可以让它忽略句点,有什么方法可以忽略 ABC 中的句点而不仅仅是 A.BC 中的句点?

对这一论点的限制的任何进一步描述都是有用的。谢谢。

相关 Ruta 文档:https ://uima.apache.org/d/ruta-current/tools.ruta.book.html#ugr.tools.ruta.language.actions.marktable

0 投票
1 回答
2082 浏览

hadoop - 引起:java.lang.ClassCastException:org.apache.hadoop.io.LongWritable 不能转换为 org.apache.hadoop.io.Text

我正在尝试编译以下 github 项目https://github.com/DigitalPebble/behemoth/tree/master/uima

我收到以下错误 java.lang.ClassCastException: org.apache.hadoop.io.LongWritable cannot be cast to org.apache.hadoop.io.Text

代码定义了以下输出键和值类。其中 BehemothDocument 是定义的自定义类

地图类如下所示

和地图功能如下

对于上述堆栈溢出错误,我已经看到了几个答案,它们要求更改 Mapper 键,我不想做的值类型。我想知道如何使用自定义类。

请对此提供帮助。以下是堆栈跟踪信息

0 投票
1 回答
59 浏览

uima - UIMA pos tagger 无效输出

我给 UIMA 标注器提供了两个输入。1) 约翰今天很开心。2) 约翰今天很开心。

在这种情况下 1) 每件事都变成了一个名称,而在第二个情况下,一切都不是一个名称。有人可以帮助我吗?

0 投票
0 回答
636 浏览

java - 安装 apache UIMA 时找不到合适的 JVM

我正在尝试配置 apache UIMA 以下 -链接

我尝试使用 1.4.5 和 1.4.4 两个下载器 -链接

但是当我尝试执行 bin 文件时,它给出了:

我已经安装了jdk6,7

我尝试了两者,但仍然没有帮助。

环境变量已经设置:

我正在使用 ubuntu 操作系统。

更新 1:

0 投票
1 回答
159 浏览

java - 通过考虑导入依赖来运行java程序

我在该位置有java文件。

该文件是整个项目的一部分 - FocusGenerator.java

它正在从 UIMA 和其他几个包中导入几个类。(我已经在我的系统上配置了 UIMA)

在按照自述文件执行整个项目时,它运行良好。但我想测试每个单独的程序,就像上面提到的那样。当我尝试使用javac它进行编译时,会出现错误,cannot find symbol如下所示

等等。

执行此文件的正确方法是什么。我尝试将它导入到 Eclipse 中,但在 Eclipse 中它也无法作为项目导入。