问题标签 [uima]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1108 浏览

annotations - 如何在 GATE 中存储和比较注释(使用黄金标准)

我对UIMA很满意,但我的新工作要求我使用GATE

于是,我开始学习 GATE。我的问题是关于如何计算我的标记引擎(基于java)的性能。

使用 UIMA,我通常将所有系统注释转储到 xmi 文件中,然后使用 Java 代码将其与人工注释(黄金标准)注释进行比较,以计算 Precision/Recall 和 F-score。

但是,我仍然在努力寻找与 GATE 类似的东西。在浏览了该页面上的 Gate Annotation-Diff和其他信息之后,我觉得必须有一种简单的方法可以在 JAVA 中完成。但是,我无法弄清楚如何使用 JAVA 来做到这一点。想把这个问题放在这里,可能有人已经想通了。

  1. 如何以编程方式将系统注释存储到 xmi 或任何格式文件中。
  2. 如何创建一次性黄金标准数据(即人工注释数据)用于性能计算。

如果您需要更具体或更详细的信息,请告诉我。

0 投票
1 回答
2351 浏览

lucene - 自然语言处理工具的比较(UIMA、LingPipe、Lucene、Gate、Stanford)

我想选择一种自然语言处理工具来完成常见的任务,例如标记化、句子检测、各种标记(名称实体识别、POS 标记……)。我的问题有两个部分:

  1. 选择自然语言处理工具的标准是什么?
  2. 在(UIMA、LingPipe、Lucene、Gate、Stanford)中,哪一个更符合这些标准?

你的建议是什么?

0 投票
1 回答
263 浏览

apache - 如何使用 apache UIMA 音频注释器

任何人都可以为 apache UIMA 提供音频到文本注释器的文档。我真的很困惑。我是 UIMA 的初学者。

0 投票
2 回答
3845 浏览

java - 使用 cTAKES 解析临床文档

我试图弄清楚如何从 Java 运行临床文档管道。我有一组纯文本的临床文件。我想解析这些文档并提取文档 doc_ID 中的列表,有频率为 freq 的 CUI。我花了几天时间安装 cTAKES 并寻找解决方案。我将其缩小到 ClinicalPipelineWithUmls.java,在其中进行测试并使用 AnaylisisEngineDescription 运行 SimplePipeline。这是代码的一部分:

问题是它找不到“InputStreamCollectionReader”。我搜索了它,但到目前为止没有成功!请您给我一个提示或指示一些方向吗?谢谢你的帮助!

0 投票
1 回答
4725 浏览

java - 如何从 UIMA 和简单的 NLP 任务开始?

我最近发现了 UIMA ( http://uima.apache.org/ )。它看起来很有希望用于简单的 NLP 任务,例如标记化、句子分割、词性标记等。

我已经设法获得了一个已配置的最小 Java 示例,该示例使用 OpenNLP 组件作为其管道。

代码如下所示:

摘自 OpenNlpTextAnalyzer.xml:

java 代码产生如下输出:

我试图从 toString() 方法使用的每个 Annotation 对象中获取相同的信息。我已经查看了 UIMA 的源代码以了解这些值的来源。我试图检索它们的工作,但它们在任何方面都不聪明。

我正在努力寻找从 JCas 对象中提取信息的简单示例。

我正在寻找一种方法来获取例如由我的 PosTagger 或 SentenceSplitter 生成的所有注释以供进一步使用。

我猜

是获取值的开始,但由于 UIMA 拥有原始类型的类,即使是注解类中的 toString 方法的源代码读起来也像是一记耳光。

我在哪里可以找到使用基本 UIMA 东西的 java 代码,哪里有好的教程(框架本身的 javadoc 除外)?

0 投票
1 回答
975 浏览

java - 如何从 uima-ruta 脚本创建 AnalysisEngineDescriptor 以在 SimplePipeline 中使用

我无法在我的简单管道中运行 uima ruta 脚本。我正在使用下一个库:

  1. Uimafit 2.0.0
  2. Uima-ruta 2.0.1
  3. 清除TK 1.4.1
  4. 马文

我正在使用一个org.apache.uima.fit.pipeline.SimplePipeline

我要做的是使用 StandfordNLP 注释器(来自 ClearTK)并应用 ruta 脚本。目前,一切运行都没有错误,并且默认的 ruta 注释被添加到 CAS,但我的规则创建的注释没有被添加到 CAS。

我的脚本是:

查看带注释的文件: 在此处输入图像描述

诸如“SPACE”或“SW”之类的基本 ruta 注释在那里,因此正在创建 RutaEngine 并将其添加到管道中......

如何正确创建 AnalysisEngineDescriptor 来运行 Ruta 脚本?

注意: RUTA_ANALYSIS_ENGINE它是我从 RUTA 工作台复制的引擎描述符。

0 投票
1 回答
222 浏览

java - Apache UIMA 解析多语言内容

我正在尝试解析韩语、中文等非英语语言的内容。UIMA 是否有任何内置支持。我无法在 Apache UIMA 门户中获得太多关于此的信息。我所能想到的只是想出 unicode 正则表达式模式,但即使是那些出于某种原因似乎也不起作用。我的具有 unicode 字符的正则表达式模式没有注释我需要的单词。

我正在使用JDK1.7UIMA 2.4.2。

非常感谢任何帮助或建议。

下面是我正在尝试的示例

文本:Numéro de réservation 445566553 代码[此文本位于我正在使用 FileSystemCollectionReader 读取的文件中,并且我已将编码设置为 UTF-8]

我的正则表达式 (?<=Num\u00E9ro\sde\sr\u00E9servation\s)(.*?)(?=\sCode)

预期输出:445566553

0 投票
1 回答
225 浏览

uima - 是否可以使用 UIMA 创建注释层次结构?

我希望能够从不同的注释类型中获得一个共同的特征。是否可以创建注释的子类,然后通过超类获取它们?

这是我目前正在这样做的方式,但我希望能够获得一个通用的超类注释而不是一个特定的注释。

0 投票
3 回答
959 浏览

java - 如何删除 UIMA 注释?

我在管道中使用了一些 UIMA 注释器。它运行以下任务:

  • 分词器
  • 分句器
  • 公报员
  • 我的注释器

问题是我不想将所有注释(令牌、句子、子令牌、时间、myAnnotations 等)写入磁盘,因为文件很快就会变得非常大。

我想删除所有注释并仅保留My Annotator创建的注释。

我正在使用下一个库:

  1. uimaFIT 2.0.0
  2. 清除TK 1.4.1
  3. 马文

我正在使用一个org.apache.uima.fit.pipeline.SimplePipeline

我要做的是使用 Standford NLP 注释器(来自 ClearTK)并删除无用的注释。

我该怎么做呢?

据我所知,您可以将removeFromIndexes();方法 from 与 A​​nnotation 实例一起使用。

我是否需要创建 UIMA 处理器并将其添加到我的管道中?

0 投票
1 回答
676 浏览

java - UIMA 注释功能是否有通用类型?

是否存在类似于ObjectJava 中的泛型类型,允许为其设置不同类型的值?

我尝试将以下内容放入<rangeTypeName>

  • java.lang.ObjectObject这不起作用,我在尝试使用 JCasGen 生成代码时收到以下消息:

    JCasGen 警告:**实例化 CAS 类型系统时发生资源初始​​化错误。继续,但可能生成不正确。由“未定义类型“对象”引起,在类型“com.example.Annotation”上声明的特征“exampleFeature”中引用。

  • uima.cas.TOP这会生成代码,但是当我尝试setExampleField()通过传递它来调用该方法时会出现错误,int或者String因为它无法将它们转换为 TOP 类型。