“uima”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

1108 浏览

annotations - 如何在 GATE 中存储和比较注释（使用黄金标准）

我对UIMA很满意，但我的新工作要求我使用GATE

于是，我开始学习 GATE。我的问题是关于如何计算我的标记引擎（基于java）的性能。

使用 UIMA，我通常将所有系统注释转储到 xmi 文件中，然后使用 Java 代码将其与人工注释（黄金标准）注释进行比较，以计算 Precision/Recall 和 F-score。

但是，我仍然在努力寻找与 GATE 类似的东西。在浏览了该页面上的 Gate Annotation-Diff和其他信息之后，我觉得必须有一种简单的方法可以在 JAVA 中完成。但是，我无法弄清楚如何使用 JAVA 来做到这一点。想把这个问题放在这里，可能有人已经想通了。

如何以编程方式将系统注释存储到 xmi 或任何格式文件中。
如何创建一次性黄金标准数据（即人工注释数据）用于性能计算。

如果您需要更具体或更详细的信息，请告诉我。

2013-08-22T21:39:23.887

0 投票

1 回答

2351 浏览

lucene - 自然语言处理工具的比较（UIMA、LingPipe、Lucene、Gate、Stanford）

我想选择一种自然语言处理工具来完成常见的任务，例如标记化、句子检测、各种标记（名称实体识别、POS 标记……）。我的问题有两个部分：

选择自然语言处理工具的标准是什么？
在（UIMA、LingPipe、Lucene、Gate、Stanford）中，哪一个更符合这些标准？

你的建议是什么？

lucene stanford-nlp gate uima

2013-09-18T09:13:03.320

0 投票

1 回答

263 浏览

apache - 如何使用 apache UIMA 音频注释器

任何人都可以为 apache UIMA 提供音频到文本注释器的文档。我真的很困惑。我是 UIMA 的初学者。

apache uima

2013-10-15T12:38:12.400

0 投票

2 回答

3845 浏览

java - 使用 cTAKES 解析临床文档

我试图弄清楚如何从 Java 运行临床文档管道。我有一组纯文本的临床文件。我想解析这些文档并提取文档 doc_ID 中的列表，有频率为 freq 的 CUI。我花了几天时间安装 cTAKES 并寻找解决方案。我将其缩小到 ClinicalPipelineWithUmls.java，在其中进行测试并使用 AnaylisisEngineDescription 运行 SimplePipeline。这是代码的一部分：

问题是它找不到“InputStreamCollectionReader”。我搜索了它，但到目前为止没有成功！请您给我一个提示或指示一些方向吗？谢谢你的帮助！

java uima ctakes

2013-10-21T20:53:34.303

0 投票

1 回答

4725 浏览

java - 如何从 UIMA 和简单的 NLP 任务开始？

我最近发现了 UIMA ( http://uima.apache.org/ )。它看起来很有希望用于简单的 NLP 任务，例如标记化、句子分割、词性标记等。

我已经设法获得了一个已配置的最小 Java 示例，该示例使用 OpenNLP 组件作为其管道。

代码如下所示：

摘自 OpenNlpTextAnalyzer.xml：

java 代码产生如下输出：

我试图从 toString() 方法使用的每个 Annotation 对象中获取相同的信息。我已经查看了 UIMA 的源代码以了解这些值的来源。我试图检索它们的工作，但它们在任何方面都不聪明。

我正在努力寻找从 JCas 对象中提取信息的简单示例。

我正在寻找一种方法来获取例如由我的 PosTagger 或 SentenceSplitter 生成的所有注释以供进一步使用。

我猜

是获取值的开始，但由于 UIMA 拥有原始类型的类，即使是注解类中的 toString 方法的源代码读起来也像是一记耳光。

我在哪里可以找到使用基本 UIMA 东西的 java 代码，哪里有好的教程（框架本身的 javadoc 除外）？

java nlp uima

2013-11-07T15:58:06.520

0 投票

1 回答

975 浏览

java - 如何从 uima-ruta 脚本创建 AnalysisEngineDescriptor 以在 SimplePipeline 中使用

我无法在我的简单管道中运行 uima ruta 脚本。我正在使用下一个库：

Uimafit 2.0.0
Uima-ruta 2.0.1
清除TK 1.4.1
马文

我正在使用一个org.apache.uima.fit.pipeline.SimplePipeline：

我要做的是使用 StandfordNLP 注释器（来自 ClearTK）并应用 ruta 脚本。目前，一切运行都没有错误，并且默认的 ruta 注释被添加到 CAS，但我的规则创建的注释没有被添加到 CAS。

我的脚本是：

查看带注释的文件：在此处输入图像描述

诸如“SPACE”或“SW”之类的基本 ruta 注释在那里，因此正在创建 RutaEngine 并将其添加到管道中......

如何正确创建 AnalysisEngineDescriptor 来运行 Ruta 脚本？

注意： RUTA_ANALYSIS_ENGINE它是我从 RUTA 工作台复制的引擎描述符。

java maven uima ruta

2013-12-01T18:49:37.370

0 投票

1 回答

222 浏览

java - Apache UIMA 解析多语言内容

我正在尝试解析韩语、中文等非英语语言的内容。UIMA 是否有任何内置支持。我无法在 Apache UIMA 门户中获得太多关于此的信息。我所能想到的只是想出 unicode 正则表达式模式，但即使是那些出于某种原因似乎也不起作用。我的具有 unicode 字符的正则表达式模式没有注释我需要的单词。

我正在使用JDK1.7，UIMA 2.4.2。

非常感谢任何帮助或建议。

下面是我正在尝试的示例

文本：Numéro de réservation 445566553 代码[此文本位于我正在使用 FileSystemCollectionReader 读取的文件中，并且我已将编码设置为 UTF-8]

我的正则表达式 (?<=Num\u00E9ro\sde\sr\u00E9servation\s)(.*?)(?=\sCode)

预期输出：445566553

java regex unicode multilingual uima

2013-12-12T09:42:26.887

0 投票

1 回答

225 浏览

uima - 是否可以使用 UIMA 创建注释层次结构？

我希望能够从不同的注释类型中获得一个共同的特征。是否可以创建注释的子类，然后通过超类获取它们？

这是我目前正在这样做的方式，但我希望能够获得一个通用的超类注释而不是一个特定的注释。

uima

2013-12-23T10:42:27.763

0 投票

3 回答

959 浏览

java - 如何删除 UIMA 注释？

我在管道中使用了一些 UIMA 注释器。它运行以下任务：

分词器
分句器
公报员
我的注释器

问题是我不想将所有注释（令牌、句子、子令牌、时间、myAnnotations 等）写入磁盘，因为文件很快就会变得非常大。

我想删除所有注释并仅保留My Annotator创建的注释。

我正在使用下一个库：

uimaFIT 2.0.0
清除TK 1.4.1
马文

我正在使用一个org.apache.uima.fit.pipeline.SimplePipeline：

我要做的是使用 Standford NLP 注释器（来自 ClearTK）并删除无用的注释。

我该怎么做呢？

据我所知，您可以将removeFromIndexes();方法 from 与 Annotation 实例一起使用。

我是否需要创建 UIMA 处理器并将其添加到我的管道中？

java nlp uima

2013-12-30T17:14:15.103

0 投票

1 回答

676 浏览

java - UIMA 注释功能是否有通用类型？

是否存在类似于ObjectJava 中的泛型类型，允许为其设置不同类型的值？

我尝试将以下内容放入<rangeTypeName>：

java.lang.Object和Object这不起作用，我在尝试使用 JCasGen 生成代码时收到以下消息：

JCasGen 警告：**实例化 CAS 类型系统时发生资源初始化错误。继续，但可能生成不正确。由“未定义类型“对象”引起，在类型“com.example.Annotation”上声明的特征“exampleFeature”中引用。
uima.cas.TOP这会生成代码，但是当我尝试setExampleField()通过传递它来调用该方法时会出现错误，int或者String因为它无法将它们转换为 TOP 类型。

java uima

2014-01-02T17:30:52.150

问题标签 [uima]

Reference