问题标签 [uima]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
annotations - 如何在 GATE 中存储和比较注释(使用黄金标准)
于是,我开始学习 GATE。我的问题是关于如何计算我的标记引擎(基于java)的性能。
使用 UIMA,我通常将所有系统注释转储到 xmi 文件中,然后使用 Java 代码将其与人工注释(黄金标准)注释进行比较,以计算 Precision/Recall 和 F-score。
但是,我仍然在努力寻找与 GATE 类似的东西。在浏览了该页面上的 Gate Annotation-Diff和其他信息之后,我觉得必须有一种简单的方法可以在 JAVA 中完成。但是,我无法弄清楚如何使用 JAVA 来做到这一点。想把这个问题放在这里,可能有人已经想通了。
- 如何以编程方式将系统注释存储到 xmi 或任何格式文件中。
- 如何创建一次性黄金标准数据(即人工注释数据)用于性能计算。
如果您需要更具体或更详细的信息,请告诉我。
lucene - 自然语言处理工具的比较(UIMA、LingPipe、Lucene、Gate、Stanford)
我想选择一种自然语言处理工具来完成常见的任务,例如标记化、句子检测、各种标记(名称实体识别、POS 标记……)。我的问题有两个部分:
- 选择自然语言处理工具的标准是什么?
- 在(UIMA、LingPipe、Lucene、Gate、Stanford)中,哪一个更符合这些标准?
你的建议是什么?
apache - 如何使用 apache UIMA 音频注释器
任何人都可以为 apache UIMA 提供音频到文本注释器的文档。我真的很困惑。我是 UIMA 的初学者。
java - 使用 cTAKES 解析临床文档
我试图弄清楚如何从 Java 运行临床文档管道。我有一组纯文本的临床文件。我想解析这些文档并提取文档 doc_ID 中的列表,有频率为 freq 的 CUI。我花了几天时间安装 cTAKES 并寻找解决方案。我将其缩小到 ClinicalPipelineWithUmls.java,在其中进行测试并使用 AnaylisisEngineDescription 运行 SimplePipeline。这是代码的一部分:
问题是它找不到“InputStreamCollectionReader”。我搜索了它,但到目前为止没有成功!请您给我一个提示或指示一些方向吗?谢谢你的帮助!
java - 如何从 UIMA 和简单的 NLP 任务开始?
我最近发现了 UIMA ( http://uima.apache.org/ )。它看起来很有希望用于简单的 NLP 任务,例如标记化、句子分割、词性标记等。
我已经设法获得了一个已配置的最小 Java 示例,该示例使用 OpenNLP 组件作为其管道。
代码如下所示:
摘自 OpenNlpTextAnalyzer.xml:
java 代码产生如下输出:
我试图从 toString() 方法使用的每个 Annotation 对象中获取相同的信息。我已经查看了 UIMA 的源代码以了解这些值的来源。我试图检索它们的工作,但它们在任何方面都不聪明。
我正在努力寻找从 JCas 对象中提取信息的简单示例。
我正在寻找一种方法来获取例如由我的 PosTagger 或 SentenceSplitter 生成的所有注释以供进一步使用。
我猜
是获取值的开始,但由于 UIMA 拥有原始类型的类,即使是注解类中的 toString 方法的源代码读起来也像是一记耳光。
我在哪里可以找到使用基本 UIMA 东西的 java 代码,哪里有好的教程(框架本身的 javadoc 除外)?
java - 如何从 uima-ruta 脚本创建 AnalysisEngineDescriptor 以在 SimplePipeline 中使用
我无法在我的简单管道中运行 uima ruta 脚本。我正在使用下一个库:
- Uimafit 2.0.0
- Uima-ruta 2.0.1
- 清除TK 1.4.1
- 马文
我正在使用一个org.apache.uima.fit.pipeline.SimplePipeline
:
我要做的是使用 StandfordNLP 注释器(来自 ClearTK)并应用 ruta 脚本。目前,一切运行都没有错误,并且默认的 ruta 注释被添加到 CAS,但我的规则创建的注释没有被添加到 CAS。
我的脚本是:
查看带注释的文件:
诸如“SPACE”或“SW”之类的基本 ruta 注释在那里,因此正在创建 RutaEngine 并将其添加到管道中......
如何正确创建 AnalysisEngineDescriptor 来运行 Ruta 脚本?
注意: RUTA_ANALYSIS_ENGINE它是我从 RUTA 工作台复制的引擎描述符。
java - Apache UIMA 解析多语言内容
我正在尝试解析韩语、中文等非英语语言的内容。UIMA 是否有任何内置支持。我无法在 Apache UIMA 门户中获得太多关于此的信息。我所能想到的只是想出 unicode 正则表达式模式,但即使是那些出于某种原因似乎也不起作用。我的具有 unicode 字符的正则表达式模式没有注释我需要的单词。
我正在使用JDK1.7,UIMA 2.4.2。
非常感谢任何帮助或建议。
下面是我正在尝试的示例
文本:Numéro de réservation 445566553 代码[此文本位于我正在使用 FileSystemCollectionReader 读取的文件中,并且我已将编码设置为 UTF-8]
我的正则表达式 (?<=Num\u00E9ro\sde\sr\u00E9servation\s)(.*?)(?=\sCode)
预期输出:445566553
uima - 是否可以使用 UIMA 创建注释层次结构?
我希望能够从不同的注释类型中获得一个共同的特征。是否可以创建注释的子类,然后通过超类获取它们?
这是我目前正在这样做的方式,但我希望能够获得一个通用的超类注释而不是一个特定的注释。
java - 如何删除 UIMA 注释?
我在管道中使用了一些 UIMA 注释器。它运行以下任务:
- 分词器
- 分句器
- 公报员
- 我的注释器
问题是我不想将所有注释(令牌、句子、子令牌、时间、myAnnotations 等)写入磁盘,因为文件很快就会变得非常大。
我想删除所有注释并仅保留My Annotator创建的注释。
我正在使用下一个库:
- uimaFIT 2.0.0
- 清除TK 1.4.1
- 马文
我正在使用一个org.apache.uima.fit.pipeline.SimplePipeline
:
我要做的是使用 Standford NLP 注释器(来自 ClearTK)并删除无用的注释。
我该怎么做呢?
据我所知,您可以将removeFromIndexes();
方法 from 与 Annotation 实例一起使用。
我是否需要创建 UIMA 处理器并将其添加到我的管道中?
java - UIMA 注释功能是否有通用类型?
是否存在类似于Object
Java 中的泛型类型,允许为其设置不同类型的值?
我尝试将以下内容放入<rangeTypeName>
:
java.lang.Object和Object这不起作用,我在尝试使用 JCasGen 生成代码时收到以下消息:
JCasGen 警告:**实例化 CAS 类型系统时发生资源初始化错误。继续,但可能生成不正确。由“未定义类型“对象”引起,在类型“com.example.Annotation”上声明的特征“exampleFeature”中引用。
uima.cas.TOP这会生成代码,但是当我尝试
setExampleField()
通过传递它来调用该方法时会出现错误,int
或者String
因为它无法将它们转换为 TOP 类型。