问题标签 [uima]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
solr - 带有 SOLR 的基本 UIMA
我正在尝试将 UIMA 与 Solr 连接起来。我已经下载了 Solr 3.5 dist,并在 Windows 7 上使用 solrcell 和 curl 通过 cygwin 成功运行了 nutch 和 tika。首先,我将 6 个罐子从solr复制solr/contrib/uima/lib
到工作中。/lib
接下来,我阅读了readme.txt文件solr/contrib/uima/lib
并编辑了我的solrconfig.xml和schema.xml都无济于事。然后我发现这个链接似乎更适用,因为我不在乎使用 Alchemy 或 OpenCalais:http ://code.google.com/a/apache-extras.org/p/rondhuit-uima/?redir=1
仍然-当我运行通过 solrcell 导入 pdf 的 curl 命令时,我没有得到额外的 UIMA 字段,也没有在我的日志中得到任何内容。虽然 test.pdf 被解析,但我在 Solr 中看到 pdf 使用:
SolrConfig.XML
我还调整了我的 requestHander:
架构.XML
我要做的就是让 UIMA 从文本中提取名称(只是作为演示开始)并且无法弄清楚我做错了什么。提前感谢您阅读本文。
nlp - 如何在 UIMA ConceptMapper 中使用其他类型
我已经成功地将 UIMA ConceptMapper 与我构建的字典一起使用。我将 TokenAnnotation 参数设置为 uima.tt.TokenAnnotation 并将 SpanFeatureStructure 参数设置为 uima.tt.SentenceAnnotation (基于参考示例)。我相信这些类型来自 OpenNLP 解析器。但我也使用 medkatp 进行了另一个解析,并想使用它们的类型。到目前为止,我还没有弄清楚如何做到这一点。如果我更改这两个参数中的任何一个,整个事情都会失败,说它找不到类型。
我在网上搜索了几个小时,但没有找到使用除这两种类型之外的任何东西的 ConceptMapper 示例。欢迎任何建议。
java - 在 Eclipse 上使用 UIMA 框架创建注释器
我正在尝试将 UIMA 框架与 Eclipse 一起使用,但未能自己完成第一个教程中的一个......
(我首先尝试用文字等做自己的注释器,然后得到完全相同的错误:未找到注释器类“*”。所以我回到教程来检查我错过了什么,但仍然会出现这种错误:/)
这是我的文件/目录结构
RoomNumber.java 和 RoomNumber_Type.java 是通过 typeSystemDescriptor.xml / Open With / Component Descriptor Editor => JCasGen 自动生成的
我认为对于 RoomNumberAnnotator.xml 和 typeSystemDescriptor.xml(见下文),我确实有它们内部需要的东西
RoomNumerAnnotator.java 是教程之一的复制粘贴(http://uima.apache.org/d/uimaj-2.3.1/tutorials_and_users_guides.html#d4e236)
我认为我已经设置了正确的环境变量 UIMA_HOME。
我将示例目录项目与包含的 DocumentAnalyzer 一起使用,以检查我自己的 RoomNumerAnnotator
我总是得到一个:
* org.apache.uima.resource.ResourceInitializationException:未找到注释器类“RoomNumberAnnotator”。(描述符:file:/D:/eclipseWorkspace/uima0/descriptors/RoomNumberAnnotator.xml)在 org.apache.uima.analysis_engine.impl.PrimitiveAnalysisEngine_impl.initializeAnalysisComponent(PrimitiveAnalysisEngine_impl.java:207) 在 org.apache.uima.analysis_engine.impl .PrimitiveAnalysisEngine_impl.initialize(PrimitiveAnalysisEngine_impl.java:156) [...]*
我忘记或错过了什么?
(看起来它可能会错过我的 RoomNumberAnnotator.java 所在的位置与 uimaj-examples 提供的内置 DocumentAnalyzer 之间的一些链接?顺便说一句,我不知道如何用 Eclipse 和/或 UIMA 配置文件说/更正)
---8<--- RoomNumberAnnotator.xml:
---8<--- typeSystemDescriptor
uima - UIMA ConceptMapper 未在文档中找到字典术语
我是 UIMA ConceptMapper 的新用户。在调试模式下运行,我可以看到字典加载了一些项目,但是 processTokenList() 的 dict.getEntries(word) 调用总是返回 null。欢迎任何建议。
html-parsing - 使用 UIMA 处理 HTML
我正在尝试了解 UIMA 架构。
我想创建一个以 HTML 标记开头的管道。我需要将其剥离为纯文本,以便它可以由不同的注释器处理,如 POS、分块、实体检测等。但是我还想跟踪哪些区域对应于原始 html 标签,如链接、段落, em 等。基本上我想要一个最终的注释器,它可以同时利用结构注释(来自 html)和语义注释(来自其他组件)。
所以,我可以想象从一个剥离 html 标记并添加注释以跟踪我感兴趣的标签的组件开始。这样的组件是否已经存在?这似乎是很多人想要的东西。
如果我必须从头开始创建它,它是什么组件?它不仅仅是一个直接的注释器,因为它需要更改 SOFA:它需要用纯文本替换标记。
或者我应该让它创建文档的新视图,以便我们维护文档的标记视图和纯文本视图?这看起来很奇怪,考虑到我再也不会关心标记视图了。另外,我如何确保其他注释器(我不会自己编码)在文档的纯文本视图而不是标记视图上操作?
uima - 找不到 UIMA pear fle 的类
我是 UIMA 的新手。我正在使用 PubMed xml 文件中的 pear 文件进行注释。我已经安装了 Julie Lab medline reader UIMA collection reader file 和 Lingpipe gazeteer 作为分析引擎。我已经运行了 CPE 生成器并试图获得正确的注释词,但我没有这样做。发生以下错误:
The class de.julielab.jules.reader.reader.MedlineReader could not be found
Descripotor file=file/C:/apache-uima/examples/descriptor/collection reader/julie-medline-reader 1.7/desc/Medlinereaderdesciptor.xml
causedBy: org.apache.uima.ResourceInitializationException:The class de.julielab.jules.reader.reader.MedlineReader could not be found
caused by: Java.lang.classNotFound exception
de.julielab.jules.reader.reader.MedlineReader
给我一个解决这个错误的方法对我有很大的帮助。
java - 如何使用 4 个不同类型的系统描述符 xml 文件查看 CAS
我正在尝试使用 CAS 查看器(http://uima.apache.org/downloads/releaseDocs/2.1.0-incubating/docs/html/tutorials_and_users_guides/tutorials_and_users_guides.html#ugr.tug.cpe.configurator_and_viewer)查看 CAS 的内容
对于使用单一类型系统描述符 XML 创建的 CAS,它工作得非常好。但是,我不确定如何查看使用多类型系统描述符 XML 创建的 CAS。
我也在类路径中生成了相应的类型系统包/类,但不知道如何使用它。
或者,我尝试使用 Eclipse CAS 查看器(UIMA 插件)。这也需要单个类型系统描述符 XML。
让我知道有些事情不清楚。
visual-c++ - 通过自定义 ICU 构建和使用 Boost for Windows Visual Studio
几天来,我一直在尝试构建一个基于 UIMA C++ 框架(http://uima.apache.org/)的项目。我目前使用的是版本 2.4.0 候选版本 6,它带有 Linux 和 Windows 二进制文件,可以轻松捆绑所有依赖项。
特别是,它带有 ICU 的二进制库(我相信是 3.6)。
在我的项目中,我正在构建一个 C++ UIMA 注释器,并且我的代码使用了 Boost C++ 库 v1.51.0。
一切都编译得很好,但是在运行时,我在开始使用时遇到访问冲突异常,比如说 operator <<(ostream&, const icu::UnicodeString&)。可能是Boost和UIMA C++版本不兼容的问题。
所以,我试图在我的机器上重新编译 Boost,告诉它重用 UIMA C++ 附带的 ICU,但是 MSVC 工具集似乎有问题,因为我总是收到消息告诉我在构建时没有可用的 ICU促进:
有没有人设法使用 -sICU_PATH 选项和 MSVC 构建 Boost?
谢谢,西尔万
hadoop - Running UIMA job on Hadoop with Behemoth
I have a fully functional UIMA job that does simple annotation. I can successfully launch it via my local CAS GUI.
I have been trying to run the UIMA job on Hadoop using Apache Behemoth. I am wondering if someone has worked on this? The job runs successfully but in the hadoop output directory; there is no output from the UIMA job. I can see in the Hadoop job tracker output that the job completed successfully and it copied its input data to the final output directory.
Can someone point me to what could be going on here, and is there any additional changes we need to make in our UIMA code?
Thanks
eclipse - 如何让 UIMA JCasGen 在 Eclipse 中运行?(OSX)
我已经安装了 UIMA 插件,似乎工作正常。我还安装了 UIMA SDK,它也可以正常工作。
我遇到的问题是,在 UIMA 菜单中有一个运行 JCasGen 的选项,但它永远不会启动。
我仍然可以在运行配置中手动从 SDK 运行 JCas Gen,但我想让这个菜单选项工作。
是否需要为 OSX 设置一些额外的东西?