问题标签 [brat]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 命名实体识别黄金标准语料库的样本量
我有一个包含 170 部荷兰文学小说的语料库,我将在其上应用命名实体识别。为了评估荷兰语的现有 NER 标记器,我想在这个语料库的随机样本中手动注释命名实体——为此我使用brat。手动注释的随机样本将作为我评估 NER 标记器的“黄金标准”。我编写了一个 Python 脚本,它在句子级别输出我的语料库的随机样本。
我的问题是:就每部小说的句子数量而言,随机样本的理想大小是多少?目前,我在每部小说中随机使用了 100 个句子,但这会导致一个包含近 21626 行的相当大的随机样本(手动注释很多,并且会导致小子的工作环境变慢)。
python - 使用带注释的文件计算 Inter Annotator 协议
通过三个注释器,我们一直在使用 brat ( http://brat.nlplab.org/ ) 来注释三个类别的文本样本:PERS、ORG、GPE。我想计算该样本的 Inter Annotator Agreement。但是,我似乎没有找到一种简单的方法来做到这一点。我已经尝试过这个 Python 包:https ://github.com/savkov/BratUtils ,但它似乎失败了。
对于每个带注释的样本,我有三个 .ann 文件,我想为其计算 Inter Annotator Agreement。文件中的数据如下所示:
是否有一种简单的方法来计算 Inter Annotator Agreement(使用 Python 或基于 Web 的工具)?
ruby - 从 Brat 格式创建 HTML 可视化
我有一组小子格式的
文件<*.txt, *.ann>
。示例:file.txt
示例:file.ann
是否有任何 Ruby gem 或解析器或库可以基于 .ann 文件以简单的 html 文本格式生成突出显示的可视化?有人使用过小子文件格式吗?
part-of-speech - Google NL API 在其注释语法响应中使用了哪些标签?
我正在使用 Google NL API 的注释语法方法并使用 Brat 来可视化响应。我在哪里可以找到 Google NL API 中使用的单词和依赖关系的“标签”或“标签”的确切列表。
“partOfSpeech”:{“标签”:“ADJ”,
“dependencyEdge”:{“headTokenIndex”:9,“标签”:“AMOD”
javascript - 无法在“SVGTextContentElement”上执行“getStartPositionOfChar”
以下异常的原因是什么?
实际上,我正在尝试将https://github.com/nlplab/brat与我自己创建的后端集成。它使用 svg 与 jquery.svg.min.js 和 jquery.svgdom.min.js。但我被这个例外困住了。在进行调用时,在 svg 的文本元素上引发了异常
文本在哪里
和firstChar=0
。
python - BRAT 中的动态注释配置设置
在Brat中,要注释文本,您应该参考一个名为“annotation.conf”的配置文件,我有 150 多个标签来注释域特定文本的语义,这些注释标签应该在不同的配置文件中分开,因此注释器如果所有标签都存储在单个“annotation.conf”文件中,则不会分心从长列表中进行选择。
一个典型的场景是,注释器将上传一个文本,然后对于每个语句,都有某些关键字应该触发我创建的组中的单个 annotation.conf 文件来组织我的语义标签。
让我们看下面的伪示例:
- 声明:一个KB C ===> 应该触发 annotation.conf 因为他们的关键字KB
- 声明:VNC KA ====> 应该为关键字KA触发 annotation.conf
标签之间没有重叠。即每个单词只能由一个标签标记。
请您指导我如何在 BRAT 中实现这一点,非常感谢您参考具体资源。
谢谢
caching - 如何在编辑注释时避免 BRAT 中的时间滞后?
我正在使用 Brat 软件 ( http://brat.nlplab.org ) 来注释我的数据。我有我的注释文件,并想手动更改它们,例如。删除一些实体,编辑实体类型等。
每次进行更改时,页面都会重新加载,大约需要 5-10 秒。这是因为 brat 在 Web 服务器上工作(http://brat.nlplab.org/installation.html),所以当进行更改时,它会将更改后的文件上传到服务器上,然后重新加载。
我需要做一些改变,这种滞后很烦人。有没有办法避免滞后?也许制作一个本地缓存,在其中进行所有更改,然后将其上传到服务器上。
这是创建将由其他人完成的训练数据所必需的,所以我希望它对他们来说既快速又容易。
java - 如何配置 OpenNLP Brat Annotation Service?
嗨,我正在尝试让 OpenNLP 的 Brat Annotation Service 与 BRAT 注释器一起使用。我可以使用以下命令启动 OpenNLP 的 Brat 注释服务:
服务器响应有关 glassfish 和 grizzly 熊盯着端口 8999 的日志消息。一切正常...
在 BRAT 注释器方面,我有一个 tools.conf 文件,其中包含:
当我尝试使用我的模型(数据 > 自动注释器,openNLP)时,我收到一个未知的连接错误。标记服务 OpenNLP 返回错误“Errno 111] 连接被拒绝”。我知道网址存在。我可以在运行 BRAT 的服务器上使用 firefox 打开 url http://localhost:8999/。
****** 编辑:我的 tools.conf 文件中有错字。我修正了错字,错误更改为
标记服务 OpenNLP 返回错误:404 Not Found
我要离开一步吗?
windows - 需要安装哪些 Cygwin 软件包才能运行 BRAT?
我在 Windows 7 SP1 x64 Ultimate 上使用 Cygwin运行BRAT 。为此,我在 Cygwin 中运行:
此时,现在可以通过 Web 浏览器http://127.0.0.1:8001访问 BRAT 。
当我安装所有 Cygwin 软件包时它工作正常,但如果我只执行最小的 Cygwin 安装它就不行。
需要安装哪些 Cygwin 软件包才能运行 BRAT?
我知道必须安装 python 2:
但是,这似乎还不够,因为当我访问http://127.0.0.1:8001/时,我得到:
python - 从 XML 注释转换为 BRAT 格式
我有一个 XML 格式的带注释的数据集:请参见下面的示例
其中标记的词在 XML 标记中,如图所示。我需要把它变成 BRAT 格式,例如:
更多示例可在http://brat.nlplab.org/standoff.html中找到
我可以在 Python 中使用正则表达式提取注释,但我不确定如何将其转换为正确的 BRAT 格式。有没有可能的工具?