问题标签 [brat]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
692 浏览

python - 命名实体识别黄金标准语料库的样本量

我有一个包含 170 部荷兰文学小说的语料库,我将在其上应用命名实体识别。为了评估荷兰语的现有 NER 标记器,我想在这个语料库的随机样本中手动注释命名实体——为此我使用brat。手动注释的随机样本将作为我评估 NER 标记器的“黄金标准”。我编写了一个 Python 脚本,它在句子级别输出我的语料库的随机样本。

我的问题是:就每部小说的句子数量而言,随机样本的理想大小是多少?目前,我在每部小说中随机使用了 100 个句子,但这会导致一个包含近 21626 行的相当大的随机样本(手动注释很多,并且会导致小子的工作环境变慢)。

0 投票
1 回答
550 浏览

python - 使用带注释的文件计算 Inter Annotator 协议

通过三个注释器,我们一直在使用 brat ( http://brat.nlplab.org/ ) 来注释三个类别的文本样本:PERS、ORG、GPE。我想计算该样本的 Inter Annotator Agreement。但是,我似乎没有找到一种简单的方法来做到这一点。我已经尝试过这个 Python 包:https ://github.com/savkov/BratUtils ,但它似乎失败了。

对于每个带注释的样本,我有三个 .ann 文件,我想为其计算 Inter Annotator Agreement。文件中的数据如下所示:

是否有一种简单的方法来计算 Inter Annotator Agreement(使用 Python 或基于 Web 的工具)?

0 投票
0 回答
131 浏览

ruby - 从 Brat 格式创建 HTML 可视化

我有一组小子格式的 文件<*.txt, *.ann>。示例:file.txt

示例:file.ann

是否有任何 Ruby gem 或解析器或库可以基于 .ann 文件以简单的 html 文本格式生成突出显示的可视化?有人使用过小子文件格式吗?

0 投票
0 回答
69 浏览

part-of-speech - Google NL API 在其注释语法响应中使用了哪些标签?

我正在使用 Google NL API 的注释语法方法并使用 Brat 来可视化响应。我在哪里可以找到 Google NL API 中使用的单词和依赖关系的“标​​签”或“标签”的确切列表。

“partOfSpeech”:{“标签”:“ADJ”,

“dependencyEdge”:{“headTokenIndex”:9,“标签”:“AMOD”

0 投票
2 回答
607 浏览

javascript - 无法在“SVGTextContentElement”上执行“getStartPositionOfChar”

以下异常的原因是什么?

实际上,我正在尝试将https://github.com/nlplab/brat与我自己创建的后端集成。它使用 svg 与 jquery.svg.min.js 和 jquery.svgdom.min.js。但我被这个例外困住了。在进行调用时,在 svg 的文本元素上引发了异常

文本在哪里

firstChar=0

0 投票
1 回答
364 浏览

python - BRAT 中的动态注释配置设置

Brat中,要注释文本,您应该参考一个名为“annotation.conf”的配置文件,我有 150 多个标签来注释域特定文本的语义,这些注释标签应该在不同的配置文件中分开,因此注释器如果所有标签都存储在单个“annotation.conf”文件中,则不会分心从长列表中进行选择。

一个典型的场景是,注释器将上传一个文本,然后对于每个语句,都有某些关键字应该触发我创建的组中的单个 annotation.conf 文件来组织我的语义标签。

让我们看下面的伪示例:

  • 声明:一个KB C ===> 应该触发 annotation.conf 因为他们的关键字KB
  • 声明:VNC KA ====> 应该为关键字KA触发 annotation.conf

标签之间没有重叠。即每个单词只能由一个标签标记。

请您指导我如何在 BRAT 中实现这一点,非常感谢您参考具体资源。

谢谢

0 投票
1 回答
93 浏览

caching - 如何在编辑注释时避免 BRAT 中的时间滞后?

我正在使用 Brat 软件 ( http://brat.nlplab.org ) 来注释我的数据。我有我的注释文件,并想手动更改它们,例如。删除一些实体,编辑实体类型等。

每次进行更改时,页面都会重新加载,大约需要 5-10 秒。这是因为 brat 在 Web 服务器上工作(http://brat.nlplab.org/installation.html),所以当进行更改时,它会将更改后的文件上传到服务器上,然后重新加载。

我需要做一些改变,这种滞后很烦人。有没有办法避免滞后?也许制作一个本地缓存,在其中进行所有更改,然后将其上传到服务器上。

这是创建将由其他人完成的训练数据所必需的,所以我希望它对他们来说既快速又容易。

0 投票
1 回答
305 浏览

java - 如何配置 OpenNLP Brat Annotation Service?

嗨,我正在尝试让 OpenNLP 的 Brat Annotation Service 与 BRAT 注释器一起使用。我可以使用以下命令启动 OpenNLP 的 Brat 注释服务:

服务器响应有关 glassfish 和 grizzly 熊盯着端口 8999 的日志消息。一切正常...

在 BRAT 注释器方面,我有一个 tools.conf 文件,其中包含:

当我尝试使用我的模型(数据 > 自动注释器,openNLP)时,我收到一个未知的连接错误。标记服务 OpenNLP 返回错误“Errno 111] 连接被拒绝”。我知道网址存在。我可以在运行 BRAT 的服务器上使用 firefox 打开 url http://localhost:8999/

****** 编辑:我的 tools.conf 文件中有错字。我修正了错字,错误更改为

标记服务 OpenNLP 返回错误:404 Not Found

我要离开一步吗?

0 投票
0 回答
424 浏览

windows - 需要安装哪些 Cygwin 软件包才能运行 BRAT?

我在 Windows 7 SP1 x64 Ultimate 上使用 Cygwin运行BRAT 。为此,我在 Cygwin 中运行:

此时,现在可以通过 Web 浏览器http://127.0.0.1:8001访问 BRAT 。

当我安装所有 Cygwin 软件包时它工作正常,但如果我只执行最小的 Cygwin 安装它就不行。

需要安装哪些 Cygwin 软件包才能运行 BRAT?


我知道必须安装 python 2:

在此处输入图像描述

但是,这似乎还不够,因为当我访问http://127.0.0.1:8001/时,我得到:

在此处输入图像描述

0 投票
1 回答
816 浏览

python - 从 XML 注释转换为 BRAT 格式

我有一个 XML 格式的带注释的数据集:请参见下面的示例

其中标记的词在 XML 标记中,如图所示。我需要把它变成 BRAT 格式,例如:

更多示例可在http://brat.nlplab.org/standoff.html中找到

我可以在 Python 中使用正则表达式提取注释,但我不确定如何将其转换为正确的 BRAT 格式。有没有可能的工具?