1

我正在寻求理解Matthew Honnibal 编写的A simple Python dependency parser并在他的博客文章Parsing English in 500 Lines of Python中进行了描述,但我不清楚所需输入文件的格式。

函数的参数main()以及存储模型的目录是三个输入文件:

  1. train_loc是依赖解析句子的训练集
  2. heldout_in是 POS 标记句子的保留测试集
  3. heldout_gold是相同的保留句子依赖解析

train_loc从阅读源代码来看,它似乎heldout_gold是 CONLL 格式,尽管我不确定是哪一个。我也不确定 POS 标记文件的格式是什么heldout_in

我已经从 NLTK Corpora 页面下载了 Penn 树库数据集“Dependency Parsed Treebank”和“Penn Treebank Sample”,分别用于依赖解析和 POS 标记的输入,但是这些都没有被解析器接受为输入,从而产生元组解包错误.

我很高兴能够理解代码并将我下载的文件转换为解析器可以接受的格式,但我想知道这种格式是否广为人知以及是否已经有正确格式的文件可用。

4

0 回答 0