我正在寻求理解Matthew Honnibal 编写的A simple Python dependency parser并在他的博客文章Parsing English in 500 Lines of Python中进行了描述,但我不清楚所需输入文件的格式。
函数的参数main()
以及存储模型的目录是三个输入文件:
train_loc
是依赖解析句子的训练集heldout_in
是 POS 标记句子的保留测试集heldout_gold
是相同的保留句子依赖解析
train_loc
从阅读源代码来看,它似乎heldout_gold
是 CONLL 格式,尽管我不确定是哪一个。我也不确定 POS 标记文件的格式是什么heldout_in
。
我已经从 NLTK Corpora 页面下载了 Penn 树库数据集“Dependency Parsed Treebank”和“Penn Treebank Sample”,分别用于依赖解析和 POS 标记的输入,但是这些都没有被解析器接受为输入,从而产生元组解包错误.
我很高兴能够理解代码并将我下载的文件转换为解析器可以接受的格式,但我想知道这种格式是否广为人知以及是否已经有正确格式的文件可用。