0

我想在 textacy 中创建一个空的语料库,然后用数据填充它

corpus.add(doc)

但是每次我尝试创建一个空的语料库时,我都无法保存它,而是出现此错误:

IndexError: list index out of range

我尝试在创建语料库时不提供任何数据或不提供任何数据:

corpus = textacy.Corpus(lang=locale)
corpus = textacy.Corpus(lang=locale, data=None)
corpus.save(path) # this line results in the index error

如果有人可以帮助我,那就太好了:)

4

1 回答 1

0

我自己也试过了。究竟是locale什么?我执行了以下操作:

  1. 为德语创建了 spacy 语言对象

nlp = spacy.load("de_core_news_lg")

  1. 然后将其传递给

corpus = textacy.Corpus(nlp)

之后,我能够遍历我的文档并为每个项目添加项目。

但是,我不建议这样做。我已经执行了两个场景来处理 15k 条简短评论:

  • 我首先将我的文档预处理为一个列表,并将其直接放入textacy.Corpus(nlp, data=preprocessed_list). 这让我四处走动22 s
  • 执行相同的逻辑,但通过创建一个空的语料库并将每个项目添加到它 lasted 1 min 26 s
于 2020-10-26T12:06:01.827 回答