nlp - 用于单词标记化和句子标记化的 NLTK 可用语言

翻译自：https://stackoverflow.com/questions/70930127 2022-01-31T17:17:36.123

12 次

我需要了解 NLTK 中的标记化对于哪些语言是可能的。我想我需要像这样设置语言：

import nltk.data
lang = "WHATEVER_LANGUAGE"
tokenizer = nltk.data.load('nltk:tokenizers/punkt/'+lang+'.pickle')
text = "something in some specified whatever language"
tokenizer.tokenize(text)

我需要了解我可以使用哪些语言，但我在 nltk 文档中找不到任何信息。

nlp - 用于单词标记化和句子标记化的 NLTK 可用语言

0 回答 0

Related

Reference