我需要了解 NLTK 中的标记化对于哪些语言是可能的。我想我需要像这样设置语言:
import nltk.data
lang = "WHATEVER_LANGUAGE"
tokenizer = nltk.data.load('nltk:tokenizers/punkt/'+lang+'.pickle')
text = "something in some specified whatever language"
tokenizer.tokenize(text)
我需要了解我可以使用哪些语言,但我在 nltk 文档中找不到任何信息。