如何告诉 NLTK 以特定语言处理文本?
偶尔我会编写一个专门的 NLP 例程,在非英语(但仍然是印欧语)文本域上进行 POS 标记、标记等。
这个问题似乎只针对不同的语料库,而不是代码/设置的变化: POS tagging in German
或者,是否有任何专门用于 python 的希伯来语/西班牙语/波兰语 NLP 模块?
如何告诉 NLTK 以特定语言处理文本?
偶尔我会编写一个专门的 NLP 例程,在非英语(但仍然是印欧语)文本域上进行 POS 标记、标记等。
这个问题似乎只针对不同的语料库,而不是代码/设置的变化: POS tagging in German
或者,是否有任何专门用于 python 的希伯来语/西班牙语/波兰语 NLP 模块?
我不确定您所说的代码/设置更改是什么。NLTK 主要依赖于机器学习,“设置”通常是从训练数据中提取的。
当涉及到 POS 标记时,结果和标记将取决于您使用/训练的标记器。如果您自己训练,您当然需要一些西班牙语/波兰语训练数据。这些可能很难找到的原因是缺乏公开可用的金标准材料。有一些工具可以做到这一点,但这个工具不适用于 python ( http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/ )。
nltk.tokenize.punkt.PunktSentenceTokenizer 分词器将根据多语言句子边界对句子进行分词,详细信息可以在本文中找到(http://www.mitpressjournals.org/doi/abs/10.1162/coli.2006.32.4.485) .