python-3.x - CountVectorizer 无法处理输入文本

Question

我有一组数据如下所示。元素是语音标签的一部分。

[('NNS', 'MD', 'VB', 'DT', 'NNS', 'IN', 'JJ', 'NN', ',', 'VBG', 'JJ', 'NNS', 'JJ', 'IN', '.'), ('NNS', 'CC', 'NN', ',', 'RB', 'RB', 'IN', 'JJ', 'NNS', 'IN', 'WDT', 'PRP', 'VBZ', 'NN'), ('PRP', 'MD', 'VB', 'PRP', 'RB', 'IN', 'DT', 'NNS', 'VBG', 'DT', 'NNS', 'IN', 'PRP$', 'NN', '.'), ('NNS', 'VBP', 'JJ', 'TO', 'VB', 'NN', 'NNS', 'CC', 'JJ', 'NN', 'NN', 'IN', 'NN', 'CC', 'NN', '.'), ('JJ', 'NNS', 'MD', 'VB', 'JJ', 'JJ', 'JJ', 'NN', 'IN', 'NNS', '.'), ('DT', 'NNS', 'MD', 'VB', 'NN', 'CC', 'JJ', 'NN', 'NN', 'IN', 'DT', 'NN'), ('DT', 'NNS', 'MD', 'VB', 'PRP$', 'NN', 'NN', 'CC', 'JJ', 'NN', 'NNS', '.'), ('RB', 'VB', 'VBN', 'IN', 'NN', 'CC', 'MD', 'VB', 'TO', 'VB', 'PRP$', 'NN', '.'), ('PRP', 'VBP', 'NNS', 'IN', 'VBG', 'NNS', 'IN', 'NNS', 'CC', 'NNS', '.'), ('DT', 'NNS', 'MD', 'VB', 'PRP$', 'NN', 'NNS', 'IN', 'NN', 'CC', 'NN', 'IN', 'DT', 'NNS', ',', '.'), ('PRP', 'TO', 'VB', 'NNS', 'TO', 'PRP$', 'NN', 'NNS', 'VBG', 'IN', 'PDT', 'PRP$', 'NNS', 'CC', '.'), ('NNS', 'NNS', 'CC', 'VB', 'DT', 'IN', 'PRP$', 'NNS', 'IN', 'NN', 'CC', 'IN', 'DT', 'JJ', 'NN', '.'), ('NNS', 'TO', 'VB', 'JJ', 'WRB', 'VBG', 'IN', 'CC', 'IN', '.'), ('PRP', 'VBP', 'NNS', 'TO', 'VB', 'DT', 'JJ', ',', 'JJ', 'CC', 'JJ', 'NNS', 'WDT', 'MD', 'VB', 'PRP$', '.'), ('NN', 'CC', 'NN', 'TO', 'VB', 'PRP$', 'NN', 'NNS', '.'), ('PRP', 'MD', 'VB', 'RB', 'TO', 'VB', 'DT', 'NN', 'CC', '.'), ('JJ', 'NNS', 'TO', 'DT', 'NN', 'IN', 'PRP$', 'NNS', '.')]

现在当我这样做时：

vectorizer = CountVectorizer(analyzer='word',ngram_range=(2,4))
vectorizer.fit(train_set)

我收到此错误：

AttributeError: 'tuple' object has no attribute 'lower'

我没有看到我的火车设置了任何元组。据我所知，这是一个列表，不是吗？

任何帮助，将不胜感激 ;）

python-3.x - CountVectorizer 无法处理输入文本

0 回答 0

Related

Reference