r - 在 R tm 文档术语矩阵中提取所有可能的 ngram

翻译自：https://stackoverflow.com/questions/44249692 2017-05-29T20:05:06.300

1124 次

我正在使用 R 中的“tm”包来创建术语文档矩阵。然后我使用“RWeka”提取下面代码中指定的三元组

myCorpus <- VCorpus(VectorSource(reddata$Tweet))

#create tokenizer function
TriTok<- function(x) NGramTokenizer(x, Weka_control(min = 3, max = 3))
tdm <- DocumentTermMatrix(myCorpus,control=list(tokenize=TriTok))

这里的问题是，RWeka 似乎只是遍历术语列表并在每三个单词之后拆分以获得三元组。例如句子：

 On hot summer days I enjoy eating ice cream

会被分成

"On hot summer"    "days I enjoy"    "eating ice cream"

但例如这句话

"hot summer days"

会被忽略。有没有办法让 RWeka 包含所有三元组，还是有另一种选择？

提前致谢！

r - 在 R tm 文档术语矩阵中提取所有可能的 ngram

0 回答 0

Related

Reference