我正在使用 R 中的“tm”包来创建术语文档矩阵。然后我使用“RWeka”提取下面代码中指定的三元组
myCorpus <- VCorpus(VectorSource(reddata$Tweet))
#create tokenizer function
TriTok<- function(x) NGramTokenizer(x, Weka_control(min = 3, max = 3))
tdm <- DocumentTermMatrix(myCorpus,control=list(tokenize=TriTok))
这里的问题是,RWeka 似乎只是遍历术语列表并在每三个单词之后拆分以获得三元组。例如句子:
On hot summer days I enjoy eating ice cream
会被分成
"On hot summer" "days I enjoy" "eating ice cream"
但例如这句话
"hot summer days"
会被忽略。有没有办法让 RWeka 包含所有三元组,还是有另一种选择?
提前致谢!