我很难理解 R 词干处理。
在我的示例中,我创建了以下语料库对象
a <- Corpus(VectorSource("device so much more funand unlike most android torrent download clients"))
所以 a 是
a[[1]]$content
[1] "device so much more funand unlike most android torrent download clients"
该字符串中的第一个单词是“设备”,我创建了术语矩阵
b <- TermDocumentMatrix(a, control = list(stemming = TRUE))
并将其作为输出
dimnames(b)$Terms
[1] "android" "client" "devic" "download" "funand" "more" "most" "much" "torrent"
[10] "unlik"
我想知道的是为什么我在“设备”和“不同”处丢失了“e”,但在“更多”处没有丢失它。
我怎样才能避免在这个词和其他一些词中发生这种情况?
谢谢。