在 R 中提取正确的文本后,我遇到了问题。'papper' 应该显示为 'papper' 但显示为 'papp','projekt' 变为 'projek'。
因此生成的频率云显示了这些缩短的版本,这些版本失去了实际意义或变得难以理解。
我能做些什么来摆脱这个问题?我正在使用最新版本的雪球(0.6.0)。
代码:
library(tm)
library(SnowballC)
text_example <- c("projekt", "papper", "arbete")
stem_doc <- stemDocument(text_example, language="sv")
stem_doc
Expected:
stem_doc
[1] "projekt" "papper" "arbete"
Actual:
stem_doc
[1] "projek" "papp" "arbet"