我有一个带有文本的数据框
TERM
good morning
hello
morning good
you're welcome
hello
hi
我想过滤掉所有重复的内容,以及所有具有相同单词但顺序不同的内容。这样我得到:
TERM
good morning
hello
you're welcome
hi
我知道如何用 stringdist 获得两个单词的距离。
stringdist(stringOriginal,stringCompare,method=qgram)
但由于我有很长的数据框,我不想遍历所有条目。
如何过滤掉相似的术语?
谢谢乔尔格