-1

在下面的代码中,我想计算两列文本字符串之间的相似性。为此,我从 iris 中获取前 10 行 "Petal.Length" 列并将其分配给 a1 ,并从 "Sepal.Length" 中获取前 4 行。虹膜中的“长度”列并将其分配给 a2。我的目标是应该使用最后一行中的公式将每个“a2”值与每个 a1 值进行比较,以便我得到一个具有 40 个值的最终向量 percent_calc。

library(stringdist)
library(RecordLinkage)

a1 = iris$Petal.Length[1:10] * 1000
a2 = iris$Sepal.Length[1:4]  * 1000
a1 = as.character(a1)
a2 = as.character(a2)

percent_calc = RecordLinkage::levenshteinSim(a2,a1)
4

1 回答 1

0

获取所有组合,然后获取距离:

a12 <- expand.grid(a1, a2, stringsAsFactors = FALSE)

percent_calc <- levenshteinSim(a12$Var1, a12$Var2)

percent_calc
# [1] 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50
# [19] 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.75 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50
# [37] 0.50 0.50 0.50 0.50
于 2017-12-07T09:36:19.650 回答