r - 使用 iris 数据集中的两个简单列计算编辑距离

Question

在下面的代码中，我想计算两列文本字符串之间的相似性。为此，我从 iris 中获取前 10 行 "Petal.Length" 列并将其分配给 a1 ，并从 "Sepal.Length" 中获取前 4 行。虹膜中的“长度”列并将其分配给 a2。我的目标是应该使用最后一行中的公式将每个“a2”值与每个 a1 值进行比较，以便我得到一个具有 40 个值的最终向量 percent_calc。

library(stringdist)
library(RecordLinkage)

a1 = iris$Petal.Length[1:10] * 1000
a2 = iris$Sepal.Length[1:4]  * 1000
a1 = as.character(a1)
a2 = as.character(a2)

percent_calc = RecordLinkage::levenshteinSim(a2,a1)

score 0 · Accepted Answer

获取所有组合，然后获取距离：

a12 <- expand.grid(a1, a2, stringsAsFactors = FALSE)

percent_calc <- levenshteinSim(a12$Var1, a12$Var2)

percent_calc
# [1] 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50
# [19] 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.75 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50 0.50
# [37] 0.50 0.50 0.50 0.50

r - 使用 iris 数据集中的两个简单列计算编辑距离

1 回答 1

Related

Reference