R中的字符串距离计算方法有很多选择{stringdist}
(https://cran.r-project.org/web/packages/stringdist/stringdist.pdf),很好奇是否可以包含用户定义的匹配项通过在或距离计算中使用regex
或其他方式?如果没有,是否有其他软件包提供这种功能?Jaro
Jaro-Winker
例如:对于字符串"USA Starwar Corporation"
(a)
, "US Starwar Corporation"
(b)
,"United States Starwar Corporation"
(c)
当前 Jaro 之间的距离((a),(b)),((b),(c)),((a),(c))
分别为0.01449275, 0.2020202, 0.216513
。有没有办法在计算中定义"USA"
匹配"US"
匹配"United States"
,因此距离可能是0,0,0
?
谢谢!