1

R中的字符串距离计算方法有很多选择{stringdist}https://cran.r-project.org/web/packages/stringdist/stringdist.pdf),很好奇是否可以包含用户定义的匹配项通过在或距离计算中使用regex或其他方式?如果没有,是否有其他软件包提供这种功能?JaroJaro-Winker

例如:对于字符串"USA Starwar Corporation" (a), "US Starwar Corporation" (b)"United States Starwar Corporation" (c)当前 Jaro 之间的距离((a),(b)),((b),(c)),((a),(c))分别为0.01449275, 0.2020202, 0.216513。有没有办法在计算中定义"USA"匹配"US"匹配"United States",因此距离可能是0,0,0

谢谢!

4

0 回答 0