r - 大写字母（大小写）不匹配（stringdist）的 Fuzzyjoin / stringdist_join 权重

Question

与 R 一起工作，我正在寻找在string_dist_left_join()

这是一个可重现的示例：

library(tidyverse)
library(fuzzyjoin)

tibble1 <- tibble(words = c("Bedford", "Maidenhead", "New Forest", "Tier 3", "Citizenship", "Crown"))

tibble2 <- tibble(words = c("bedfords", "bedsford", "BEDFord", "Maidenshead", "Maidenhed", "News forest", "Tier 3", "Citisenships", "crowned", "crows"))

osa <- stringdist_left_join(tibble1, tibble2, distance_col = "distance", max_dist = 5, method = "osa", weight = c(d = 0.1, i = 0.1, s = 1, t = 1))

上面是在几个 tibbles 上重现fuzzyjoin 驱动的stringsidt_left_join 的代码。输出如下所示：

# A tibble: 55 x 3
   words.x words.y      distance
   <chr>   <chr>           <dbl>
 1 Bedford bedfords        0.3  
 2 Bedford bedsford        0.3  
 3 Bedford BEDFord         0.6  
 4 Bedford Maidenshead     1.4  
 5 Bedford Maidenhed       1.2  
 6 Bedford News forest     1.00 
 7 Bedford Tier 3          0.900
 8 Bedford Citisenships    1.7  
 9 Bedford crowned         1.00 
10 Bedford crows           1.00 
# … with 45 more rows

我想要的是某种方式来衡量大小写，例如，将贝德福德与 B ED福特进行比较：我希望这比贝德福德与贝德福德的匹配更差，但比贝德福德与贝德福特的匹配更好。该选项ignore_case = TRUE将 BEDford 视为与 Bedford 的完美匹配。

我喜欢fuzzyjoin 包，而且我刚刚发现了可以为每个删除、插入、替换和易位传递给stringdist 的自定义权重。这太棒了；玩的玩具，调整的参数。

我还想做的是调整大小写（大写？）匹配。我可以选择ignore_case = TRUE在 stringdist_left_join 中，（实际上，权重大小写为 0 或 1），但作为我讨厌的 cur，我想在 0 和 1 之间使用权重。

有谁知道我想念的地方是否有选择？

或者答案是：艰难地去做？我想可能有很长的路要走，涉及比较跑步前后的距离或计算与比较的tolower()加权距离，但有谁知道我可以使用更优雅的方法或包来做到这一点？ignore_case = TRUEignore_case = FALSE

谢谢

score 1 · Accepted Answer

您可以运行它两次，一次ignore_case = TRUE和一次，FALSE然后找到两个距离的适当线性组合。

与其他字符串差异相比lambda * (distance_FALSE - distance_TRUE) + distance_TRUE，lambda您对大小写差异的关心程度要低得多。

r - 大写字母（大小写）不匹配（stringdist）的 Fuzzyjoin / stringdist_join 权重

1 回答 1

Related

Reference