r - 使用 stringdist_join 对两个数据帧进行分组

Question

我目前正在做一个项目并且遇到了一个问题......我正在尝试根据候选人的姓名匹配两个数据框。我已经设法做到了这一点，但是除了 max_dist 为 2 之外，我开始得到重复的条目。但是，如果我可以在运行 stringdist_join 之前按种族（州和地区）对候选人进行“分组”，那么这些将很容易避免，因为每场比赛中只有少数候选人，几乎没有机会有两个名字相似的候选人。

目标是获得一个名为 tmpJoin 的表，其中我可以同时拥有候选人 ID 和 canVotes，以及名称、州、区。

任何建议将不胜感激！

下面是我的代码以及两个数据集的复制

state <- c('AL','AL','AL','AL','AL','NY','NY','NY','NY','NY')  
district <-c('01','02','02','03','01','01','02','01','02','02')  
FullName <-c('Sonny Callahan','Tom Bevill','Faye Baggiano','Thomas
Bevill','Don Sledge','William Turner', 'Bill Turner','Ed Smith','Tom
Bevill','Edward Smith')
canVotes <-c('234','589','9234','729','149','245','879','385','8712','7099')

yearHouseResult <- data.frame(state, district, FullName,canVotes)

state <- c('AL','AL','AL','AL','AL','NY','NY','NY','NY','NY')
district <-c('01','02','02','03','01','01','02','01','02','02')
FullName <-c('Sonny Callahan','Tom Beville','Faye Baggiano','Thom Bevill','Donald Sledge','Bill Turner', 'Bill Turner','Ed Smith','Tom Bevill','Ed Smith')
candidateID <- c('1','2','3','4','5','6','7','8','9','10')

congrCands <- data.frame(state, district, FullName, candidateID)

tmpJoin <- stringdist_join(congrCands, yearHouseResult, 
                           by = "FullName",
                           max_dist=2,
                           method = "osa",
                           ignore_case = FALSE,
                           distance_col = "matchingDistance")

score 0 · Accepted Answer

fuzzy_inner_join您可以使用, 也可以从fuzzyjoin包中测试所有三个条件。

首先，我必须将因子更改为数字和字符，因为不同的因子级别会干扰函数。

的一些信息fuzzy_join。参数match_fun中是三个条件的描述，并且在by列中指定了条件。

stringdist < 4 为FullName
地区必须相等
state 必须相等（district 是一个数字，state 是一个字符，因此需要两个不同的函数来比较这些列）

该表包含比您需要的更多的列。因此，您可以选择所需的列。我只是认为以这种方式控制比赛会更容易。

yearHouseResult <- data.frame(state, district, FullName,canVotes) %>%
  mutate(state = as.character(state),
         district = as.numeric(district),
         FullName = as.character(FullName))


congrCands <- data.frame(state, district, FullName, candidateID) %>%
  mutate(state = as.character(state),
         district = as.numeric(district),
         FullName = as.character(FullName))

t <- fuzzy_inner_join(congrCands, yearHouseResult, 
                     match_fun = list(function(x,y) stringdist(x,y, 
                                      method="osa") < 4, 
                                      `==`, 
                                      function(x,y) str_detect(x,y)),
                     by = c( "FullName", "district", "state"))

如果您将 stringdist 的数量从 4 增加到 5，您将正确匹配 Ed/Edward Smith，但不正确匹配 William/Bill Turner。因此，您需要决定干净匹配或更多匹配更重要。

r - 使用 stringdist_join 对两个数据帧进行分组

1 回答 1

Related

Reference