0

我编写了一个脚本来对公司名称进行一些模糊匹配。我将一些并非总是完全正确的公司名称(即可能存在小的拼写错误或“inc.”后缀丢失)与“正确”公司名称和 ID 的语料库进行匹配。显然,关键是将 ID 正确附加到并非总是正确的公司名称上。

这是我正在匹配的数据集的一些非常简化的版本(我还没有使用 zip 部分,但稍后会回到它):

df <- data.frame(zip = c("4760","5445", "2200"), company = c("company x", "company y", "company z"))
corpus <- data.frame(zip = c("4760","5445", "2200", "2200", "2200"), company = c("company x inc.", "company y inc.", "company z inc.", "company a inc.", "company b inc."), id = c(12121212, 23232323, 34343434, 56565656, 67676767))

df
   zip   company
1 4760 company x
2 5445 company y
3 2200 company z

corpus
   zip        company       id
1 4760 company x inc. 12121212
2 5445 company y inc. 23232323
3 2200 company z inc. 34343434
4 2200 company a inc. 56565656
5 2200 company b inc. 67676767

然后我使用以下代码创建字符串距离矩阵

library(stringdist)
distance.method <- c("jw")

string.dist.matrix <- stringdistmatrix(tolower(corpus$company),
                                       tolower(df$company),
                                       method = distance.method,
                                       nthread = getOption("sd_num_thread"))

string.dist.matrix

          [,1]      [,2]      [,3]
[1,] 0.1190476 0.1798942 0.1798942
[2,] 0.1798942 0.1190476 0.1798942
[3,] 0.1798942 0.1798942 0.1190476
[4,] 0.1798942 0.1798942 0.1798942
[5,] 0.1798942 0.1798942 0.1798942

然后我继续匹配最小距离对。通常,我想将 4000 家公司与 4,5 mio 的语料库进行匹配。公司,至少可以说需要一些计算能力。我的想法是,不是计算所有可能对之间的字符串距离,而是只为共享邮政编码的人计算它。正如我所看到的,与我在这里用简化数据说明的情况相比,对于更复杂的情况,结果将是更少的计算量和更高的模糊匹配精度。

简而言之,我想要的结果矩阵是这样的:

     [,1]            [,2]              [,3]
[1,] 0.1190476       NA                NA
[2,] NA              0.1190476         NA
[3,] NA              NA                0.1190476
[4,] NA              NA                0.1798942
[5,] NA              NA                0.1798942

我似乎无法找到一种方法来做到这一点。有任何想法吗?

4

3 回答 3

3

下面的方法使用dplyr并从两个数据帧的 phiver 方法开始,joining然后继续生成与您相​​似的数据帧string.dist.matrix或以压缩“键值”形式生成的数据帧。我已将另一家公司添加到您的df数据框中,以包括多家公司具有相同df zip.

距离矩阵版本是:

 df <- data.frame(zip = c("4760","5445", "2200","2200"), company = c("company x", "company y", "company z","company a"))
  corpus <- data.frame(zip = c("4760","5445", "2200", "2200", "2200"), company = c("company x inc.", "company y inc.", "company z inc.", "company a inc.", "company b inc."),
                       id = c(12121212, 23232323, 34343434, 56565656, 67676767))

    # large matrix version
    library(dplyr)
    dist_mat <- inner_join(corpus, df, by = "zip") %>%
      mutate(corpus_co=tolower(as.character(company.x)), df_co=tolower(as.character(company.y)), company.x=NULL, company.y=NULL) %>%
      group_by(zip) %>%
      do( { dist_df=data.frame(unique(.$corpus_co), 
                               stringdistmatrix(unique(.$corpus_co), unique(.$df_co), method=distance.method), stringsAsFactors=FALSE);
            colnames(dist_df) = c("corpus_co", unique(.$df_co));
            dist_df}) 

结果

     zip      corpus_co company z company a company x company y
  (fctr)          (chr)     (dbl)     (dbl)     (dbl)     (dbl)
1   2200 company z inc. 0.1190476 0.1798942        NA        NA
2   2200 company a inc. 0.1798942 0.1190476        NA        NA
3   2200 company b inc. 0.1798942 0.1798942        NA        NA
4   4760 company x inc.        NA        NA 0.1190476        NA
5   5445 company y inc.        NA        NA        NA 0.1190476

但是,由于矩阵中有 4000 行df,完整的字符串距离矩阵非常大,有很多 NA。更高效的版本使用包中的gather函数以格式tidyr生成结果 。key value在这种方法中,一些变量形成唯一的键,然后具有相关的值。包装的小插图tidyr更详细地解释了这一点。在您的情况下,corpus公司名称和df公司名称形成 ,key它们名称之间的字符串距离是value。这是针对每个邮政编码完成的,因此永远不会存储完整的字符串距离矩阵。您可能还会发现这更容易用于您的后续分析。该代码仅在最后一行与以前的版本不同。

library(tidyr)
dist_keyval <- inner_join(corpus, df, by = "zip") %>%
               mutate(corpus_co=tolower(as.character(company.x)), df_co=tolower(as.character(company.y)), company.x=NULL, company.y=NULL) %>%
               group_by(zip) %>%
               do( { dist_df=data.frame(unique(.$corpus_co), 
                               stringdistmatrix(unique(.$corpus_co), unique(.$df_co), method=distance.method), stringsAsFactors=FALSE);
                     colnames(dist_df) = c("corpus_co", unique(.$df_co));
                     gather(dist_df, key=df_co, value=str_dist, -corpus_co)})

这给出了结果

    zip      corpus_co     df_co  str_dist
  (fctr)          (chr)     (chr)     (dbl)
1   2200 company z inc. company z 0.1190476
2   2200 company a inc. company z 0.1798942
3   2200 company b inc. company z 0.1798942
4   2200 company z inc. company a 0.1798942
5   2200 company a inc. company a 0.1190476
6   2200 company b inc. company a 0.1798942
7   4760 company x inc. company x 0.1190476
8   5445 company y inc. company y 0.1190476

已编辑

查找与corpus_co每个之间的最小距离的代码df_co是:

 dist_min <- dist_keyval %>% group_by(zip, df_co) %>%
                slice(which.min(str_dist))

要在最终结果中添加列,您可以加入用于进行字符串距离计算(即小写名称)的公司名称的形式,如下所示:

final_result <- corpus %>% mutate(lower_co = tolower(as.character(company)))  %>%
            right_join(dist_min, by = c("zip", "lower_co" = "corpus_co") ) %>%
            select(c(df_co, company, id),  everything(), -lower_co)

这使

      df_co        company       id  zip  str_dist
1 company a company a inc. 56565656 2200 0.1190476
2 company z company z inc. 34343434 2200 0.1190476
3 company x company x inc. 12121212 4760 0.1190476
4 company y company y inc. 23232323 5445 0.1190476

最后一个select展示了如何将列重新排列为特定顺序。

于 2016-02-09T23:20:05.000 回答
1

我有一些想法。如果你不需要你的距离矩阵,你可以像这样解决它。我使用 dplyr 因为我更了解那个。您可以将代码分成几部分而不是一个 dplyr 命令。或者使用 data.table。那甚至可能更快。

采取的步骤:

  1. 通过 zip 上的内部连接加入 df 和语料库。这将删除所有不需要的记录,并且您的公司名称彼此相邻。
  2. 计算公司名称之间的距离
  3. 由原公司分组
  4. 过滤最小距离

这些步骤避免了使用首先创建一个矩阵,然后寻找最小值或将其他值放入 NA。

library(stringdist)
library(dplyr)

df <- data.frame(zip = c("4760","5445", "2200"), company = c("company x", "company y", "company z"))
corpus <- data.frame(zip = c("4760","5445", "2200", "2200", "2200"), company = c("company x inc.", "company y inc.", "company z inc.", "company a inc.", "company b inc."), id = c(12121212, 23232323, 34343434, 56565656, 67676767))


distance.method <- c("jw")

combined_min_distance <- inner_join(df, corpus, by = "zip" ) %>% 
  mutate(distance = stringdist(tolower(combined$company.x),
                    tolower(combined$company.y),
                    method = distance.method,
                    nthread = getOption("sd_num_thread"))) %>% 
  group_by(company.x) %>% 
  filter(distance == min(distance))

combined_min_distance

     zip company.x      company.y       id  distance
  (fctr)    (fctr)         (fctr)    (dbl)     (dbl)
1   2200 company z company z inc. 34343434 0.1190476
2   4760 company x company x inc. 12121212 0.1190476
3   5445 company y company y inc. 23232323 0.1190476
于 2016-02-09T20:20:24.607 回答
1

您可以使用stringdist::amatch并避免计算完整的 stringdist 矩阵。

df <- data.frame(zip = c("4760","5445", "2200"), company = c("company x", "company y", "company z"))
corpus <- data.frame(zip = c("4760","5445", "2200", "2200", "2200"), company = c("company x inc.", "company y inc.", "company z inc.", "company a inc.", "company b inc."), id = c(12121212, 23232323, 34343434, 56565656, 67676767))


i <- stringdist::amatch(df$company,corpus$company,maxDist=5)
merged <- data.frame(df$company,corpus$company[i])
merged

> merged
  df.company corpus.company.i.
1  company x    company x inc.
2  company y    company y inc.
3  company z    company z inc.

最好在之前进行一些字符串清理,这样您就知道这些距离只是由实际的拼写错误引起的(注意较低的maxDist)。

lookup <- gsub(" inc.$","",corpus$company)
i2 <- stringdist::amatch(df$company,lookup,maxDist=2)
merged2 <- data.frame(df$company,corpus$company[i2])
于 2016-02-26T17:09:29.023 回答