0

我有两个 Excel 表格,其中包含来自两个不同保险提供商的保险索赔数据。我需要找到在两个提供商下提出索赔的个人案例。

如果它们看起来可能是相同的名称,我希望有一些配对名称的东西,但如果它在另一张表中找不到足够相似的名称,则什么也不做。从我读过的内容来看,我认为我需要为此使用模糊字符串(也许还有 DL 距离)。我知道 R 有一个字符串距离函数 adist,但我正在努力学习如何正确使用它。

例如:

Provider 1:
Ms. Smith        35        F        Portland,OR             Cardiac
Adam Jacobs      27        M        San Francisco, CA       Gynecology
Emily Lo         19        F        Portland,OR             Ortho
Frances Wu       33        F        Dallas, TX              ENT

Provider 2: 
Clara Smith      35        F        Portland,OR              Cardiac
Bill White       29        M        San Francisco, CA        Ortho
Emily S. Lo      19        F        Portland,OR              Ortho
Dev Patel        22        M        Dallas, TX               Neuro

所以在这里它应该认识到 Emily S. Lo 和 Emily Lo 是同一个人,并且 Clara Smith 和 Ms.Smith 是同一个人,并给我一个包含他们的姓名和信息的列表。我该怎么做呢?

我尝试复制此人所做的事情:http: //bigdata-doctor.com/fuzzy-string-matching-survival-skill-tackle-unstructured-information-r/ 我尝试使用他们的数据,复制/粘贴他们的代码并保留得到 0x0 结果。

4

0 回答 0