我有两个 Excel 表格,其中包含来自两个不同保险提供商的保险索赔数据。我需要找到在两个提供商下提出索赔的个人案例。
如果它们看起来可能是相同的名称,我希望有一些配对名称的东西,但如果它在另一张表中找不到足够相似的名称,则什么也不做。从我读过的内容来看,我认为我需要为此使用模糊字符串(也许还有 DL 距离)。我知道 R 有一个字符串距离函数 adist,但我正在努力学习如何正确使用它。
例如:
Provider 1:
Ms. Smith 35 F Portland,OR Cardiac
Adam Jacobs 27 M San Francisco, CA Gynecology
Emily Lo 19 F Portland,OR Ortho
Frances Wu 33 F Dallas, TX ENT
Provider 2:
Clara Smith 35 F Portland,OR Cardiac
Bill White 29 M San Francisco, CA Ortho
Emily S. Lo 19 F Portland,OR Ortho
Dev Patel 22 M Dallas, TX Neuro
所以在这里它应该认识到 Emily S. Lo 和 Emily Lo 是同一个人,并且 Clara Smith 和 Ms.Smith 是同一个人,并给我一个包含他们的姓名和信息的列表。我该怎么做呢?
我尝试复制此人所做的事情:http: //bigdata-doctor.com/fuzzy-string-matching-survival-skill-tackle-unstructured-information-r/ 我尝试使用他们的数据,复制/粘贴他们的代码并保留得到 0x0 结果。