algorithm - 比较两个数据结构的相似性

Question

我正在尝试找到一种算法来检查两个数据条目之间的相似性。假设我有两个数据结构（联系人列表中的字段），其中包含以下数据：

// UserA addressbook.
name: Frank Sinatra
mobile: +44 555 555 555 55

// UserB addressbook.
name: Frank Albert Sinatra
phone: 004455555555555

我从不同的提供商那里获得了这些条目，UserA同步了他的 Google 帐户，同时UserB同步了他的 Microsoft 帐户，但我希望我的算法告诉我两个用户都认识同一个人（在一定概率内）。

有谁知道我应该去哪里看？我试图找到创建“不安全”散列的散列算法，即类似数据的类似散列，但该路由没有效率。

score 1 · Accepted Answer

字符串的相似度可以用Levenshtein distance来确定。测试前应准备好字符串，例如删除特殊字符或拆分字符串。对于数据结构，请查看如何测量 2 系列数据之间的相似性？

score 0 · Accepted Answer

您可以进一步研究一些关键字：数据相似性、距离/相似性度量（指标）、相关性、不精确匹配。

2 回答 2