python - 比较两张电子名片

Question

我有两张电子名片：

vcard1 = "BEGIN:VCARD
          VERSION:3.0
          N;CHARSET=UTF-8:Name;;;;
          TEL:0005555000
          END:VCARD"

vcard2 = "BEGIN:VCARD
      VERSION:3.0
      N;CHARSET=UTF-8:Name;;;;
      TEL:0005555000
      EMAIL;CHARSET=UTF-8:my_email@email.com
      END:VCARD"

如您所见，唯一的区别是第二个 vcard 有一个附加属性，即 EMAIL？使用代码可以将这两个电子名片视为相等吗？

import vobject
print(vobject.readOne(vcard1).serialize()==vobject.readOne(vcard2).serialize())

score 2 · Accepted Answer

解决方案

任何比较的第一条规则是定义比较的基础。如果您正在寻找可以比较的数量，您甚至可以比较苹果和橙子：例如“苹果与橙子的数量”或“5 个苹果与 5 个橙子的重量”。基本比较基础的定义必须是明确的。

注意：我将使用以下Dummy Data部分的数据。

将此概念扩展到您的用例，您可以将vcards与每个字段进行比较，然后还可以与所有字段进行比较。例如，我向您展示了三种比较它们的方法：

Example A1:仅vcard1比较和之间的公共字段vcard2。
Example A2: 比较和之间的所有文件。vcard1vcard2
Example A3：仅比较和之间的常见用户指定文件。vcard1vcard2

显然，在这种情况下，如果您比较 and 的序列化版本vcard1，vcard2它将返回False，因为这两个 vcard 的内容不同。

vc1.serialize()==vc2.serialize() # False

例子

在每种情况下 ( A1, A2, A3)，自定义函数compare_vcards()都会返回两件事：

match: a dict，在每个字段的级别给出匹配
summary: a dict，给出聚合的绝对匹配（如果所有字段都匹配）和相对（比例[0,1]：）匹配（适合部分匹配）。

但是您必须定义自己的业务逻辑来确定您认为什么是匹配的，什么不是。我在这里展示的内容应该可以帮助您入门。

## Example - A1
#  Compare ONLY COMMON fields b/w vc1 and vc2
match, summary = compare_vcards(vc1, vc2, mode='common')
print(f'match:   \t{match}')
print(f'summary: \t{summary}')

## Output
# match:    {'n': True, 'tel': True, 'version': True}
# summary:  {'abs_match': True, 'rel_match': 1.0}

## Example - A2
#  Compare ALL fields b/w vc1 and vc2
match, summary = compare_vcards(vc1, vc2, mode='all')
print(f'match:   \t{match}')
print(f'summary: \t{summary}')

## Output
# match:    {'tel': True, 'email': False, 'n': True, 'version': True}
# summary:  {'abs_match': False, 'rel_match': 0.75}

## Example - A3
#  Compare ONLY COMMON USER-SPECIFIED fields b/w vc1 and vc2
match, summary = compare_vcards(vc1, vc2, fields=['email', 'n', 'tel'])
print(f'match:   \t{match}')
print(f'summary: \t{summary}')

## Output
# match:    {'email': False, 'n': True, 'tel': True}
# summary:  {'abs_match': False, 'rel_match': 0.6666666666666666}

代码

def get_fields(vc1, vc2, mode='common'):
    if mode=='common':
        fields = set(vc1.sortChildKeys()).intersection(set(vc2.sortChildKeys()))
    else:
        # mode = 'all'
        fields = set(vc1.sortChildKeys()).union(set(vc2.sortChildKeys()))
    return fields

def compare_vcards(vc1, vc2, fields=None, mode='common'):
    if fields is None:
        fields = get_fields(vc1, vc2, mode=mode) 
    match = dict(
        (field, str(vc1.getChildValue(field)).strip()==str(vc2.getChildValue(field)).strip()) 
        for field in fields
    )
    summary = {
        'abs_match': all(match.values()), 
        'rel_match': sum(match.values()) / len(match)
    }
    return match, summary

虚拟数据

vcard1 = """
BEGIN:VCARD
VERSION:3.0
N;CHARSET=UTF-8:Name;;;;
TEL:0005555000
END:VCARD
"""

vcard2 = """
BEGIN:VCARD
VERSION:3.0
N;CHARSET=UTF-8:Name;;;;
TEL:0005555000
EMAIL;CHARSET=UTF-8:my_email@email.com
END:VCARD
"""

# pip install vobject
import vobject

vc1 = vobject.readOne(vcard1)
vc2 = vobject.readOne(vcard2)

python - 比较两张电子名片

1 回答 1

解决方案

例子

代码

虚拟数据

参考

python - 比较两张电子名片

1 回答 1

解决方案

例子

代码

虚拟数据

参考

Related

Reference