我有 df1 和 df2。我想使用fuzzywuzzy将df1中的A列与df2中的A列进行字符串匹配,并根据一定的比率匹配在df2的B列中返回一个ID。
例如:
df1 看起来像这样:
姓名
莎莉卖贝壳
df2 看起来像这样:
姓名 | ID
Sally slls 贝壳 | 28904
我要做的是比较 df1 中 A 列中的所有内容,以在 df2 中的 A 列中找到匹配项,并从 df2 中的 B 列返回 ID。
我希望能够设置模糊比率的标准。例如:我只希望它在比率高于 50 时返回一个 ID。
我当前的代码:
import pandas as pd
import numpy as np
from fuzzywuzzy import fuzz
from fuzzywuzzy import process
df1=pd.read_csv('C:\\Users\\nkurdob\\Desktop\\Sheet1.csv')
df2=pd.read_csv('C:\\Users\\nkurdob\\Desktop\\Sheet2.csv')
for i in range(len(df1)):
em = df1['A'][i]
test = fuzz.partial_ratio(em, df2['A'])
if test > 50:
print df1['A'][i]==df2['B']