我想看看两个非英语字符串在语音上有多相似,AFAIK soundex和metaphone实现仅适用于基于英语的字符串,例如coração,corassão在葡萄牙语中听起来完全一样,但metaphone()返回KRandKRS。其他音素也会发生同样的事情,chita并xita返回XTandST,但它们听起来是一样的。
我也尝试过这个Double Metaphone 实现(演示),但结果完全相同。
那么,是否有任何替代算法适用于葡萄牙语单词?我在另一个问题中读过关于 Lucene 的内容,但我以前从未使用过它,我不确定它是如何工作的或如何使用它。
如果没有,有谁知道我需要收集什么样的数据来开发类似变音位的算法?