在我的项目中,我使用的是名为 LIUM_SpkDiarization-4.7.jar 的库,但我不太确定它是如何工作的。有人可以解释一下吗?
另外,我将它与python一起使用。
图书馆的链接是:https ://voiceid.googlecode.com/svn-history/r11/trunk/scripts/LIUM_SpkDiarization-4.7.jar
提前致谢。
我不知道这个工具。它看起来真的很酷。你查过他们的wiki吗?他们有一些关于系统如何工作的论文:http: //lium3.univ-lemans.fr/diarization/doku.php
基本上,他们计算 MFCC Mel 频率倒谱系数(标准技术)。这是基本步骤。它生成一个可以使用的特征空间。它类似于及时计算滑动窗口上的 FFT。最终,使用贝叶斯信息准则 (BIC) 方法对这些时间切片特征进行聚类。首先对基于时间的特征空间进行分割,然后进行聚类,并为每个说话人找到一致的特征。HMM、viterbi、EM,有时也可以使用 GMM。
我不太了解算法来详细解释它,但这也应该有帮助: http: //lium3.univ-lemans.fr/diarization/doku.php/overview