我正在使用这个库https://code.google.com/p/libmfcc/从幅度平方功率谱生成 MFCC 系数。
但是,据我了解,第一个系数应该代表整体能量。我的结果并非如此。这让我怀疑整个功能集。
F0:-3.77,F1:-2.78,F2:2.13,F3:4.47,F4:2.76,F5:-0.00,F6:-0.58,F7:0.76,F8:1.49,F9:0.62,F10:-0.44,F11 :-0.26,F12:0.58
- 这些是应用升降机之前的原始 MFCC 功能。
我想要这个系数的唯一原因是帮助消除我项目中的问题。- 我传入一个 256 个实数长的幅度功率谱(最初为 512 FFT),采样频率为 16000hz。我很确定 FFT 是正确的,因为我已经进行了测试以检查生成的频率。
我正在尝试使用这些功能来执行说话人识别,但目前我不断收到误报。我已经尝试将生成的特征与神经网络、矢量量化以及简单的蛮力欧几里得和斯皮尔曼的比较一起使用。我所做的一切似乎都无法消除声音之间系数的唯一性。以误报告终。
我已经坚持了几个月了,我觉得这是我的功能的错。任何帮助将不胜感激!