我的主要目标是将 mfcc 功能提供给 ANN。
但是我被困在数据预处理步骤中,我的问题有两个部分。
背景:
我有一个音频。我有一个 txt 文件,其中包含如下注释和时间戳:
0.0 2.5 Music
2.5 6.05 silence
6.05 8.34 notmusic
8.34 12.0 silence
12.0 15.5 music
我知道对于单个音频文件,我可以使用 librosa 计算 mfcc,如下所示:
import librosa
y, sr = librosa.load('abcd.wav')
mfcc=librosa.feature.mfcc(y=y, sr=sr)
第 1 部分:我无法解决两件事:
如何根据注释中的段计算 mfcc。
第 2 部分:如何最好地存储这些 mfcc 以将它们传递给 keras DNN。即是否应将每个音频段计算的所有 mfcc 保存到单个列表/字典中。或者最好将它们保存到不同的字典中,以便属于一个标签的所有 mfcc 都在一个位置。
我是音频处理和 python 的新手,所以我愿意接受有关最佳实践的建议。
非常乐意提供更多详细信息。谢谢。