0

我计算给定声音文件的 fft 并得到一个形状的数组,例如 (100,257) 具有 100 行和 257 个频率箱。我想用它作为神经网络的输入向量,但在我想用 librosa lib 标准化之前

https://librosa.github.io/librosa/generated/librosa.util.normalize.html#librosa.util.normalize

那么我应该对axis = 0或axis = 1进行标准化吗?axis=0 对在行上聚合的列进行归一化,axis=1 对每一行进行归一化,或者我应该对独立于行和列的每个值进行归一化?

4

1 回答 1

0

标准化 fft 的方式取决于您的应用程序和最终性能。没有通用的标准化方案。

在我的一个应用程序中,我没有对原始 fft 进行归一化并将其输入到神经网络。一种常用的标准化方法是取对数。该操作可以减小动态范围。

于 2017-07-21T13:50:17.470 回答