signal-processing - 信号处理：有人可以为我解释不同类型的频谱图吗？

Question

我是信号处理的新手，我在谷歌上搜索了许多频谱图术语，但我找不到任何关于频谱图类型差异的东西。谁能帮我解释下图中不同频谱图的定义和含义？谢谢！

P/s：那么频谱图和色度的区别呢？色度的用途和用途是什么？

score 3 · Accepted Answer

色度和色度，大字！

Chroma 是chroma feature的缩写，指的是半音阶，即钢琴的 7 个白键（C、D、E、F、G、A、B）和它们之间的 5 个黑键组成的集合（利器和平板）。虽然这听起来很重要，但没有什么可担心的，色度特征是说音符或音高的炒作措辞，半音阶是我们今天使用的普通西方音乐音阶。更多关于“色度特征分析”。

^{半音阶的十二色度。资源}

这个半音音阶沿着键盘重复，但每次从左到右（低音到高音）重复时，第一个键（即 C）的实际频率加倍。这个 2/1几何音程称为八度音程（从音程开始键算起的八度、八度、八度白色音符）。音符之间的所有音程都以比率来衡量，例如，无论八度音程如何，5 度音程（例如 C 到 G）都等于 3/2（以 Hz 为单位的实际频率差异随着八度音程的增加而增加）。了解用于频谱图（使用实际赫兹数表示声信号中包含的频率）和色谱图的 y 标度非常重要（相同但用音符名称替换 Hz：C、C♯、D、Eb、E、F、F♯、G、Ab、A、Bb、B）。

在关于图表的解释之后，您可以继续阅读有关半音阶的内容。

频谱图

频谱图是 3D 表示，x 轴是时间，y 轴是频率，z 轴通常是幅度或功率。功率是幅度的平方。Z 值由网格点 (x,y) 处像素的颜色表示，类似于地理地图，颜色表示高度。

任何轴，x、y 或 z 都可以制成对数刻度，在这些对数刻度中，分贝（贝尔的十分之一）刻度。对于幅度，它对应于变换：dB（幅度）= 10 log (A/A0)，其中 A0 是参考值，除非另有说明，否则为 1。系数 10 只是给出常见比率的整数值，例如加倍是 +3dB（而 log 2 实际上是 0.3）。由于功率比是幅度比的平方，因此功率的分贝值是两倍：dB（功率）= 20 log (P/P0) 其中 P0 也是一个参考值，一般为 1。

上图显示了在时间 x（未显示）时频率 y (Hz) 的功率（z 为灰度），以 dB 表示。

颜色相同：

下图是相同的，除了 y 刻度是对数而不是线性的，如果能量集中在低频（例如 1 kHz 以下）则更有意义：

下一张图是一样的。从标题看来，显示的是功率而不是幅度，但视觉上没有颜色差异：

在下图中，“恒定 Q”标题可能意味着已使用恒定 Q 变换 (CQT)计算了功率值：

以前的所有图表都可能是离散傅里叶变换的结果。可能已选择 CQT 以更准确地从信号中提取音符。事实上，下图中显示了相同的数据，但 y 用注释而不是频率标记：

它看起来像一个色谱图，但它不是，因为 y 扩展超过一个八度。

色谱图

色谱图是特定的频谱图，其中 y 轴和 z 值是特定的。首先，幅度或功率由一个半音区间的频率段计算。

半音程：两个键之间的音程，白色或黑色，其比率等于2 的 12 次方根（因为八度音程是 2/1 的比率，包含 12 个半音程）。在音乐语言中也称为半音。

所以结果是每个时间 x 的一组频率区间。然后将来自不同八度音阶的相同音符（C、C#、D、Eb、E、F...）的 bin 相加，最终得到 12 个无八度音阶的 bin。

您可能想知道为什么将八度音阶相加，从而丢失了实际的频率信息。它特定于音乐声音，即由共振设备产生的声音。当这种设备产生频率为 f 的声音时，它也会产生 f 倍数的声音（2f，3f，4f），其幅度由其音乐音色强加。F 及其倍数称为谐波。倍数 2、4、8 等实际上是与 f 相同的音符，但在不同的八度音阶中。将它们分组是有意义的。将其他谐波（也是精确音符）分组也很有意义：这就是西方音阶的构建方式，12 个音符中的每一个都对应于 C 谐波，例如，如果 f 是 C 频率，G 频率是 3f/2，那么是 C 谐波 3 的频率减去一个八度音程。这种结构允许形成和弦，并且是和谐。

色谱图：

没有提到 z 轴所代表的内容，可能是相对于信号中发现的最大值的幅度（或功率）（在音符 E 附近）。

最后一张图的不同之处在于 y 轴不显示信号音高，而是显示样本的节奏（每分钟节拍数）。

时间图

刻度是对数的。颜色表示检测到此 BPM 数量的频率。检测到多个 BPM 值，因为有几个音符比一个时间短。音符以高于实际 BPM 的频率重复。通常用于执行分析的算法还提供最可能的 BPM，采用起始分布（例如librosa）。

更多关于半音阶

过去只使用白键度数（这被追溯称为全音阶）。但是当古典歌手开始演唱为乐器制作的部分时，他们将音符转换为他们可以唱歌的音域，而伴奏乐器的演奏必须比作曲家的乐谱低或高一点。

这称为转置（一个相关的概念是调制）。然而，白色音符之间的频率间隔并不相同：两个连续的白键演奏间隔一定间隔的音符（E/F 和 B/C），而由一个黑键分开的白键演奏的音符之间的间隔是另一个间隔的两倍。

因此，如果我们想将音程调高一个，C 变为 D，D 变为 E，E 变为……等等，E+1 处没有音符（F 为 E+1/2，G 为 E+1/2+ 1）。如果我们想向上转置 2 个区间，问题就会出现在其他地方。

解决方案是添加黑键，这样 12 个间隔中的每一个都是 1/2。这就是半音阶出现的方式。

实际上这样的C#（C+1/2）应该高于C以上1/2音程，并且在D以下应该有另一个黑键略低于1/2音程，称为Db（D flat）。C# 将用于某些移调，而 Cb 用于其他移调，以形成更好的共鸣和弦。

然而，对于现代键盘，# 和 b 合并为一个键以使键盘可玩。共享密钥的名称是什么？这取决于。对于 C#/Db，这是 C#，但对于 A#/Bb，这是 Bb。其原因根源于和谐，可以追溯到之前的平等气质使用。

在音阶的各个度数之间设置音程的方式称为律律，而在音程的正中间选择锐平融合的方式就是等律律。它使所有和弦都有点错误（不和谐）。

音乐是一个理论和实践不断发展（并且仍在发展）的领域，这给理解概念带来了很多困难。音阶是一个热门而感人的话题，因为没有办法用单一的音律使所有和弦都正确，有些和弦是特权的，而且选择经常受到挑战和改变。措辞没有遵循（所以像“半音阶”这样的措辞，仅表示仍然使用 12 度西方音阶）。

score 1 · Accepted Answer

我相信你肯定看过维基百科：https ://en.wikipedia.org/wiki/Spectrogram

不要与频谱图名称混淆，它们是根据它们所代表的内容或它们代表的方式命名的。为了完全理解频谱图，您必须阅读大量内容。从这个开始： http ://www.phon.ucl.ac.uk/courses/spsci/acoustics/week1-10.pdf

线性或对数表示线性或对数缩放。一些解释在这里： http: //manual.audacityteam.org/man/spectrogram_view.html

这里提到了功率谱图示例。为此，您必须了解功率谱密度： https ://www.mathworks.com/matlabcentral/answers/122472-how-to-get-the-power-spectral-density-from-a-spectrogram-in-a-给定频率范围？s_tid=gn_loc_drop

Constant-Q 是一个时域到频域的转换，如下所述： https ://en.wikipedia.org/wiki/Constant-Q_transform 它与 FFT 不同。

灰度只是使用灰色更容易观察频谱图

tempogram 是包含音乐信号的音频中速度的视觉表示。执行此操作的工具箱的一个示例如下： https ://www.audiolabs-erlangen.de/resources/MIR/tempogramtoolbox/

色度是声学中用于表示声音“颜色”的技术术语，如下所述：' http://acousticslab.org/psychoacoustics/PMFiles/Module05.htm#7b' “音高色度：特定音调的独特品质，将其与一个八度音程内的其他音调分开。它描述了一个八度音程内音高的感知“差异”/“距离”以及由一个或多个分隔的音高的感知相同性更完整的八度。这反映在不同的音符名称（例如 C、D、E、F、G、A、B、C、D ...）频率每增加 2/1 时会周期性重复（即每个八度音阶）加上一个下标（例如 C4）来指示该音高相对于某个参考音高的高低。换句话说，共享相同音高色度的两个音符之间的数字下标差异（例如 C4 vs. C5) 反映了两个音符之间一个或多个八度音阶的音高差。”

signal-processing - 信号处理：有人可以为我解释不同类型的频谱图吗？

2 回答 2

Related

Reference