问题标签 [librosa]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
audio - 为什么 librosa 中的情节不同?
我目前正在尝试使用 librosa 执行 stfft,以使参数类似于来自不同框架(Kaldi)的 stfft 进程。
音频文件是fash-b-an251
Kaldi 使用 16 KHz 的采样频率,window_size = 400 (25ms),hop_length=160 (10ms) 来完成它。
从中提取的频谱图如下所示:
基本上取自这里:
我在其中修改了 stfft 函数,使其适合我的参数。问题是它创建了一个完全不同的情节。
所以.. 我在 librosa 中做错了什么?.. 为什么这个情节与 kaldi 中的情节如此不同。
我错过了什么吗?
python - 无法让 librosa 加载 wav 文件
我得到了许多 wav 文件的音频数据集,并且厌倦了使用 librosa 进行编辑,但是我无法使用 librosa.load 读取某些文件。有人可以帮我弄清楚吗?
这是我的代码:
这是错误:
python - Librosa 功能 tonnetz 最终出现在 TypeError 中
我正在尝试从音频的谐波分量中提取 tonnetz。我的代码基本上是教程https://librosa.github.io/librosa/generated/librosa.feature.tonnetz.html的复制粘贴
我的代码:
这是堆栈跟踪:
知道如何解决这个问题吗?
python - python中的声音提取/处理
所以最近我想了解使用 NN 进行声音分类,我发现了这个教程:
aqibsaeed.github.io/2016-09-03-urban-sound-classification-part-1/
不幸的是,代码在某些领域似乎无法正常工作。
首先:
无法加载稍后要绘制的 10 个示例文件之一。我写了一个简短的脚本来检查有多少文件无法读取,结果大约是第一次折叠的 40%!所以我在网上读了一点,尝试了其他图书馆来阅读,最后得到了这个:
这似乎打开了所有文件,但是它输出的值与 librosa 略有不同,并且在某些情况下,绘图差异很大。大多数情况下都可以,但如果发生枪击:
枪声波形
枪声谱图
他们有很大的不同。
似乎 librosa 以 22050 的频率将每个 wav 打开为单声道,而 soundfile 将大多数文件打开为立体声,有些为单声道,具有不同的频率,具体取决于声音文件。
第一个问题来了:
为什么会这样?
为什么读取的数据以及单声道/立体声数据和频率不同?
如何确定哪些数据更准确?
后来我尝试了用于特征提取的代码,我最终得到了这个,在 tonnetz 函数上发生了相当长的崩溃报告:
老实说,我不知道那里发生了什么,希望能得到一些帮助。
matplotlib - 如何使用 librosa 和 matplotlib 很好地显示波图
参考此链接:https : //aqibsaeed.github.io/2016-09-03-urban-sound-classification-part-1/,我正在尝试制作相同的波形图,但是,我得到了这个图: .
我正在运行这些 python 代码:
知道如何改进以实现与链接中所示相同的数字吗?谢谢。
python - 在 python 上导入 Librosa 时出错
我正在努力导入 Librosa 库以进行声音分析。当我进入
我收到以下错误
我正在尝试在 Windows OS、Python 3.5 64 位上做所有事情。我需要安装其他一些库吗?我已经安装了许多其他库,例如 numpy、matplotlib、scipy 和其他一些基本库。请解释发生了什么:(
python - 在 python librosa 中创建图形 ctxt 对象时出错
我正在尝试使用 librosa 绘制一些 .wav 数据,但我遇到了一些不寻常的问题,在谷歌搜索“python librosa 错误创建图形 ctxt 对象”时找不到太多
可能与 macOS 相关。
我已经在 virtualenv 和外部尝试过,两种情况都出现同样的错误。
pip install {matplotlib, librosa, numpy} 在 virtualenv 和外部都显示为不需要更新
错误消息(不断超出此范围并锁定 python - 必须强制退出)
speech-recognition - 使用 Librosa 生成的频谱图看起来与 Kaldi 不一致?
我使用来自 Kaldi 的“egs/tidigits”代码生成了“七”话语的频谱图,使用 23 个 bin、20kHz 采样率、25ms 窗口和 10ms 移位。频谱图如下所示,通过 MATLAB imagesc 函数可视化:
我正在尝试使用 Librosa 作为 Kaldi 的替代品。我使用与上面相同数量的箱、采样率和窗口长度/移位设置我的代码如下。
但是,当我将生成的同一 WAV 文件的 Librosa 频谱图可视化时,它看起来会有所不同:
有人可以帮我理解为什么这些看起来如此不同吗?在我尝试过的其他 WAV 文件中,我注意到在上面的 Librosa 脚本中,我的擦音(如上例中“七”中的 /s/)正在被截断,这极大地影响了我的数字分类准确性。谢谢!
python - librosa.display.waveplot(np.array(f),sr=22050)-----AttributeError: 'module' 对象没有属性 'display'
参考此链接:https : //aqibsaeed.github.io/2016-09-03-urban-sound-classification-part-1/,我正在尝试制作相同的波形图,但是,我通过运行代码。 py,出现错误: