python - 声音识别开始和停止录制 MP3 流

翻译自：https://stackoverflow.com/questions/59908986 2020-01-25T11:58:31.037

233 次

1

我正在尝试制作一个 Python 脚本，它将记录来自互联网广播 (MP3) 流的本地新闻，就像这样。新闻片段以两种不同的哔哔声开始和结束。

到目前为止，我的解决方案非常缓慢且未经优化：

使用 crontab 启动脚本（新闻每小时播报一次）。
录制固定时间的流。
将录音从 MP3 转换为 WAV。
对下采样数据集使用 Pearson 相关性（以更快地执行）将记录的 WAV 文件与蜂鸣声的 WAV 文件进行比较。
搜索最高的 Pearson 相关系数并计算记录文件中出现哔声的时间。
在计算的时间剪切录制的音频文件。

不用说我的解决方案很糟糕。

理想的解决方案是始终收听流媒体并仅在听到哔哔声时开始/停止录制。

知道我怎么能做到这一点吗？

PS：当我搜索 Google 时，几乎所有文章都涉及语音识别和其他使用 AI 分类器（如 Tensorflow），我认为识别简单的哔声有点过头了。

感谢所有提示和/或建议。

0 回答 0