我正在尝试制作一个 Python 脚本,它将记录来自互联网广播 (MP3) 流的本地新闻,就像这样。新闻片段以两种不同的哔哔声开始和结束。
到目前为止,我的解决方案非常缓慢且未经优化:
- 使用 crontab 启动脚本(新闻每小时播报一次)。
- 录制固定时间的流。
- 将录音从 MP3 转换为 WAV。
- 对下采样数据集使用 Pearson 相关性(以更快地执行)将记录的 WAV 文件与蜂鸣声的 WAV 文件进行比较。
- 搜索最高的 Pearson 相关系数并计算记录文件中出现哔声的时间。
- 在计算的时间剪切录制的音频文件。
不用说我的解决方案很糟糕。
理想的解决方案是始终收听流媒体并仅在听到哔哔声时开始/停止录制。
知道我怎么能做到这一点吗?
PS:当我搜索 Google 时,几乎所有文章都涉及语音识别和其他使用 AI 分类器(如 Tensorflow),我认为识别简单的哔声有点过头了。
感谢所有提示和/或建议。