我正在做一个小型学校项目,我必须拍摄大量音频文件并将它们转录成 .txt 文件。我是编程的初学者。到目前为止,我已经尝试过使用 Google 的 Cloud Speech API 的alexkras方法。但是我不能将它用于大量转录,因为它是通过使用外部软件将音频转换为 .wav 来完成的(这也可以通过 ffmpeg 完成,所以没什么大不了的)并将新的 .wav 文件拆分为 <60s作为 Cloud Speech 的部分一次只能转录 <60 秒,这在 trans 中是一个很大的损失,除非您将它们上传到 GCS,但这也是大规模转录的问题,因为一些 .wav 文件足够大(我使用的 1 小时播客转进入 800mb 文件)该过程减慢。
我尝试的下一个是使用 gcloud SDK 并使用终端中的一个小代码直接转录 GCS 上的音频文件,现在我在这里观察到的问题是转录不完整,它以这种方式显示转录,
来自谷歌的例子:
{
"@type": "type.googleapis.com/google.cloud.speech.v1.LongRunningRecognizeResponse",
"results": [
{
"alternatives": [
{
"confidence": 0.9840146,
"transcript": "how old is the Brooklyn Bridge"
}
]
}
]
}
这并不理想,也许有一种方法可以将其传输到文本文件中,但到目前为止我所做的转录并不完整,我从 11 分钟的视频中总共得到了 <30 行文本。
我尝试过的最有效的方法是 alexkras 方法,但正如我上面所说的那样也有问题(就我而言)。我一直在研究语音到文本的机器学习方法,以便它也可以识别或转录带有口音的音频。
你们知道有什么方法可以帮助我有效地将大量音频转录成文本吗?如果不是用于拆分文件或将其上传到 GSC,它会非常高兴使用 alexkras 方法。我将不胜感激任何帮助或建议或指导。谢谢你。