python - 如何使用python将音频缓冲区传递给语音到文本服务

Question

我正在使用 azure speech to text service 使用 python 来处理一堆音频。为了处理音频，这些是执行的步骤-

将音频从 Web 服务器下载到本地“C:/audio”驱动器。
将下载音频的路径传递给 Speech SDK - Audioconfig(filename ='C:/audio/my_audio.wav')

我不想下载到本地机器，而是想从服务器获取文件并将其直接传递给语音到文本服务。为此，

我将音频以这样的bytes形式存储在音频缓冲区中-raw_audio = my_audio_in_bytes # class <'bytes'>
然后，我将音频缓冲区传递给 AudioConfig(filename = raw_audio) -它不起作用。因为它需要一个文件路径

有没有办法将音频缓冲区传递给这个服务？

配置python代码：

speech_config = speechsdk.SpeechConfig(subscription=speech_key, region=service_region)
audio_config = speechsdk.audio.AudioConfig(filename='C:/audios/audio1.wav')
speech_recognizer = speechsdk.SpeechRecognizer(speech_config=speech_config, audio_config=audio_config)

score 0 · Accepted Answer

@user1990，根据我们对此 GitHub 问题的讨论，请使用批量转录，因为语音 SDK 不直接支持从托管在 Web 服务上的 WAV 文件进行识别（您首先需要在本地下载它）。

python - 如何使用python将音频缓冲区传递给语音到文本服务

1 回答 1

Related

Reference