0

我正在使用 Microsoft 语音 SDK(及其示例代码)来转录多方对话。转录工作正常,但它返回$ref$而不是为提供签名Unidentified的人和没有签名的人返回用户 ID。

我没有使用 Roobo,而是使用 Audacity 准备的声音文件,它是 16 位 16 kHz PCM 音频的八个通道。转录确实有效,所以我认为声音文件不是问题。似乎该服务正在正确识别与签名文件相关的声音(例如,它在文本的正确位置从 $ref$ 切换到 Unknown),但它似乎无法访问扬声器名称(模型中的用户 ID) .

不幸的是,除了提供的 Microsoft 示例( https://docs.microsoft.com/bs-latn-ba/azure/cognitive-services/speech-service/how-to)之外,我在网上找不到任何 C# 代码可以参考-使用对话转录服务)。

我看到这里有一个类似问题的帖子(但没有答案):Azure Speech To Text: Conversation Tracing userid always return $ref$

有没有人尝试过这个并让它工作?

4

1 回答 1

0

似乎音频格式不正确。应该是 16 位,16kHZ,8 通道(立体声左=1,立体声右=2,单声道=3,单声道=4,单声道=5,单声道=6,单声道=7,静音单声道=8)。

在这里您可以找到enrollment_audio_steve.wav、enrollment_audio_katie.wav 和对话katiesteve.wav。它的格式正确。但是它不允许从enrollment_audio_katie.wav 创建签名。所以它与史蒂夫一起工作。

它似乎仍然只适用于 SpeechSDK 设备。但我能够根据这种格式录制自己的音频。

于 2019-12-06T11:01:16.297 回答