c# - Azure 对话转录：用户 ID 以 $ref$ 形式出现

Question

我正在使用 Microsoft 语音 SDK（及其示例代码）来转录多方对话。转录工作正常，但它返回 $ref$ 而不是为提供签名Unidentified的人和没有签名的人返回用户 ID。

我没有使用 Roobo，而是使用 Audacity 准备的声音文件，它是 16 位 16 kHz PCM 音频的八个通道。转录确实有效，所以我认为声音文件不是问题。似乎该服务正在正确识别与签名文件相关的声音（例如，它在文本的正确位置从 $ref$ 切换到 Unknown），但它似乎无法访问扬声器名称（模型中的用户 ID） .

不幸的是，除了提供的 Microsoft 示例（ https://docs.microsoft.com/bs-latn-ba/azure/cognitive-services/speech-service/how-to）之外，我在网上找不到任何 C# 代码可以参考-使用对话转录服务）。

我看到这里有一个类似问题的帖子（但没有答案）：Azure Speech To Text: Conversation Tracing userid always return $ref$

有没有人尝试过这个并让它工作？

score 0 · Accepted Answer

似乎音频格式不正确。应该是 16 位，16kHZ，8 通道（立体声左=1，立体声右=2，单声道=3，单声道=4，单声道=5，单声道=6，单声道=7，静音单声道=8）。

在这里您可以找到enrollment_audio_steve.wav、enrollment_audio_katie.wav 和对话katiesteve.wav。它的格式正确。但是它不允许从enrollment_audio_katie.wav 创建签名。所以它与史蒂夫一起工作。

它似乎仍然只适用于 SpeechSDK 设备。但我能够根据这种格式录制自己的音频。

c# - Azure 对话转录：用户 ID 以 $ref$ 形式出现

1 回答 1

Related

Reference