1

我能够运行这段代码并获取音频文件的转录。但它不区分扬声器(结果始终显示“扬声器 1”,“扬声器 2”永远无法识别)。

https://github.com/Azure-Samples/cognitive-services-speech-sdk/blob/master/samples/batch/python/python-client/main.py

我一直在使用的文件示例:

英文: https ://transcripttests.blob.core.windows.net/testfiles/pulpfiction.mp3

法语: https ://transcripttests.blob.core.windows.net/testfiles/dialogue50smono44100.wav

4

2 回答 2

0

感谢您报告问题。我可以确认您的问题,即两种音频只能识别 1 个扬声器。我们正在与我们的分类科学家团队核实此问题的根本原因,并将很快回复您。带来不便敬请谅解!

于 2021-06-01T05:40:37.633 回答
0

更新:

我们最近发布了一个新版本,第一个音频(英语)应该产生 2 个扬声器。请检查并让我们知道是否有任何问题。

至于第二个音频(法语),这个更复杂,我们的科学家正在研究它。会及时更新。谢谢!


原来的:

感谢您的耐心等待。我们知道并且可以重现该问题。

对于第一个音频(英语),两个说话者都是男性并且非常相似,这就是我们的分类服务没有区分他们的一个原因。

对于第二个音频(法语),是来自女性说话者的 3 个话语,#2 和 #3 很短,而#1 恰好被我们的系统分成 2 个短话语,因此它们都不被视为说话者2.

我们的科学家正在积极研究这一点,但到目前为止还没有确切的预计到达时间。一旦我们有更新,我会通知你。谢谢!

于 2021-06-15T18:26:41.617 回答