1

我想做一个语音到文本分析的项目,我想 1)说话者识别 2)说话者分类 3)语音到文本。现在,我正在测试为 Microsoft、Google、AWS、IBM 等各种公司提供的各种 API,我可以在 Microsoft 中找到您可以选择用户注册和说话者识别 ( https://cognitivewuppe.portal.azure-api.net/ docs/services/563309b6778daf02acc0a508/operations/5645c3271984551c84ec6797)但是,所有其他平台都具有说话人分类功能,但没有说话人识别功能。在演讲者分类中,如果我理解正确,它将能够“区分”用户,但除非我不注册他们,否则它将如何识别?我只能找到 azure 中可用的注册选项

但我想确定一下,所以只想在这里检查一下,也许我正在查看正确的文档,或者也许有其他方法可以在 Google Cloud、Watson 和 AWS 转录中实现这一目标。如果是这样的话,你们可以帮我解决这个问题吗

4

1 回答 1

2

说话人识别分为说话人验证和说话人识别两大类。 https://docs.microsoft.com/en-us/azure/cognitive-services/speaker-recognition/home

Diarization 是在一段音频中分离扬声器的过程。我们的 Batch 流水线支持 diarization,并且能够识别单声道录音中的两个扬声器。当您使用批量转录 api 并启用 diarization 时。它将返回 1,2。所有转录输出都包含一个 SpeakerId。如果不使用 diarization,它将在 JSON 输出中显示 "SpeakerId": null。对于 diarization,我们支持两种声音,因此扬声器将被标识为“1”或“2”。 https://github.com/MicrosoftDocs/azure-docs/blob/master/articles/cognitive-services/Speech-Service/batch-transcription.md

例如:在呼叫中心场景中,客户不需要识别谁在说话,并且由于每次都有新用户打进来,因此无法预先用说话者的声音训练模型。相反,他们只需要在将语音转换为文本时识别不同的声音。

或者

您可以使用 Video Indexer 支持转录、说话者分类(枚举)以及从文本和语调中识别情感。还提供其他见解,例如主题推断、语言识别、品牌检测、翻译等。您可以通过仅视频或音频的 API 使用它来优化 COGS。您可以使用 VI 进行扬声器分类。获得洞察 JSON 后,您可以在 Insights.transcript[0].speakerId 和 Insights.Speakers 下找到演讲者 ID。在处理音频文件时,每个扬声器都在不同的通道上重新编码,VI 会识别它并相应地应用转录和分类。

于 2020-01-23T11:13:17.677 回答