google-cloud-platform - Speaker Diarizations vs Speaker Recognition google cloud vs microsoft azure vs ibm watson vs aws transcribe

Question

我想做一个语音到文本分析的项目，我想 1）说话者识别 2）说话者分类 3）语音到文本。现在，我正在测试为 Microsoft、Google、AWS、IBM 等各种公司提供的各种 API，我可以在 Microsoft 中找到您可以选择用户注册和说话者识别 ( https://cognitivewuppe.portal.azure-api.net/ docs/services/563309b6778daf02acc0a508/operations/5645c3271984551c84ec6797）但是，所有其他平台都具有说话人分类功能，但没有说话人识别功能。在演讲者分类中，如果我理解正确，它将能够“区分”用户，但除非我不注册他们，否则它将如何识别？我只能找到 azure 中可用的注册选项

但我想确定一下，所以只想在这里检查一下，也许我正在查看正确的文档，或者也许有其他方法可以在 Google Cloud、Watson 和 AWS 转录中实现这一目标。如果是这样的话，你们可以帮我解决这个问题吗

score 2 · Accepted Answer

说话人识别分为说话人验证和说话人识别两大类。 https://docs.microsoft.com/en-us/azure/cognitive-services/speaker-recognition/home

Diarization 是在一段音频中分离扬声器的过程。我们的 Batch 流水线支持 diarization，并且能够识别单声道录音中的两个扬声器。当您使用批量转录 api 并启用 diarization 时。它将返回 1,2。所有转录输出都包含一个 SpeakerId。如果不使用 diarization，它将在 JSON 输出中显示 "SpeakerId": null。对于 diarization，我们支持两种声音，因此扬声器将被标识为“1”或“2”。 https://github.com/MicrosoftDocs/azure-docs/blob/master/articles/cognitive-services/Speech-Service/batch-transcription.md

例如：在呼叫中心场景中，客户不需要识别谁在说话，并且由于每次都有新用户打进来，因此无法预先用说话者的声音训练模型。相反，他们只需要在将语音转换为文本时识别不同的声音。

或者

您可以使用 Video Indexer 支持转录、说话者分类（枚举）以及从文本和语调中识别情感。还提供其他见解，例如主题推断、语言识别、品牌检测、翻译等。您可以通过仅视频或音频的 API 使用它来优化 COGS。您可以使用 VI 进行扬声器分类。获得洞察 JSON 后，您可以在 Insights.transcript[0].speakerId 和 Insights.Speakers 下找到演讲者 ID。在处理音频文件时，每个扬声器都在不同的通道上重新编码，VI 会识别它并相应地应用转录和分类。

google-cloud-platform - Speaker Diarizations vs Speaker Recognition google cloud vs microsoft azure vs ibm watson vs aws transcribe

1 回答 1

Related

Reference