问题标签 [azure-speech]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
759 浏览

python - 如何通过 Python 使用批量转录 API

我创建了一个 Azure Batch Transcription Service,它将从 Azure blob 存储中获取音频文件作为输入,并与我共享 Speech to Text。

我可以使用https://eastus.cris.ai/swagger/ui/index#/网站实现上述目标,成功运行的 curl 命令是:

但是,如果我尝试通过 Python 以编程方式实现相同的目标,则会收到如下错误:

响应 [400] {"code":"InvalidPayload","message":"找不到有效对象。"}

这是我的代码:

如果我在 requests.post 中犯了一些错误,请告诉我

0 投票
0 回答
311 浏览

c# - Azure“语音服务”中的“PhraseListGrammar 类”在使用美国英语作为语音识别语言时是否正常工作?

我正在使用 Unity 为 Android 设置一个应用程序,我想在其中将语音应用于文本功能,为此我正在使用Azure 的 Speech-Service 的 SDK。问题是当我说一个词时,识别器会尝试猜测这个词,而不是考虑我在说什么,例如在说伪词时。

这就是我想要实现Phrase List的原因,它可以帮助您提高语音识别的准确性。

所以我使用了PhraseListGrammar Class,当使用“en-US”作为 SpeechRecognitionLanguage 时它运行良好,但是当我尝试在使用“en-ES”时做同样的事情时,它只是省略了所有添加的短语并且问题仍然存在其他语言,也许我做错了什么。

昨天我在尝试这个,当使用“en-US”时它就像一个魅力,现在它不工作了,所以一定有一些东西丢失了。

我希望它能够提高对添加的关键字的识别度,但它不起作用。

0 投票
1 回答
711 浏览

azure - Azure 认知服务 - 批量转录 API 响应错误消息“录制 URI 无效”。

遵循的步骤:

  1. 我在美国西部创建了一个语音服务实例。
  2. 我有正确的标题(Content-Type and Ocp-Apim-Subscription-Key)
  3. 我使用以下请求有效负载向https://westus.cris.ai/api/speechtotext/v2.0/transcriptions/发出 POST 请求
  1. 我收到带有以下标题的“202 Accepted”响应。这确认请求正文是有效的。
  1. 当我向上述位置发出 GET 请求时,我看到了这个
  1. 尽管它们都是有效的 URL,但某些 URL 的转录失败,而将其他 URL 传递给同一存储中的 blob。请求中的 SAS URI 有效期至年底。
  2. 我通过代码和邮递员多次重试了相同的请求,但失败了。

链接到 Swagger 页面https ://westus.cris.ai/swagger/ui/index

0 投票
2 回答
628 浏览

c# - SpeakSsmlAsync 返回 BadRequest

调用SpeakSsmlAsync(Microsoft Speech SDK)时,返回如下错误信息:

重现步骤:

  1. 从https://github.com/Azure-Samples/cognitive-services-speech-sdk/tree/master/quickstart/text-to-speech/csharp-dotnet-windows下载快速入门示例

  2. 用自己的值替换订阅 ID 和区域,按照文档中的描述设置活动配置,清理并重建项目

  3. 启动程序并输入一些文本,如“abracadabra”

    --> 工作正常(使用SpeakTextAsync

  4. 替换SpeakTextAsyncSpeakSsmlAsync

  5. 启动程序并输入一些文本

    --> 错误代码=错误请求

  6. 使用正确的 SSML 代码重试,例如<speak version="1.0" xmlns="https://www.w3.org/2001/10/synthesis" xml:lang="en-US">abracadabra</speak>

    --> 错误代码=错误请求

系统

  • .NET 框架 4.6.1
  • Windows 10 内部版本 17134
  • 服务区域 = “西欧”

代码

调试截图

在此处输入图像描述

0 投票
0 回答
138 浏览

c# - Azure Speech To Text:会话转录用户 ID 始终返回 $ref$

使用示例代码转录对话,但在识别事件时我总是$ref$在调用时得到e.Result.UserId

我对语音签名使用 16 位样本、16 kHz 采样率和单通道(单声道)格式。以及用于转录对话的 32 位样本、32 kHz 采样率和单通道(单声道)格式。

所有代码来自:https ://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/how-to-use-conversation-transcription-service

有什么想法吗?或我可以使用的 .wav 示例文件?

UPD

似乎音频格式不正确。应该是 16 位,16kHZ,8 通道(立体声左=1,立体声右=2,单声道=3,单声道=4,单声道=5,单声道=6,单声道=7,静音单声道=8)。

在这里您可以找到enrollment_audio_steve.wav、enrollment_audio_katie.wav 和对话katiesteve.wav。它的格式正确。但是它不允许从enrollment_audio_katie.wav 创建签名。所以它与史蒂夫一起工作。

它似乎仍然只适用于 SpeechSDK 设备。但我能够根据这种格式录制自己的音频。

0 投票
2 回答
745 浏览

azure - Azure 语音到带有数字的文本

我的应用程序的一个用例是将语音(单个单词的话语)转换为文本。为此,我需要使用 Azure 语音来发短信。有时需要将语音转换为整数 - 例如,我需要将响应作为数量提交。我的问题是无论如何,通过 REST API,告诉语音到文本服务我想要一个数字结果吗?目前它正在返回诸如“one”而不是“1”和“free”而不是“3”之类的东西。我认为文档中没有办法做到这一点,但我想看看其他人是否已经解决了这个问题,然后再想办法解决这个问题。这是我在概念验证项目中使用的代码:

这是我想成为“1”的结果示例:

0 投票
1 回答
237 浏览

c# - Azure 对话转录:用户 ID 以 $ref$ 形式出现

我正在使用 Microsoft 语音 SDK(及其示例代码)来转录多方对话。转录工作正常,但它返回$ref$而不是为提供签名Unidentified的人和没有签名的人返回用户 ID。

我没有使用 Roobo,而是使用 Audacity 准备的声音文件,它是 16 位 16 kHz PCM 音频的八个通道。转录确实有效,所以我认为声音文件不是问题。似乎该服务正在正确识别与签名文件相关的声音(例如,它在文本的正确位置从 $ref$ 切换到 Unknown),但它似乎无法访问扬声器名称(模型中的用户 ID) .

不幸的是,除了提供的 Microsoft 示例( https://docs.microsoft.com/bs-latn-ba/azure/cognitive-services/speech-service/how-to)之外,我在网上找不到任何 C# 代码可以参考-使用对话转录服务)。

我看到这里有一个类似问题的帖子(但没有答案):Azure Speech To Text: Conversation Tracing userid always return $ref$

有没有人尝试过这个并让它工作?

0 投票
1 回答
401 浏览

python-3.x - 为什么 Azure 的 Speech To Text 这么慢?

我正在使用 Azure Speech To Text API 来识别从 10 秒到 1 分钟的小型语音录音。每次语音识别大约需要 5 秒才能完成,这似乎有点太多了!

这是我的做法:

我试图确定瓶颈,使用timeit

我实际上使用了一个包装函数来重新初始化 Speech_recognizer,因为在它上面调用识别()使它不可用。

在这个实验中,转录一段 11 秒的录音大约需要 7 秒。

我正在将音频文件转录为法语,使用service_region = "westeurope"

0 投票
2 回答
55 浏览

azure - 要通过语音使用 Azure LUIS,我需要先获取文本吗?

我认为标题解释了我的疑问。

我在 Azure 的 Speech to Text 功能之前尝试过。问题是:有没有办法将声音二进制文件用于 Azure LUIS 而不是文本?

0 投票
1 回答
107 浏览

botframework - 语音识别在口语句末添加的句号与动作不匹配

我开发了一个虚拟助手,并正在使用网络聊天通过认知语音服务对其进行测试。我有一个问题:机器人的一些响应包括建议的操作,例如,

通过输入或单击所选颜色,一切正常。如果我使用麦克风讲话,则在句子末尾添加一个“句号”,即“BLUE”。这样 LUIS 就无法识别答案并重新提出问题。

让它正确识别的最佳方法是什么?有没有办法禁止语音引擎添加最后的句号?还是有更好的解决方案?(比如标准化 LUIS 中的标点符号以使其忽略它或其他什么?)