“azure-speech”的相关标签问题

0 投票

1 回答

759 浏览

python - 如何通过 Python 使用批量转录 API

我创建了一个 Azure Batch Transcription Service，它将从 Azure blob 存储中获取音频文件作为输入，并与我共享 Speech to Text。

我可以使用https://eastus.cris.ai/swagger/ui/index#/网站实现上述目标，成功运行的 curl 命令是：

但是，如果我尝试通过 Python 以编程方式实现相同的目标，则会收到如下错误：

响应 [400] {"code":"InvalidPayload","message":"找不到有效对象。"}

这是我的代码：

如果我在 requests.post 中犯了一些错误，请告诉我

2019-04-04T09:48:45.290

0 投票

0 回答

311 浏览

c# - Azure“语音服务”中的“PhraseListGrammar 类”在使用美国英语作为语音识别语言时是否正常工作？

我正在使用 Unity 为 Android 设置一个应用程序，我想在其中将语音应用于文本功能，为此我正在使用Azure 的 Speech-Service 的 SDK。问题是当我说一个词时，识别器会尝试猜测这个词，而不是考虑我在说什么，例如在说伪词时。

这就是我想要实现Phrase List的原因，它可以帮助您提高语音识别的准确性。

所以我使用了PhraseListGrammar Class，当使用“en-US”作为 SpeechRecognitionLanguage 时它运行良好，但是当我尝试在使用“en-ES”时做同样的事情时，它只是省略了所有添加的短语并且问题仍然存在其他语言，也许我做错了什么。

昨天我在尝试这个，当使用“en-US”时它就像一个魅力，现在它不工作了，所以一定有一些东西丢失了。

我希望它能够提高对添加的关键字的识别度，但它不起作用。

c#android unity3d azure-cognitive-services azure-speech

2019-05-17T13:32:30.913

0 投票

1 回答

711 浏览

azure - Azure 认知服务 - 批量转录 API 响应错误消息“录制 URI 无效”。

遵循的步骤：

我在美国西部创建了一个语音服务实例。
我有正确的标题(Content-Type and Ocp-Apim-Subscription-Key)
我使用以下请求有效负载向https://westus.cris.ai/api/speechtotext/v2.0/transcriptions/发出 POST 请求

我收到带有以下标题的“202 Accepted”响应。这确认请求正文是有效的。

当我向上述位置发出 GET 请求时，我看到了这个

尽管它们都是有效的 URL，但某些 URL 的转录失败，而将其他 URL 传递给同一存储中的 blob。请求中的 SAS URI 有效期至年底。
我通过代码和邮递员多次重试了相同的请求，但失败了。

链接到 Swagger 页面：https ://westus.cris.ai/swagger/ui/index

azure azure-cognitive-services azure-speech

2019-05-27T16:57:43.450

0 投票

2 回答

628 浏览

c# - SpeakSsmlAsync 返回 BadRequest

调用SpeakSsmlAsync（Microsoft Speech SDK）时，返回如下错误信息：

重现步骤：

从https://github.com/Azure-Samples/cognitive-services-speech-sdk/tree/master/quickstart/text-to-speech/csharp-dotnet-windows下载快速入门示例
用自己的值替换订阅 ID 和区域，按照文档中的描述设置活动配置，清理并重建项目
启动程序并输入一些文本，如“abracadabra”

--> 工作正常（使用SpeakTextAsync）
替换SpeakTextAsync为SpeakSsmlAsync
启动程序并输入一些文本

--> 错误代码=错误请求
使用正确的 SSML 代码重试，例如<speak version="1.0" xmlns="https://www.w3.org/2001/10/synthesis" xml:lang="en-US">abracadabra</speak>“

--> 错误代码=错误请求

系统

.NET 框架 4.6.1
Windows 10 内部版本 17134
服务区域 = “西欧”

代码

调试截图

c#.net speech-synthesis azure-cognitive-services azure-speech

2019-06-03T08:51:19.703

0 投票

0 回答

138 浏览

c# - Azure Speech To Text：会话转录用户 ID 始终返回 $ref$

使用示例代码转录对话，但在识别事件时我总是 $ref$ 在调用时得到e.Result.UserId。

我对语音签名使用 16 位样本、16 kHz 采样率和单通道（单声道）格式。以及用于转录对话的 32 位样本、32 kHz 采样率和单通道（单声道）格式。

所有代码来自：https ://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/how-to-use-conversation-transcription-service

有什么想法吗？或我可以使用的 .wav 示例文件？

UPD

似乎音频格式不正确。应该是 16 位，16kHZ，8 通道（立体声左=1，立体声右=2，单声道=3，单声道=4，单声道=5，单声道=6，单声道=7，静音单声道=8）。

在这里您可以找到enrollment_audio_steve.wav、enrollment_audio_katie.wav 和对话katiesteve.wav。它的格式正确。但是它不允许从enrollment_audio_katie.wav 创建签名。所以它与史蒂夫一起工作。

它似乎仍然只适用于 SpeechSDK 设备。但我能够根据这种格式录制自己的音频。

c#speech-to-text azure-cognitive-services azure-speech

2019-08-08T12:35:39.070

0 投票

2 回答

745 浏览

azure - Azure 语音到带有数字的文本

我的应用程序的一个用例是将语音（单个单词的话语）转换为文本。为此，我需要使用 Azure 语音来发短信。有时需要将语音转换为整数 - 例如，我需要将响应作为数量提交。我的问题是无论如何，通过 REST API，告诉语音到文本服务我想要一个数字结果吗？目前它正在返回诸如“one”而不是“1”和“free”而不是“3”之类的东西。我认为文档中没有办法做到这一点，但我想看看其他人是否已经解决了这个问题，然后再想办法解决这个问题。这是我在概念验证项目中使用的代码：

这是我想成为“1”的结果示例：

azure azure-cognitive-services azure-speech

2019-08-15T08:37:20.933

0 投票

1 回答

237 浏览

c# - Azure 对话转录：用户 ID 以 $ref$ 形式出现

我正在使用 Microsoft 语音 SDK（及其示例代码）来转录多方对话。转录工作正常，但它返回 $ref$ 而不是为提供签名Unidentified的人和没有签名的人返回用户 ID。

我没有使用 Roobo，而是使用 Audacity 准备的声音文件，它是 16 位 16 kHz PCM 音频的八个通道。转录确实有效，所以我认为声音文件不是问题。似乎该服务正在正确识别与签名文件相关的声音（例如，它在文本的正确位置从 $ref$ 切换到 Unknown），但它似乎无法访问扬声器名称（模型中的用户 ID） .

不幸的是，除了提供的 Microsoft 示例（ https://docs.microsoft.com/bs-latn-ba/azure/cognitive-services/speech-service/how-to）之外，我在网上找不到任何 C# 代码可以参考-使用对话转录服务）。

我看到这里有一个类似问题的帖子（但没有答案）：Azure Speech To Text: Conversation Tracing userid always return $ref$

有没有人尝试过这个并让它工作？

c#speech-to-text azure-cognitive-services azure-speech

2019-08-22T13:58:35.350

0 投票

1 回答

401 浏览

python-3.x - 为什么 Azure 的 Speech To Text 这么慢？

我正在使用 Azure Speech To Text API 来识别从 10 秒到 1 分钟的小型语音录音。每次语音识别大约需要 5 秒才能完成，这似乎有点太多了！

这是我的做法：

我试图确定瓶颈，使用timeit：

我实际上使用了一个包装函数来重新初始化 Speech_recognizer，因为在它上面调用识别（）使它不可用。

在这个实验中，转录一段 11 秒的录音大约需要 7 秒。

我正在将音频文件转录为法语，使用service_region = "westeurope"

python-3.x optimization speech-to-text azure-speech

2019-11-07T15:57:17.467

0 投票

2 回答

55 浏览

azure - 要通过语音使用 Azure LUIS，我需要先获取文本吗？

我认为标题解释了我的疑问。

我在 Azure 的 Speech to Text 功能之前尝试过。问题是：有没有办法将声音二进制文件用于 Azure LUIS 而不是文本？

azure azure-language-understanding azure-cognitive-services azure-speech

2019-11-26T18:56:15.103

0 投票

1 回答

107 浏览

botframework - 语音识别在口语句末添加的句号与动作不匹配

我开发了一个虚拟助手，并正在使用网络聊天通过认知语音服务对其进行测试。我有一个问题：机器人的一些响应包括建议的操作，例如，

通过输入或单击所选颜色，一切正常。如果我使用麦克风讲话，则在句子末尾添加一个“句号”，即“BLUE”。这样 LUIS 就无法识别答案并重新提出问题。

让它正确识别的最佳方法是什么？有没有办法禁止语音引擎添加最后的句号？还是有更好的解决方案？（比如标准化 LUIS 中的标点符号以使其忽略它或其他什么？）

botframework speech-recognition azure-language-understanding azure-cognitive-services azure-speech

2020-01-10T15:34:54.400

问题标签 [azure-speech]

Reference