问题标签 [azure-speech]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何通过 Python 使用批量转录 API
我创建了一个 Azure Batch Transcription Service,它将从 Azure blob 存储中获取音频文件作为输入,并与我共享 Speech to Text。
我可以使用https://eastus.cris.ai/swagger/ui/index#/网站实现上述目标,成功运行的 curl 命令是:
但是,如果我尝试通过 Python 以编程方式实现相同的目标,则会收到如下错误:
响应 [400] {"code":"InvalidPayload","message":"找不到有效对象。"}
这是我的代码:
如果我在 requests.post 中犯了一些错误,请告诉我
c# - Azure“语音服务”中的“PhraseListGrammar 类”在使用美国英语作为语音识别语言时是否正常工作?
我正在使用 Unity 为 Android 设置一个应用程序,我想在其中将语音应用于文本功能,为此我正在使用Azure 的 Speech-Service 的 SDK。问题是当我说一个词时,识别器会尝试猜测这个词,而不是考虑我在说什么,例如在说伪词时。
这就是我想要实现Phrase List的原因,它可以帮助您提高语音识别的准确性。
所以我使用了PhraseListGrammar Class,当使用“en-US”作为 SpeechRecognitionLanguage 时它运行良好,但是当我尝试在使用“en-ES”时做同样的事情时,它只是省略了所有添加的短语并且问题仍然存在其他语言,也许我做错了什么。
昨天我在尝试这个,当使用“en-US”时它就像一个魅力,现在它不工作了,所以一定有一些东西丢失了。
我希望它能够提高对添加的关键字的识别度,但它不起作用。
azure - Azure 认知服务 - 批量转录 API 响应错误消息“录制 URI 无效”。
遵循的步骤:
- 我在美国西部创建了一个语音服务实例。
- 我有正确的标题
(Content-Type and Ocp-Apim-Subscription-Key)
- 我使用以下请求有效负载向https://westus.cris.ai/api/speechtotext/v2.0/transcriptions/发出 POST 请求
- 我收到带有以下标题的“202 Accepted”响应。这确认请求正文是有效的。
- 当我向上述位置发出 GET 请求时,我看到了这个
- 尽管它们都是有效的 URL,但某些 URL 的转录失败,而将其他 URL 传递给同一存储中的 blob。请求中的 SAS URI 有效期至年底。
- 我通过代码和邮递员多次重试了相同的请求,但失败了。
链接到 Swagger 页面:https ://westus.cris.ai/swagger/ui/index
c# - SpeakSsmlAsync 返回 BadRequest
调用SpeakSsmlAsync
(Microsoft Speech SDK)时,返回如下错误信息:
重现步骤:
从https://github.com/Azure-Samples/cognitive-services-speech-sdk/tree/master/quickstart/text-to-speech/csharp-dotnet-windows下载快速入门示例
用自己的值替换订阅 ID 和区域,按照文档中的描述设置活动配置,清理并重建项目
启动程序并输入一些文本,如“abracadabra”
--> 工作正常(使用
SpeakTextAsync
)替换
SpeakTextAsync
为SpeakSsmlAsync
启动程序并输入一些文本
--> 错误代码=错误请求
使用正确的 SSML 代码重试,例如
<speak version="1.0" xmlns="https://www.w3.org/2001/10/synthesis" xml:lang="en-US">abracadabra</speak>
“--> 错误代码=错误请求
系统
- .NET 框架 4.6.1
- Windows 10 内部版本 17134
- 服务区域 = “西欧”
代码
调试截图
c# - Azure Speech To Text:会话转录用户 ID 始终返回 $ref$
使用示例代码转录对话,但在识别事件时我总是$ref$
在调用时得到e.Result.UserId
。
我对语音签名使用 16 位样本、16 kHz 采样率和单通道(单声道)格式。以及用于转录对话的 32 位样本、32 kHz 采样率和单通道(单声道)格式。
有什么想法吗?或我可以使用的 .wav 示例文件?
UPD
似乎音频格式不正确。应该是 16 位,16kHZ,8 通道(立体声左=1,立体声右=2,单声道=3,单声道=4,单声道=5,单声道=6,单声道=7,静音单声道=8)。
在这里您可以找到enrollment_audio_steve.wav、enrollment_audio_katie.wav 和对话katiesteve.wav。它的格式正确。但是它不允许从enrollment_audio_katie.wav 创建签名。所以它与史蒂夫一起工作。
它似乎仍然只适用于 SpeechSDK 设备。但我能够根据这种格式录制自己的音频。
azure - Azure 语音到带有数字的文本
我的应用程序的一个用例是将语音(单个单词的话语)转换为文本。为此,我需要使用 Azure 语音来发短信。有时需要将语音转换为整数 - 例如,我需要将响应作为数量提交。我的问题是无论如何,通过 REST API,告诉语音到文本服务我想要一个数字结果吗?目前它正在返回诸如“one”而不是“1”和“free”而不是“3”之类的东西。我认为文档中没有办法做到这一点,但我想看看其他人是否已经解决了这个问题,然后再想办法解决这个问题。这是我在概念验证项目中使用的代码:
这是我想成为“1”的结果示例:
c# - Azure 对话转录:用户 ID 以 $ref$ 形式出现
我正在使用 Microsoft 语音 SDK(及其示例代码)来转录多方对话。转录工作正常,但它返回$ref$
而不是为提供签名Unidentified
的人和没有签名的人返回用户 ID。
我没有使用 Roobo,而是使用 Audacity 准备的声音文件,它是 16 位 16 kHz PCM 音频的八个通道。转录确实有效,所以我认为声音文件不是问题。似乎该服务正在正确识别与签名文件相关的声音(例如,它在文本的正确位置从 $ref$ 切换到 Unknown),但它似乎无法访问扬声器名称(模型中的用户 ID) .
不幸的是,除了提供的 Microsoft 示例( https://docs.microsoft.com/bs-latn-ba/azure/cognitive-services/speech-service/how-to)之外,我在网上找不到任何 C# 代码可以参考-使用对话转录服务)。
我看到这里有一个类似问题的帖子(但没有答案):Azure Speech To Text: Conversation Tracing userid always return $ref$
有没有人尝试过这个并让它工作?
python-3.x - 为什么 Azure 的 Speech To Text 这么慢?
我正在使用 Azure Speech To Text API 来识别从 10 秒到 1 分钟的小型语音录音。每次语音识别大约需要 5 秒才能完成,这似乎有点太多了!
这是我的做法:
我试图确定瓶颈,使用timeit
:
我实际上使用了一个包装函数来重新初始化 Speech_recognizer,因为在它上面调用识别()使它不可用。
在这个实验中,转录一段 11 秒的录音大约需要 7 秒。
我正在将音频文件转录为法语,使用service_region = "westeurope"
azure - 要通过语音使用 Azure LUIS,我需要先获取文本吗?
我认为标题解释了我的疑问。
我在 Azure 的 Speech to Text 功能之前尝试过。问题是:有没有办法将声音二进制文件用于 Azure LUIS 而不是文本?
botframework - 语音识别在口语句末添加的句号与动作不匹配
我开发了一个虚拟助手,并正在使用网络聊天通过认知语音服务对其进行测试。我有一个问题:机器人的一些响应包括建议的操作,例如,
通过输入或单击所选颜色,一切正常。如果我使用麦克风讲话,则在句子末尾添加一个“句号”,即“BLUE”。这样 LUIS 就无法识别答案并重新提出问题。
让它正确识别的最佳方法是什么?有没有办法禁止语音引擎添加最后的句号?还是有更好的解决方案?(比如标准化 LUIS 中的标点符号以使其忽略它或其他什么?)