问题标签 [bing-speech]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
783 浏览

voice-recognition - 可以将 Microsoft Bing Speech 配置为仅返回数字/字母吗?

是否可以将 Microsoft Bing 语音 API 配置为仅返回数字和字母,而不是完整的单词?

用例是翻译加拿大邮政编码。前任。M 1 B 0 R 3. Microsoft 可能会返回“Em 1 Be 0 Are 3”

我们的音频文件是 8000hz 并用“M-ULAW”编码。我们无法灵活地更改采样率或编码。我们正在使用“SMD”场景,但我找不到任何关于它的作用的文档。基本请求 URI:

https://speech.platform.bing.com/recognize?scenarios=smd&appid=D4D52672-91D7-4C74-8AD8-42B1D98141A5&device.os=your_device_os&version=3.0

有没有办法让 Microsoft 对此用例做出更准确的响应?

谢谢

0 投票
1 回答
1518 浏览

c# - Bing Speech to Text API - 在 c# 中通过 websocket 进行通信

我正在尝试通过 WebSockets 让 Bing Speech API 在 C# 中工作。我在此处查看了 Javascript 中的实现,并一直遵循此处的协议说明,但我遇到了一堵完整的砖墙。我不能使用现有的 C# 服务,因为我在 Linux 容器中运行,所以我需要使用 .net Core 上的实现。烦人的是,现有的服务是闭源的!

我可以成功连接到网络套接字,但我无法让服务器响应我的连接。我希望收到turn.start来自服务器的文本消息,但是一旦我发送了几个字节的音频文件,我就会从服务器启动。我知道音频文件的格式正确,因为我直接从此处的 C# 服务示例中获得了它。

我觉得我已经用尽了这里的选项。我现在唯一能想到的是我没有正确发送音频块。目前,我只是以连续的 4096 字节发送音频文件。我知道第一条音频消息包含只有 36 个字节的 RIFF 标头,然后我只是将它与下一个 (4096-36) 字节一起发送。

这是我的完整代码。您应该能够将其作为 .net 核心或 .net 框架控制台应用程序运行,并且需要一个音频文件和一个 API 密钥。

0 投票
1 回答
622 浏览

azure - 如何播放从 Bing Text to Speech API 返回的音频流?

我正在将 Azure 代码示例用于 Text to Speech API ( https://github.com/Azure-Samples/Cognitive-Speech-TTS/tree/master/Samples-Http/PHP ),它返回音频但我没有不明白我如何捕获流以在浏览器中播放?

我正在尝试在这里构建文本到语音演示https://azure.microsoft.com/en-us/services/cognitive-services/speech/

0 投票
1 回答
107 浏览

api - 语音 API 使用 1 个套接字连接和 1 个音频输入翻译成超过 1 种语言

如果可以以一种流/音频被翻译成一种以上语言的方式使用 Microsoft Translator 语音 API,我永远找不到信息?

在官方文档页面上,我看到我只能发送一个参数to =>指定将转录文本翻译成的语言...

0 投票
1 回答
3014 浏览

azure - 如何使用超过 1024 个字符的 Azure 语音服务 (TTS)?

我正在使用 Azure Bing TTS 进行一些数学听写。数字之间有很多停顿。

例如:

它花了我很多<break time="600ms" />字符。我想超过 1024 个字符的限制,但没有找到任何方法来超过使用 REST API 的 TSS 服务的 1024 个字符的限制。

还有另一种方法吗?也许与另一个 API、服务或客户端库?甚至多付一点钱。

谢谢。

0 投票
0 回答
70 浏览

ios - 已启用适用于 iOS 位码的 Microsoft Speech SDK

使用适用于 iOS 的 SpeechSDK。应用程序未构建,因为 SDK 未启用位码。

无法禁用 bitcode,因为该项目使用强制使用 bitcode 的 Apple Watch 组件,禁用 bitcode 也意味着禁用 Apple Watch。

关于我们如何解决这个问题的任何想法?

此外,该框架有两个单独的文件用于 iPhoneOS 和 iPhoneSimulator,有没有办法为应用程序中的 Debug 和 Release 配置链接这些单独的框架

0 投票
1 回答
1333 浏览

c# - 如何将实时语音添加到 Microsoft bot 框架的文本数据(正是 google 语音所做的)

我是微软 bot 框架的新手。我已经构建了一个简单的聊天机器人,当我将它发布并部署到 webapp 频道时,它看起来像这样 在此处输入图像描述

用户将在其中选择或键入文本,机器人将做出响应。现在我需要的是,我需要在发送选项附近添加一个麦克风,这样如果用户点击麦克风并开始说话,那么它应该由机器人自动输入(谷歌语音到底是怎么做的)

我有 bing 语音到文本 api 参考键,但我不知道如何在其中添加和激活麦克风功能。

如果有人知道请帮我解决这个问题

0 投票
1 回答
217 浏览

c# - Bot 框架模拟器 VS 网络聊天

我有这个代码:

当我输入某些内容时,它会检查是音频文件还是文本,如果是音频,它会发送到 Bing Speech 以便从音频文件中获取文本。

我在 Bot Framework 模拟器上对其进行了测试并且正在工作,但是当我尝试从网络聊天中上传文件时,它说无法发送我也收到此错误 - 将此消息发送到您的机器人时出错:HTTP 状态代码 GatewayTimeout

我想在 Skype 上部署这个机器人并上传音频文件或使用 microfon 并从中获取文本。

0 投票
2 回答
1384 浏览

python - 如何在 Python 中使用 Bing Speech API 转录语音文件?

如何在 Python 中使用 Bing Speech API 转录语音文件?我的语音文件超过 15 秒。


我知道有人可能会在 Python 中使用 Bing Speech REST API。 https://gist.github.com/jellis505/973ea6de12508c7c720da4a074e7d065给出了 Python 2 中的示例:

但是,根据https://docs.microsoft.com/en-us/azure/cognitive-services/speech/home,Bing Speech REST API 无法转换超过 15 秒的音频文件:

在此处输入图像描述

0 投票
1 回答
228 浏览

c# - 设置 Microsoft Bing 语音识别时的问题

我正在尝试使用 Microsoft 的 Bing 语音识别服务库。以下命令必须在带有参数的 cmd 中给出。但是我不知道应该以哪种格式输入此命令。我在任何地方都找不到它。有人能帮我吗?我应该指定一个现有的音频 WAV 文件吗?应该给出路径吗?什么是“音频语言环境”?

SpeechClientSample.exe使用以下参数运行:

  • Arg[0]:指定输入音频 WAV 文件。
  • Arg[1]:指定音频区域。
  • Arg[2]:指定识别模式:ShortPhrase模式和LongDictation模式。
  • Arg[3]:指定订阅密钥以访问语音识别服务。

请参阅C# for .NET Windows 中的语音识别服务库入门