问题标签 [azure-speech]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
javascript - 如何借助 RecordRTC 在 JavaScript 中创建 WAV 流?
我正在尝试创建一个应用程序来转录流式录音。这个想法是使用 RecordRTC 捕获用户的麦克风流,并使用Socket.IO将其分块发送到 gunicorn 服务器。然后,服务器将为Azure Speech to Text创建一个输入流:
我正在尝试使用 RecordRTC 以Azure Speech to Text 接受的格式每 x 秒捕获一次音频:
ondataavailable 返回的 blob 似乎返回了一个字节字符串。但是,对于 Azure Speech to Text,我更喜欢接收波形格式的块。可以使用 getBlob() 以 WAV 格式检索整个录音,但客户端仅在调用 stopRecording() 后才生成文件。
RecordRTC 有没有办法每 x 秒以波形格式返回一个 blob?如果没有,还有哪些其他选项可以通过 Gunicorn 将音频流式传输到 Azure Speech to Text?
非常感谢所有帮助!
python - 如何使用python将音频缓冲区传递给语音到文本服务
我正在使用 azure speech to text service 使用 python 来处理一堆音频。为了处理音频,这些是执行的步骤-
- 将音频从 Web 服务器下载到本地“C:/audio”驱动器。
- 将下载音频的路径传递给 Speech SDK - Audioconfig(filename ='C:/audio/my_audio.wav')
我不想下载到本地机器,而是想从服务器获取文件并将其直接传递给语音到文本服务。为此,
我将音频以这样的
bytes
形式存储在音频缓冲区中-raw_audio = my_audio_in_bytes # class <'bytes'>
然后,我将音频缓冲区传递给 AudioConfig(filename = raw_audio) -它不起作用。因为它需要一个文件路径
有没有办法将音频缓冲区传递给这个服务?
配置python代码:
azure - 针对非英语母语者的 Azure 发音/流利度评估
我正在使用 azure speech 的流畅度评估。https://docs.microsoft.com/en-in/azure/cognitive-services/speech-service/how-to-pronunciation-assessment?pivots=programming-language-python
我的问题是: 以英语为母语的人作为参考返回的评分。有没有办法在记住非英语母语者的情况下创建分数?
javascript - Azure Text to Speech Throttled due to too many requests websocket error code: 1007 with only 3 concurrent requests
我正在使用 Azure 文本转语音服务。我有很多小的 ssml 文件,我为其生成音频,然后使用 FFMPEG 将它们组合起来。我写了一个脚本来生成所有的小音频文件。如果脚本发出 3 个并发请求,则在总共大约 20 个请求之后,其他一些请求将完成,但文件将为空。检查结果对象,我看到Throttled due to too many requests websocket error code: 1007
. 如果我从脚本中删除任何并发并在最后一个文件的结尾和下一个请求之间添加 1 秒的等待,它就可以工作。
我检查了 Text to Speech API 的配额和限制,它提到最多 20 个并发请求(这与我发送的 3 个相去甚远)。
关于我可能做错了什么的任何想法(我正在使用 javascript SDK)。
botframework - 收到后立即从“UnmixedMeetingAudio”缓冲区创建转录 - 具有应用程序托管媒体的机器人
我使用此处提供的示例创建了一个使用 bot 框架 (.net) 和应用程序托管媒体的机器人。Bot 参加 Microsoft Teams 中的任何传入点对点或组呼叫。AudioMediaReceived
在会议期间,当参与者在示例中提供的类内的事件处理程序中发言时,我能够接收音频缓冲区CallHandler.cs
。现在我想从中生成成绩单。我想要一些关于:
这可以在会议结束时完成吗,我很困惑,因为它在许多地方 ( 1 )( 2 )
“您不得使用此 SDK 记录或以其他方式保存您的机器人访问的通话或会议中的媒体内容”
.
这适合什么场景?是否可以从收到的字节数组(UnmixedAudioBuffer 数据)中生成 wave(.wav) 文件,并在会议结束时将其用于转录?
由于我们以非常快的速度接收音频帧(每秒 50 帧),如果我要异步实时生成脚本,我应该怎么做。是关于将缓冲区数据转换为 .wav 还是在内存流中并使用一些云语音服务/API?有微软提供的语音服务和谷歌云提供的语音转文本资源。非常感谢您的指导。
javascript - 在使用 Microsoft 认知语音服务时,拒绝从 Chrome 扩展应用程序中的 blob 创建工作人员
我正在尝试开发一个 Chrome 扩展程序,使用 Microsoft 认知语音服务识别 Google Meet 中的语音。在尝试实现这一点时,我收到以下错误
错误:
拒绝从“blob:https://meet.google.com/4f586067-ea8f-4e7f-9215-51ef426d3c9a”创建工作人员, 因为它违反了以下内容安全策略指令:“worker-src 'self'”。
拒绝从“blob:https ://meet.google.com/4f586067-ea8f-4e7f-9215-51ef426d3c9a”创建工作人员, 因为它违反了以下内容安全策略指令:“script-src 'nonce-+MDEaQqsMKs++ 6oR20YT3Q''不安全评估''自我'“。请注意,'worker-src' 没有明确设置,所以 'script-src' 用作后备。
我试图通过在manifest.json添加“ content_security_policy ”来解决这个错误。
“content_security_policy”:“script-src‘self’;script-src-elem‘self’数据:blob:;worker-src‘self’数据:blob:;object-src‘self’”
我在取消Azure 语音识别事件时遇到安全错误
SecurityError:无法构造“Worker”:文档的内容安全策略拒绝访问“blob:”处的脚本
还尝试通过将 sdk 下载到我的扩展包并从那里使用它,而不是直接在脚本中使用下面的 cdn 链接。但仍然抛出同样的错误。
Azure 语音服务 CDN: https ://cdn.jsdelivr.net/npm/microsoft-cognitiveservices-speech-sdk@latest/distrib/browser/microsoft.cognitiveservices.speech.sdk.bundle-min.js
任何人都可以帮我用 chrome 扩展解决这个 CSP 问题吗?
azure - 如何将 Azure 连续语音识别结果保存在变量中?
我正在尝试将 Azure 连续语音识别用于语音转文本项目。这是 Azure 提供的示例代码:
当我运行它时,它会在终端中打印结果。如何将所有结果保存在变量中并返回?
json - 如何从 Azure 认知服务中保存转换后的文本数据?
我目前很难将语音结果从 Microsoft azure 认知服务 API 保存为文本。
这是我的代码。
我想保存从语音到文本 API 转换后的文本。我已经有了订阅密钥和区域,但不知道如何将数据保存到 JSON 文件。
azure-cognitive-services - Azure 语音 SDK 在 4 分钟不活动后停止语音识别,状态为:服务超时
我正在使用 Azure 语音 SDK 来实现语音文本翻译功能。该服务正在执行其翻译工作,但是在 4 分钟不活动后,该服务正在调用取消事件,该事件以状态服务超时停止语音识别,由于服务不活动,超出了客户端缓冲区大小。重置缓冲区。