问题标签 [azure-speech]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
382 浏览

javascript - 使用适用于 Javascript 的 Azure 认知语音服务 sdk 的自定义关键字连续识别选项

使用 Microsoft 认知语音服务提供的自定义关键字识别器,我想使用 microsoft-cognitiveservices-speech-sdk npm 包在浏览器上设置连续识别。有没有办法设置连续的关键字识别。截至目前,只有单一时间识别选项可作为 sdk 的一部分。一旦识别出关键字,它将触发 Speech to Text 服务来处理进一步的语音。执行所需操作后,关键字识别将再次接管。有没有办法在不使用提供连续关键字识别的自定义命令的情况下完成此操作?

0 投票
1 回答
129 浏览

javascript - Azure 语音 SDK:来自 javascript 中的 GetUserMedia 的 createPushStream

我正在尝试查找有关如何使用 getUserMedia 流对象通过 Azure Speech SDK 创建PushStream 的示例。请注意,我打算在 Safari 中运行代码,因此无法使用 MediaRecorder。目的是使用 getUserMedia 流来提供 SpeechSDK.SpeechRecognizer (SpeechSDK.AudioConfig.fromStreamInput) 并将流保存为音频文件。SpeechSDK.AudioConfig.fromDefaultMicrophoneInput 不允许这样做。

0 投票
1 回答
131 浏览

javascript - Azure Speech javascript SDK:以 mp3 格式输出音频

我使用 sdk.connection 方法从语音到文本识别器中捕获音频。它创建了我想要转换为 MP3 的 PCM 音频。

这是连接的初始化方式:

这是 wav 文件构建:

我尝试使用 lamejs 将“sentAudio”转换为 MP3。

MP3 Blob 为空或包含听不见的声音。我也尝试过使用本示例中描述的“encodeMP3”方法,但它给出了相同的输出。

任何支持这种 mp3 转换的现有解决方案?

0 投票
1 回答
164 浏览

azure - 什么是 Azure 认知服务语音到文本 webhook 回调 IP 到白名单?

我需要在公司防火墙后面使用 azure 认知服务(语音到文本)。一旦处理完成,语音到文本批处理会从 azure 通知回调。( https://github.com/Azure-Samples/cognitive-services-speech-sdk/tree/master/samples/batch/csharp ) - 见 webhookreceiver.cs

有谁知道需要在公司防火墙上列入白名单的 azure 认知服务 IP 地址,以便我可以接收来自认知服务的回调请求?

0 投票
1 回答
199 浏览

python - 直接从流中使用 Azure 语音在 python 中翻译

我正在寻找语音 sdk 和一些示例中的功能,它可以让我从 Azure 语音中翻译来自麦克风以外的其他来源的实时流。到目前为止,我找到了两个不完全符合我需求的解决方案

这个,翻译直播,但似乎使用默认麦克风。

https://docs.microsoft.com/en-us/azure/cognitive-services/speech-service/get-started-speech-translation?tabs=script%2Cwindowsinstall&pivots=programming-language-python

我也找到了这个解决方案,使用speech_recognition_with_push_stream().,女巫很接近,但似乎没有翻译。只有语音到文本: Azure Speech SDK Speech to text from stream using python

谢谢你的帮助!

0 投票
0 回答
131 浏览

azure-speech - 文本到语音 - 没有在 .wav 中获得音频(连接被拒绝)

我运行一个烧瓶服务器,只要页面上发生特定操作,就会调用该函数:

在执行结束时,包含音频的文件只是一个空的 0B 文件。我从字面上复制粘贴了快速入门指南,所以我不知道出了什么问题。

我所做的尝试是将订阅密钥更改为随机的,并且没有引发错误。在 azure 服务网页的日志中也没有出现任何内容。

这是取消的详细信息

这是日志

https://pastebin.com/aapsMXYc

0 投票
1 回答
104 浏览

microsoft-cognitive - 无法上传语音数据集,因为“失败”

因此,我正在尝试将数据集上传到 Microsoft 认知服务语音门户以获取自定义模型。

我已经这样做了大约一年没有问题,但是现在我得到了“失败”的详细信息“上传数据失败。请检查您的数据格式并尝试再次上传。” ... 很有用。

除了我已经检查过的以下内容之外,有谁知道可能导致该问题的原因。

  1. 文件大小为 1.3GB(压缩)/1.8GB(解压缩),低于https://docs.microsoft.com/en-us/azure/cognitive中指定的“数据导入的最大声学数据集文件大小”的 2GB 限制-services/speech-service/speech-services-quotas-and-limits#model-customization

  2. Trans.txt 文件是格式正确的 1.3MB UTF-8 文件,带有一个 BOM 文本文件,其中包含https://docs.microsoft.com/en-us/azure/cognitive-services/speech中指定的制表符分隔的文件名/文本值-service/how-to-custom-speech-test-and-train

  3. Trans.txt 文件中的所有条目都存在于目录中

  4. 目录中的所有文件在 Trans.txt 文件中都有一个关联条目

  5. 所有文件都是指定格式的 WAV 文件。

基本上以上所有方法都已经工作了一年,唯一真正改变的是 zip 文件的大小仍然低于限制。

如果 MS 的某个人看到这个,数据集 ID 是:7a3f240c-5eb7-4942-8e0f-7efa1b808eee

相关反馈帖子:https ://feedback.azure.com/forums/932041-azure-cognitive-services/suggestions/42375118-actionable-error-messaging-in-speech-portal

0 投票
1 回答
218 浏览

azure - Getting error 400 when trying to use Azure Speech Recognition and Flutter

I've been given the task to use the Azure Speech Recognition API on a Flutter application. The app is supposed to record the user's voice and send it to the Azure API. I've tried to use the only pub.dev plugin that I could find, but it did not work and the documentation does not have a Flutter example. Since the request returned 200 on Postman and I was able to make it work on a Javascript application, the problem must be my Flutter application, maybe something on the request, since it is returning code 400 (bad request), saying that the request contains invalid data.

The code below is my request to the API. The file which I'm using to get the bytes is a wav file containing the recorded voice

Could you help me? Thanks for the attention.

0 投票
1 回答
65 浏览

azure - 如何获取流音频转换结果的开始时间和结束时间?

我正在使用 azure-speech 识别来自Speech_recognition_samples.cpp的音频流,来自 RecognitionResult类我只能获取 Text 和 m_duration,但是如何获取语音结果的开始时间和结束时间?我知道e.Result->Offset()可以返回偏移量,但我仍然对此感到困惑,我的代码是

结果是

为什么每次结果的偏移量总是6800000?我认为应该是不断增加的,比如:“my”的开始偏移量为0,“my”的结束偏移量为100000,“my voice is”的开始偏移量为0,“my”的结束偏移量voice is" 200000。那么我可以得到句子中“my voice is”的开始时间和结束时间。但是现在我怎样才能得到每个结果的句子中的开始时间和结束时间呢?

0 投票
1 回答
127 浏览

javascript - Azure 语音翻译:如何仅在检测到语音时激活识别?

我目前正在开发一个实时翻译 Web 应用程序,允许多个参与者使用Azure 语音翻译并以多种语言共享他们的转录。

我不想为会议期间的参与者数量 X 付费。因此问题是:如何仅在检测到语音时激活识别?这样,我只会为当前发言的人付费。

我尝试使用TranslationRecognizer 类speechStartDetected中的事件,但此事件似乎仅在识别器当前正在识别时触发(使用or )recognizeOnceAsync()startContinuousRecognitionAsync()

语音 SDK 中是否有任何参数可以用来实现我想要的?如果没有,我有什么选择?

可能可以观察音频分贝水平并相应地激活连续识别,但我想如果我尝试这样做会遇到一些问题。例如:一旦音频电平在一定时间内达到一定水平,这将触发startContinuousRecognitionAsync(),但它会错过演讲的开头......</p>

提前致谢!