问题标签 [azure-speech]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
speech-to-text - 浏览器应用程序中 JavaScript SDK 中的 Microsoft Azure 语音转文本行为
我已经在浏览器应用程序的 JavaScript SDK 中部署了 Azure 语音到文本 SDK。在以下场景中发现困难。
- 当试图在已经有文本的文本框中开始听写时,它总是从文本的末尾开始。我不能从现有文本的开头或中间开始。
- 如果文本框有数据并且当数据被清除并且我开始听写后,转换的文本以及之前删除的文本都会出现。口述文本附加到先前删除的文本。
- 如何禁用自动标点符号?例如,如果我在听写过程中暂停,句子会自动以句号结束。如果我说你好吗,结果就是你好吗?
预期成绩:
- 根据我在文本框中的光标位置,它应该从该位置开始语音到文本。
- 删除的文本不应重新出现。
- 想要禁用自动标点符号并在听写中使用句号、问号、感叹号等听写词。
azure - Blob 触发器中的音频到文本
所以我有一个用例,我想将音频文件 (.WAV) 上传到 blob 存储中,该存储触发一个函数并从音频中获取文本。目前,唯一可能的方法是在本地保存音频文件。音频配置无法获取音频文件的 uri。我正在使用的代码是这样的:
根据我的研究,我们不能将 uri 作为文件名(代码的粗体部分)。像先在本地下载这样的解决方案是行不通的。
我尝试将音频作为流读取,但找不到转换为 AudioInputStream 的方法。
任何帮助都会很棒。谢谢。
azure - 如果不使用耳机,Azure 语音服务的“回声消除”
我Azure Speech SDK
在我的应用程序中使用语音识别(chrome 扩展)。我现在面临的问题是,如果我不使用耳机,那么会议中另一个人(回声)的讲话就会被识别出来。这不是预期的。
任何人都可以建议一种在 chrome 扩展中echo cancellation
使用的方法吗?Azure Speech SDK
speech-to-text - Microsoft Azure 的语音转文本识别服务支持的自定义语法?
我有以下 2 个查询:
- 我们可以将基于 VXML 的语法与 Microsoft 的云语音识别服务一起使用吗?
- 我们可以在微软的云语音识别服务中使用编译(二进制格式)语法吗?
我们集成了微软提供的 C++ SDK 来使用这些服务。我试图找到支持的语法类型,但只能找到名为 PhraseListGrammars 的东西(https://docs.microsoft.com/en-us/python/api/azure-cognitiveservices-speech/azure.cognitiveservices.speech .phraselistgrammar?view=azure-python)。
如果您知道微软的云 STT 服务对此类自定义语法的支持程度,请帮助我们。
谢谢
azure-speech - 在 Brwoser 中使用 Azure 语音文本转语音
我正在寻找有关在浏览器中使用 Azure 语音的示例。我可以看到 Node.js 的示例,但看不到在浏览器中使用 Text-To-speech 的示例。
node.js - 特维利奥到 Azure 连续语音转文本
我想使用 Twilio 动词将音频发送到 Azure 的 Continuous Speech to Text API,以便在通话中进行实时转录。我已成功使用下面的代码将音频文件发送到 Azure Speech to Text,但是当我推送 Twilio Stream 数据时,我没有得到任何转录结果。我究竟做错了什么?
c# - 语音合成器和 SSML
我一直在尝试使用韵律音高属性,但似乎并不简单或似乎有效。我想按照 g 大调创建一个简单的“do re mi”。使用不同的赫兹值,结果并不像预期的那样。有时它似乎做它想做的事,不管我放什么。例子:
python - Python SpeechRecognition 不听完整的音频?
我只是想简单地使用 python SpeechRecognition 从音频文件中获取成绩单。似乎无论我设置什么 pause_threshold 或持续时间或其他什么,它总是给我相同的确切输出,大约 80 秒音频中的 30 秒,然后它会切断。
无论我如何设置,仍然有相同的结果。
android - 在 Android 上使用 Azure Speech to Text 拦截音频 blob 或将音频保存到文件
是否可以将转录的音频保存到文件中,甚至可以使用 Java SDK 截取音频块?目前我正在尝试com.microsoft.cognitiveservices.speech:client-sdk:1.19.0
我正在查看 SDK,但没有任何关于如何实现此目的的明确文档。
我尝试了以下但没有成功:
我错过了什么吗?
提前致谢
c# - 如何在 Raspberry Pi 4 上使用 Azure 语音服务 C# SDK 设置麦克风
我正在使用 Raspberry Pi 4 和 Azure 语音服务创建家庭助理。我有一个关键字模型设置并使用以下代码侦听关键字。
在 VS 2022 内的 Windows 10 笔记本电脑(使用笔记本电脑麦克风)上运行时,这可以完美运行。
我在树莓派上使用的麦克风是 Respeaker 4-mic 阵列。
当我将它部署到树莓派时,它似乎没有拿起麦克风。我已编辑 etc/asound.conf 以确保将我要使用的麦克风设置为默认设置。我的麦克风使用卡 1 并且是设备 0。我已经测试过麦克风确实可以使用 Audacity。
我什至将 .FromDefaultMicrophoneInput 交换为:
或者
以下 azures 文档:https ://docs.microsoft.com/en-gb/azure/cognitive-services/speech-service/how-to-select-audio-input-devices
上述两个崩溃并出现错误:SPXERR_MIC_NOT_AVAILABLE。这让我相信没有找到麦克风。
关于如何让 Azure SDK 使用 Raspberry Pi 上的麦克风进行关键字识别的任何帮助都将非常有用。
非常感谢
编辑:我试过 USB 麦克风,这确实有效。使用通过 GPIO 引脚连接的麦克风似乎存在问题?