问题标签 [cmusphinx]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
android - 尝试使用 NDK 构建 PocketSphinxAndroidDemo 的问题
我正在尝试编译 PocketSphinxAndroidDemo,它提供了 Android 上 CMU pocketsphinx 语音识别器的示例实现。我首先收到了一个类似于此处讨论的错误。执行 ndk-build 后,我得到了这个错误:
我尝试了重建sphinxbase
andpocketsphinx
库和重建 with的建议ndk-build -B
,但没有奏效。然后我修改了 jni/pocketsphinx.i swig 文件以更改 err.h 的包含:
尝试编译 PocketSphinxAndroidDemo 的人有没有遇到过这个问题?我的编辑似乎让我在编译中走得更远,但现在我遇到了与程序集相关的错误:
同样,有谁知道如何解决这个问题?我还没有看到任何其他开发人员抱怨这个问题,所以我犹豫要不要走得更远。谢谢你的帮助。
c# - .net 中的语音识别。斯芬克斯、ISIP、朱利叶斯
我想在我用 c# 编写的应用程序中实现语音识别功能。System.Speech.Recognition 不适合,因为它支持的语言数量不够。
我找到了几个引擎,但它们不是用 .net 编写的,而且我找不到任何包装器。那么,使用哪一个:Sphinx、ISIP、Julius?您知道它们的任何 .net 包装器吗?您知道任何可以提供帮助的教程或文章吗?
提前致谢
speech-recognition - 创建 50,000 字的 ARPA 语言模型文件
我想创建一个将近 50,000 字的 ARPA 语言模型文件。我无法通过将文本文件传递给 CMU 语言工具来生成语言模型。是否有任何其他链接可以让我获得这么多单词的语言模型?
speech-recognition - Sphinx 4(测试版 6)hello-world 演示中的识别精度不一致
请问为什么 Sphinx4(beta 版 6)“Hello World”演示不能一直运行良好?
我查看了程序员指南和其他来源,看来问题不是我的问题。
java - sphinx 语音识别延迟
我正在使用开源 sphinx sdk 进行一些语音识别。我目前正在运行 HelloWorld 示例。但是反应非常迟钝,需要多次尝试才能识别一个单词,有时它会识别它但需要一点时间才能输出我所说的内容。任何想法如何改善这一点?此外,当我更改语法文件时,它不会更新并识别我的新单词。
谢谢
iphone - 如何在 iPhone 中进行中文语音识别
OpenEars 可以做中文语音识别吗?见这里:http ://www.politepix.com/openears
speech-recognition - 使用 CMU 的 sphinx4 转录非数字数据
我最近正在使用 CMU 的 sphinx4 进行转录并最终强制对齐,即将音频与其转录对齐。
我找到了一个名为AutoCap的项目,它基本上完成了我想要开发的工作。所以,我安装了它,但它没有用。我尝试调整它,但我得到的只是不正确的时间戳。
所以,我想到了使用 sphinx4 并自己尝试一下。我使用 Sphinx 的 Transcriber.jar 文件成功转录了一个 wav 文件。但我无法让它适用于非数字数据的音频。自述文件页面指出“想要转录非数字数据的人应修改 config.xml 文件以使用正确的语法、语言模型和语言学家来执行此操作”。
那么,任何人都可以为我提供一些帮助:
- AutoCap
- 使用 Sphinx4 转录非数字数据
- 强制对齐
谢谢。
java - 唱歌时连续语音识别?
作为我的应用程序的一部分,我希望添加语音识别,但不是真正意义上的传统意义上的。我有一堆由某人演唱的歌词(分为诗句),我的想法是找到当前正在演唱的诗句,以便将其显示在屏幕上。
我玩过狮身人面像并设置了一些基本示例并开始工作,但是虽然似乎有很多关于注册口语文本的文档,您可以等待延迟然后处理结果,但我找不到太多关于连续识别句子的想法。这当然是在我到达歌词被唱而不被说的部分之前!
有没有人有这方面的经验,如果有的话,有什么地方可以提供一个好的起点吗?还是我试图用狮身人面像实现的目标过于雄心勃勃,而且它永远不会真正正常工作?我愿意查看其他库,但它们必须是免费的,而 sphinx 是我能挖掘的最广泛谈论的一个。
voice-recognition - 如何在语音识别中使用arpa文件
我使用 CMU SLM 工具包从文本文件创建了一个 ARPA 文件。
目前我不知道如何在我的项目中使用生成的 ARPA 文件而不是.lm
和.dic
文件。
如果有人知道这件事,请告诉我。
speech-recognition - sphinx4 中的语音识别响应很差
目前我们正在研究使用 sphinx4 进行语音识别。我们正在努力为听写类型的应用程序实现良好的响应。输入是一个 wav 文件,我们希望将其转录。我查看了 Sphinx4 提供的 LatticeDemo 和 Transcribe 演示。当我使用相同的配置时,响应很差。我试图在配置文件中进行调整,但它根本无法识别这些单词。提供的转录器演示是针对数字的,我已经修改了配置文件以理解单词。但我不确定我是否遗漏了什么。我已附上配置文件。请提出任何可以改进的建议。