9

作为我的应用程序的一部分,我希望添加语音识别,但不是真正意义上的传统意义上的。我有一堆由某人演唱的歌词(分为诗句),我的想法是找到当前正在演唱的诗句,以便将其显示在屏幕上。

我玩过狮身人面像并设置了一些基本示例并开始工作,但是虽然似乎有很多关于注册口语文本的文档,您可以等待延迟然后处理结果,但我找不到太多关于连续识别句子的想法。这当然是在我到达歌词被唱而不被说的部分之前!

有没有人有这方面的经验,如果有的话,有什么地方可以提供一个好的起点吗?还是我试图用狮身人面像实现的目标过于雄心勃勃,而且它永远不会真正正常工作?我愿意查看其他库,但它们必须是免费的,而 sphinx 是我能挖掘的最广泛谈论的一个。

4

1 回答 1

3

只要稍有延迟就可以识别语音。此外,如果您或多或少地了解您期望得到什么。这称为“部分结果”,可通过 API 在所有 CMUSphinx 解码器中使用。基本上你可以在过程中检索假设。

关于如何稳定这个结果(如何提取它的稳定部分)有一个小问题需要考虑,但这种技术称为回溯,可以很容易地实现

对于唱歌,考虑到音乐可以被过滤掉,它也是可行的。

于 2011-09-14T10:22:04.990 回答