作为我的应用程序的一部分,我希望添加语音识别,但不是真正意义上的传统意义上的。我有一堆由某人演唱的歌词(分为诗句),我的想法是找到当前正在演唱的诗句,以便将其显示在屏幕上。
我玩过狮身人面像并设置了一些基本示例并开始工作,但是虽然似乎有很多关于注册口语文本的文档,您可以等待延迟然后处理结果,但我找不到太多关于连续识别句子的想法。这当然是在我到达歌词被唱而不被说的部分之前!
有没有人有这方面的经验,如果有的话,有什么地方可以提供一个好的起点吗?还是我试图用狮身人面像实现的目标过于雄心勃勃,而且它永远不会真正正常工作?我愿意查看其他库,但它们必须是免费的,而 sphinx 是我能挖掘的最广泛谈论的一个。