问题标签 [transcription]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
audio - 对于将音频文件转录成 .txt,您会推荐什么?
我正在做一个小型学校项目,我必须拍摄大量音频文件并将它们转录成 .txt 文件。我是编程的初学者。到目前为止,我已经尝试过使用 Google 的 Cloud Speech API 的alexkras方法。但是我不能将它用于大量转录,因为它是通过使用外部软件将音频转换为 .wav 来完成的(这也可以通过 ffmpeg 完成,所以没什么大不了的)并将新的 .wav 文件拆分为 <60s作为 Cloud Speech 的部分一次只能转录 <60 秒,这在 trans 中是一个很大的损失,除非您将它们上传到 GCS,但这也是大规模转录的问题,因为一些 .wav 文件足够大(我使用的 1 小时播客转进入 800mb 文件)该过程减慢。
我尝试的下一个是使用 gcloud SDK 并使用终端中的一个小代码直接转录 GCS 上的音频文件,现在我在这里观察到的问题是转录不完整,它以这种方式显示转录,
来自谷歌的例子:
这并不理想,也许有一种方法可以将其传输到文本文件中,但到目前为止我所做的转录并不完整,我从 11 分钟的视频中总共得到了 <30 行文本。
我尝试过的最有效的方法是 alexkras 方法,但正如我上面所说的那样也有问题(就我而言)。我一直在研究语音到文本的机器学习方法,以便它也可以识别或转录带有口音的音频。
你们知道有什么方法可以帮助我有效地将大量音频转录成文本吗?如果不是用于拆分文件或将其上传到 GSC,它会非常高兴使用 alexkras 方法。我将不胜感激任何帮助或建议或指导。谢谢你。
java - 应该使用哪个罗马化标准来改进阿拉伯语-拉丁语的 ICU4j 音译?
我们需要将阿拉伯文本音译为拉丁字符(不带变音符号)并将其显示给用户。
我们目前正在为此使用 IBM ICU4j。API 不能很好地将阿拉伯文本转译成适当的可读拉丁字符。请参考以下示例:
例子
阿拉伯文字:
صدام حسين التكريتي
谷歌的音译输出
:
Sadaam Hussein al-tikriti
ICU4J 的音译输出
:
ṣdạm ḥsyn ạltkryty
我们如何改进 ICU4j 库的音译输出?
ICU4J 为我们提供了编写自己的规则的选项,但我们目前陷入困境,因为我们团队中没有人懂阿拉伯语并且无法找到任何可以遵循的适当标准。
java - 如何从 SpeechMatics 中获取转录文本
我正在开发一个java
转录视频应用程序,并且我曾经用来speechMatics
转录我的视频。如何从中获取转录文本speechMatics
?
wav - deepspeech 训练音频文件长度
训练和推断音频文件长度是否必须等于 5 秒?我有这个问题是因为我有大量的音频训练数据(每个音频超过 30 秒)和相应的成绩单。如果我不能将这些数据用于训练,那么我需要对音频文件进行分块(我可以使用一些 python 脚本轻松完成),但我发现很难为各个分块的音频文件分块转录本。我现在是手动做的,但是有什么方法可以自动化吗?
有什么建议么?
谢谢:)
python - Python中文本文件的条件分块
希望这是一个非常直截了当的问题。我有一个成绩单,我试图将其分成每个发言者的块。我目前拥有的代码是;
这会按照我的意愿拆分文本,但是我错过了第二个话语中的“演讲者”标识符。为了识别目的,我需要保留它。具体来说,我试图获得的是类似于以下的结果;
欢迎任何建议
谢谢
google-cloud-platform - 谷歌语音 API 单一话语
Google Speech API 是如何SingleUtterance
工作的?根据文档,这是谷歌确定说话者何时说出单一话语的方式。我明白它的作用,但我想知道怎么做?API 是否只是等待一段时间的“无声”音频?如果是这样,无声音频持续多长时间会触发话语的结束?
它是否有其他类型的 AI 算法来帮助确定某人何时停止说话?
谢谢
amazon - Amazon Transcribe 转换 .json 成绩单
我正在尝试将 Amazon Transcribe .json 成绩单转换为更易读的成绩单(即按扬声器分隔文本的成绩单),有人知道如何做到这一点吗?
google-cloud-platform - 谷歌语音转录
如果 Google Speech API 近乎实时地转录音频,而我到实际服务器的延迟仅为 50 毫秒,为什么我会在 1.6 秒后收到最终的流式转录结果?我不应该在几百毫秒内收到它吗?
unity3d - IBM Watson 语音转文本!从字面上转录音频,有语法错误
我正在尝试语音转文本插件(Unity watson SDK)来开发英语语法校正类原型插件。我希望它用语法不正确的句子逐字翻译用户所说的内容。
示例:用户说 > AUDIO “你想要什么?” 而不是“你想要什么?”。
但插件总是试图纠正它。例子:
音频“你想要什么?” 导致 TEXT > “What do you do want” 或完全改变句子。
是否有我缺少的选项或功能?或者只是应用程序如何解释音频?有熟悉 IBM Waton SDK 的人吗?任何提示或建议表示赞赏。
algorithm - 差异算法:根据实际成绩单获取口语音节的时间戳
我有一个音频文件,该文件是一个人按顺序说出不同字母的录音,以及该音频文件的正确人工创建的转录本,例如 string ABCDEF
。
然后将此音频文件传递到语音到文本转录 API,并为我提供每个字符到它在音频剪辑中出现(开始)的时间戳的有序映射。例如,对于一个简单的 5 秒剪辑,映射可能如下所示:
['A' => 0.2, 'B' => 1.5, 'C' => 2.2, 'D' => 3.2, 'E' => 3.8, 'F' => 4.2]
不同之处在于,从 API 返回的时间戳映射有时会错误地转录字母。除了只是将一个字母误认为另一个字母(替换)之外,它还可以感知存在实际上不存在的字母(插入),或者完全忽略口头字母(删除)。例如,包含的音频ABCDEF
可能有如下 API 响应:
['A' => 0.2, 'B' => 1.5, 'C' => 2.2, 'X' => 2.8, 'D' => 3.2, 'E' => 3.8, 'F' => 4.2]
这里最终期望的结果是协调实际转录和来自 API 的潜在错误的字母到时间戳映射,以获得剪辑中每个字母实际说出的时间戳。我相信我可以使用一些线性插值和差异算法来达到理想的解决方案,但需要一些入门指导。谢谢你。
注意:这个例子中的“字母”实际上是普通话汉字,但为了举例,我使用字母,因为它们是单音节的,更容易可视化。