4

假设每个参与者都同意 Skype 通话的录音和转录,有没有办法转录会议(现场或离线或两者兼而有之),以便生成文本转录,其中每个口述文本都正确归因于演讲者。然后可以将转录本输入到任何种类的搜索或 NLP 算法中。

“自动转录 Skype”的前 3 个 Google 搜索命中指的是使手动转录更容易的应用程序:

(1) http://www.dummies.com/how-to/content/how-to-convert-skype-audio-to-text-with-transcribe.html

(2) http://ask.metafilter.com/231400/How-to-record-and-transcribe-Skype-conversation

(3) https://www.ttetranscripts.com/blog/how-to-record-and-transcribe-your-skype-conversations

虽然录制音频并将其发送到语音到文本引擎是微不足道的,但我怀疑它的质量会非常高,因为最好的结果通常是依赖于说话者的模型(否则我们不必花时间来训练龙自然说话)。

但是,在我们选择说话人相关的转录模型之前,我们需要知道音频的哪个片段属于哪个说话人。有两种方法可以解决这个问题:

  1. 有一种简单的方法可以检索来自每个参与者的所有音频,例如,您只需在通话期间从每个扬声器的麦克风录制所有音频,而无需进行任何分段。

  2. 如果第一个选项在某些方面不可行或禁止使用,我们必须使用 Speaker Diarization 算法,该算法将音频分割成 N 个集群/扬声器(大多数算法允许被告知音频中有多少扬声器,但有些可以自己解决这个问题)。对于通话进行时的实时转录,我想我们需要一些花哨的实时扬声器分类算法。

在任何情况下,一旦解决了分割问题,每个参与者都会拥有经过训练的扬声器模型,然后将其应用于他们的音频部分。在一天结束的时候,每个人都会得到一个很好的谈话记录,然后我们可以做一些花哨的事情,比如主题分析,或者老大哥可能想要筛选每个人的项目会议,而不必听几个小时的音频。

我的问题是,在实践中实现这一点的方法是什么?

4

0 回答 0