nlp - 如何自动转录 Skype 会议，正确归因于每个参与者？

Question

假设每个参与者都同意 Skype 通话的录音和转录，有没有办法转录会议（现场或离线或两者兼而有之），以便生成文本转录，其中每个口述文本都正确归因于演讲者。然后可以将转录本输入到任何种类的搜索或 NLP 算法中。

“自动转录 Skype”的前 3 个 Google 搜索命中指的是使手动转录更容易的应用程序：

虽然录制音频并将其发送到语音到文本引擎是微不足道的，但我怀疑它的质量会非常高，因为最好的结果通常是依赖于说话者的模型（否则我们不必花时间来训练龙自然说话）。

但是，在我们选择说话人相关的转录模型之前，我们需要知道音频的哪个片段属于哪个说话人。有两种方法可以解决这个问题：

有一种简单的方法可以检索来自每个参与者的所有音频，例如，您只需在通话期间从每个扬声器的麦克风录制所有音频，而无需进行任何分段。
如果第一个选项在某些方面不可行或禁止使用，我们必须使用 Speaker Diarization 算法，该算法将音频分割成 N 个集群/扬声器（大多数算法允许被告知音频中有多少扬声器，但有些可以自己解决这个问题）。对于通话进行时的实时转录，我想我们需要一些花哨的实时扬声器分类算法。

在任何情况下，一旦解决了分割问题，每个参与者都会拥有经过训练的扬声器模型，然后将其应用于他们的音频部分。在一天结束的时候，每个人都会得到一个很好的谈话记录，然后我们可以做一些花哨的事情，比如主题分析，或者老大哥可能想要筛选每个人的项目会议，而不必听几个小时的音频。

我的问题是，在实践中实现这一点的方法是什么？

0 回答 0