1

Google Speech API返回长音频转录时,它以不同长度的短文本块的形式返回,每个文本都有一些相关的置信度值。我想知道底层算法如何决定在转录的音频块之间放置边界的位置,因为它似乎比简单地将音频分成固定持续时间的片段并分别转录更复杂(尽管我可能错了)。

4

0 回答 0