我正在为 VUI 工具编写和标记口语。我们正在为我们的 TTS 服务使用Google Cloud Wave-net,并且我一直在尝试使用 SSML 来使 TTS 输出更自然。当我添加标签“prosody”时,TTS 输出会在标签开始之前添加一个暂停,如下所示:
<speak>
Rebecca is allergic to <prosody rate="slow" range="high">soybean oil.</prosody> Would you like to cancel this order?
</speak>
在此示例中,TTS 输出在“to”和“soybean oil”之间暂停。这只是一个愚蠢的例句,但在我们的实际产品中,我们需要使用这种标签来提供复杂词之间的强调和区分。
有没有其他人遇到过这个问题?有小费吗?