利用语音合成标记语言(SSML)优化语音合成质量

语音合成标记语言(Speech Synthesis Markup Language,SSML)是用于控制语音合成中停顿、音量、音调、语速以及名词读法等因素的标记语言。这个由万维网联盟(W3C)以 XML 为基础进行标准化的语言受到许多在线语音合成服务的广泛支持:包括 Google Cloud、AWS、阿里云等服务商均提供了支持 SSML 的语音合成服务。相较以纯文本进行的文本到语音转换(TTS)任务,利用 SSML 能够更细粒度地控制语音的合成方式,从而优化语音合成质量。