在AI语音合成的应用中,想要让合成语音摆脱机械感,变得生动自然、贴合表达场景,SSML标记语言是核心工具。SSML(Speech Synthesis Markup Language,语音合成标记语言)通过专属的文本标记方式,让使用者能像导演执导一样,精准控制语音的语速、语调、音量,还能灵活添加停顿、音效、背景音乐,甚至规范特殊文本的朗读方式,让CosyVoice的AI配音效果更贴合需求。以下为大家详细讲解CosyVoice语音合成SSML标记语言的具体使用方法,助力打造个性化的合成语音。

CosyVoice语音合成SSML标记语言使用指南 1

适用模型说明

使用CosyVoice3 AI配音服务的SSML功能,需确认所使用的模型为指定版本,仅cosyvoice-v3.5-flash、cosyvoice-v3.5-plus、cosyvoice-v3-flash、cosyvoice-v3-plus和cosyvoice-v2模型支持该功能,使用前请做好模型核对。

基本使用格式

SSML的所有内容都有固定的包裹格式,必须将需要朗读的文本及各类标记嵌套在<speak>标签中,基础格式为:您要朗读的文本内容,这是使用所有SSML功能的前提。

核心功能及使用方法

1. 自由调整语速

通过rate属性可精准控制AI的朗读语速,让语音适配不同的播放场景。该属性的取值范围为0.5~2,其中1代表正常语速,数值大于1时加快语速,小于1时减慢语速。

示例:我的语速比正常人快一倍

我的语速比较慢,适合听清楚每个字

2. 灵活调节音调

利用pitch属性可改变语音的音调高低,打造高亢或低沉的语音效果。取值范围同样为0.5~2,1为默认正常音调,数值大于1升高音调,小于1降低音调。

示例:我的声音比较高亢

我的声音比较低沉

3. 精准控制音量

通过volume属性调节合成语音的音量大小,取值范围为0~100,50是系统默认音量,数值大于50增大音量,小于50减小音量。

示例:我的音量很大

我的音量比较小

4. 合理添加停顿

在文本中通过<break/>标签添加停顿,能让语音朗读更有节奏感,避免语句衔接生硬。<break/>默认停顿1秒,也可通过time属性自定义停顿时长,支持秒(s)和毫秒(ms)单位,注意连续停顿的总时长不能超过10秒。

示例:请闭上眼睛休息一下好了,请睁开眼睛

数到三再开始1、2、3,出发!

5. 组合多种音效属性

语速、音调、音量的属性可同时设置,在<speak>标签中用空格分隔多个属性即可,实现多种语音效果的叠加,让合成语音更贴合表达需求。

示例:

我语速稍快,音调偏高,音量适中

 

6. 规范特殊文本朗读方式

面对数字、电话号码、日期等特殊文本,可通过<say-as>标签的interpret-as属性指定朗读方式,避免AI出现误读,让语音表达更准确。

  • 数字读法:12345(读作:一万二千三百四十五);12345(读作:一二三四五)
  • 电话号码:13800138000(按手机号格式朗读)
  • 日期:2024-03-28(读作:二零二四年三月二十八日)
  • 时间:14:30(读作:十四点三十分)
  • 金额:100.50 RMB(读作:一百点五零人民币)
  • 地址:北京市朝阳区建国路1号
  • 逐个读字符:ISBN 978-7-111(逐个读出每个字符)

7. 自定义特殊词汇发音

当AI对部分词汇出现误读时,可通过两种方式自定义发音,分别适配缩写替换和拼音/音标指定的场景。

  • 替换文本:使用<sub>标签的alias属性,将缩写或特殊符号替换为完整读法,示例:WTO(将WTO读作"世界贸易组织")
  • 指定拼音/音标:使用<phoneme>标签,中文指定拼音时设置alphabet="py",拼音后加数字1-5表示声调;英文指定音标时设置alphabet="cmu",示例:典当行;sin

8. 添加特色语音音效

通过effect属性可为合成语音添加各类特色音效,让语音更具趣味性和场景感,目前支持robot(机器人音效)、lolita(萝莉音效)、echo(回声音效)、lowpass(低通音效)四种可选音效。

示例:我是机器人瓦力

我有回声音效

9. 插入外部音效文件

在语音中可通过<soundEvent>标签的src属性插入外部音效文件,如提示音、环境音等,让合成语音的场景感更丰富。插入的音频需满足特定要求:格式为WAV、采样率16kHz、单声道、文件大小不超过2MB。

示例:一匹马受了惊吓人们四散躲避

10. 搭配专属背景音乐

为合成语音添加背景音乐可通过<speak>标签的bgm属性实现,同时可通过backgroundMusicVolume属性调节背景音乐音量。背景音乐会自动循环播放,若合成语音内容时长超过背景音乐时长,音乐会重复播放以匹配语音长度。

示例:

 

这是带背景音乐的朗读内容

 

 

完整使用示例

将多种SSML功能组合使用,可打造出自然、流畅的合成语音效果,以下为综合使用示例,供大家参考:

 

大家好,欢迎收听今天的节目。

 

今天我们要讲的是2024年3月28日的新闻。

 

首先,AI技术正在快速发展,成为推动各行业进步的重要力量。

 

感谢收听,我们下期再见!

 

重要使用规范

  1. 特殊字符需转义:若文本中包含"'&<>等特殊符号,需进行转义处理,避免标记语言解析出错,转义规则为:"&quot;&&amp;<&lt;>&gt;
  2. 标签禁止嵌套:<speak>标签作为根标签,不能嵌套在另一个<speak>标签内,否则会导致功能失效
  3. 确认音色支持:并非所有CosyVoice的音色都支持SSML功能,使用前需确认所选音色为SSML兼容音色
  4. 严格遵循格式:所有SSML标记均需遵循语法规范,属性值需用引号包裹,标签需正确闭合,避免因格式错误导致解析失败

掌握CosyVoice的SSML标记语言使用方法,就能根据不同的使用场景,定制出自然、生动、个性化的合成语音,无论是音频播报、内容配音还是场景化语音制作,都能让AI语音的表达效果更上一层楼。灵活组合各类功能,就能解锁更多语音合成的可能性,让AI配音更好地服务于各类需求。

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。