CosyVoice语音合成SSML标记语言使用指南

在AI语音合成的应用中，想要让合成语音摆脱机械感，变得生动自然、贴合表达场景，SSML标记语言是核心工具。SSML（Speech Synthesis Markup Language，语音合成标记语言）通过专属的文本标记方式，让使用者能像导演执导一样，精准控制语音的语速、语调、音量，还能灵活添加停顿、音效、背景音乐，甚至规范特殊文本的朗读方式，让CosyVoice的AI配音效果更贴合需求。以下为大家详细讲解CosyVoice语音合成SSML标记语言的具体使用方法，助力打造个性化的合成语音。

适用模型说明

使用CosyVoice3 AI配音服务的SSML功能，需确认所使用的模型为指定版本，仅cosyvoice-v3.5-flash、cosyvoice-v3.5-plus、cosyvoice-v3-flash、cosyvoice-v3-plus和cosyvoice-v2模型支持该功能，使用前请做好模型核对。

基本使用格式

SSML的所有内容都有固定的包裹格式，必须将需要朗读的文本及各类标记嵌套在<speak>标签中，基础格式为：您要朗读的文本内容，这是使用所有SSML功能的前提。

核心功能及使用方法

1. 自由调整语速

通过rate属性可精准控制AI的朗读语速，让语音适配不同的播放场景。该属性的取值范围为0.5~2，其中1代表正常语速，数值大于1时加快语速，小于1时减慢语速。

示例：我的语速比正常人快一倍

我的语速比较慢，适合听清楚每个字

2. 灵活调节音调

利用pitch属性可改变语音的音调高低，打造高亢或低沉的语音效果。取值范围同样为0.5~2，1为默认正常音调，数值大于1升高音调，小于1降低音调。

示例：我的声音比较高亢

我的声音比较低沉

3. 精准控制音量

通过volume属性调节合成语音的音量大小，取值范围为0~100，50是系统默认音量，数值大于50增大音量，小于50减小音量。

示例：我的音量很大

我的音量比较小

4. 合理添加停顿

在文本中通过<break/>标签添加停顿，能让语音朗读更有节奏感，避免语句衔接生硬。<break/>默认停顿1秒，也可通过time属性自定义停顿时长，支持秒（s）和毫秒（ms）单位，注意连续停顿的总时长不能超过10秒。

示例：请闭上眼睛休息一下好了，请睁开眼睛

数到三再开始1、2、3，出发！

5. 组合多种音效属性

语速、音调、音量的属性可同时设置，在<speak>标签中用空格分隔多个属性即可，实现多种语音效果的叠加，让合成语音更贴合表达需求。

示例：

我语速稍快，音调偏高，音量适中

6. 规范特殊文本朗读方式

面对数字、电话号码、日期等特殊文本，可通过<say-as>标签的interpret-as属性指定朗读方式，避免AI出现误读，让语音表达更准确。

数字读法：12345（读作：一万二千三百四十五）；12345（读作：一二三四五）
电话号码：13800138000（按手机号格式朗读）
日期：2024-03-28（读作：二零二四年三月二十八日）
时间：14:30（读作：十四点三十分）
金额：100.50 RMB（读作：一百点五零人民币）
地址：北京市朝阳区建国路1号
逐个读字符：ISBN 978-7-111（逐个读出每个字符）

7. 自定义特殊词汇发音

当AI对部分词汇出现误读时，可通过两种方式自定义发音，分别适配缩写替换和拼音/音标指定的场景。

替换文本：使用<sub>标签的alias属性，将缩写或特殊符号替换为完整读法，示例：_WTO（将WTO读作"世界贸易组织"）
指定拼音/音标：使用<phoneme>标签，中文指定拼音时设置alphabet="py"，拼音后加数字1-5表示声调；英文指定音标时设置alphabet="cmu"，示例：典当行；sin

8. 添加特色语音音效

通过effect属性可为合成语音添加各类特色音效，让语音更具趣味性和场景感，目前支持robot（机器人音效）、lolita（萝莉音效）、echo（回声音效）、lowpass（低通音效）四种可选音效。

示例：我是机器人瓦力

我有回声音效

9. 插入外部音效文件

在语音中可通过<soundEvent>标签的src属性插入外部音效文件，如提示音、环境音等，让合成语音的场景感更丰富。插入的音频需满足特定要求：格式为WAV、采样率16kHz、单声道、文件大小不超过2MB。

示例：一匹马受了惊吓人们四散躲避

10. 搭配专属背景音乐

为合成语音添加背景音乐可通过<speak>标签的bgm属性实现，同时可通过backgroundMusicVolume属性调节背景音乐音量。背景音乐会自动循环播放，若合成语音内容时长超过背景音乐时长，音乐会重复播放以匹配语音长度。

示例：

这是带背景音乐的朗读内容

完整使用示例

将多种SSML功能组合使用，可打造出自然、流畅的合成语音效果，以下为综合使用示例，供大家参考：

大家好，欢迎收听今天的节目。

今天我们要讲的是2024年3月28日的新闻。

首先，_AI技术正在快速发展，成为推动各行业进步的重要力量。

感谢收听，我们下期再见！

重要使用规范

特殊字符需转义：若文本中包含"、'、&、<、>等特殊符号，需进行转义处理，避免标记语言解析出错，转义规则为："→"、&→&、<→<、>→>
标签禁止嵌套：<speak>标签作为根标签，不能嵌套在另一个<speak>标签内，否则会导致功能失效
确认音色支持：并非所有CosyVoice的音色都支持SSML功能，使用前需确认所选音色为SSML兼容音色
严格遵循格式：所有SSML标记均需遵循语法规范，属性值需用引号包裹，标签需正确闭合，避免因格式错误导致解析失败

掌握CosyVoice的SSML标记语言使用方法，就能根据不同的使用场景，定制出自然、生动、个性化的合成语音，无论是音频播报、内容配音还是场景化语音制作，都能让AI语音的表达效果更上一层楼。灵活组合各类功能，就能解锁更多语音合成的可能性，让AI配音更好地服务于各类需求。

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

CosyVoice语音合成SSML标记语言使用指南

适用模型说明

基本使用格式

核心功能及使用方法

1. 自由调整语速

2. 灵活调节音调

3. 精准控制音量

4. 合理添加停顿

5. 组合多种音效属性

6. 规范特殊文本朗读方式

7. 自定义特殊词汇发音

8. 添加特色语音音效

9. 插入外部音效文件

10. 搭配专属背景音乐

完整使用示例

重要使用规范

评论(0)

提示：请文明发言取消回复

作者信息

快捷操作

CosyVoice语音合成SSML标记语言使用指南

适用模型说明

基本使用格式

核心功能及使用方法

1. 自由调整语速

2. 灵活调节音调

3. 精准控制音量

4. 合理添加停顿

5. 组合多种音效属性

6. 规范特殊文本朗读方式

7. 自定义特殊词汇发音

8. 添加特色语音音效

9. 插入外部音效文件

10. 搭配专属背景音乐

完整使用示例

重要使用规范

评论(0)

提示：请文明发言 取消回复

相关文章

Qwen3-TTS深度解析：开源语音合成新标杆，重塑AI语音交互体验

Index-TTS2 异步语音合成 API 开发者文档

微软Microsoft TTS API对接文档

饺子配音 CosyVoice 开发者API对接文档

作者信息

快捷操作

提示：请文明发言取消回复