Qwen3‑TTS 开发者 API 接口对接文档

发布时间：2026‑04‑27
文档来源：饺子配音 jiaozitts.com

前言说明

Qwen3‑TTS 是阿里通义千问团队开源的新一代多语言文本转语音模型，依托 Qwen3 大模型体系打造，提供高拟人度自然音色，覆盖中、英、日、韩等 10 种主流语言与多种方言，音色表现力丰富。模型支持声音复刻与声音设计双定制路径：3 秒短音频即可完成高保真声纹复刻，也可通过自然语言描述直接生成专属虚拟音色。

在线调试

更多开放接口请访问饺子配音开放平台

概述

基础 URL：https://www.jiaozitts.com/api/v1
认证方式：在请求头中添加 Authorization: Bearer {api_key}

接口列表

接口	路径	方法	说明
语音合成	`https://www.jiaozitts.com/api/v1/qwen3-synthesize`	POST	将文本转换为语音
声音克隆	`https://www.jiaozitts.com/api/v1/qwen3-create-voice`	POST	基于音频样本克隆音色
声音设计	`https://www.jiaozitts.com/api/v1/qwen3-create-design-voice`	POST	基于文本描述设计音色
删除音色	`https://www.jiaozitts.com/api/v1/qwen3-delete-voice`	POST	删除已创建的音色

1. 语音合成

请求信息

请求 URL：POST https://www.jiaozitts.com/api/v1/qwen3-synthesize

请求头

字段名	类型	必填	描述
Authorization	string	是	Bearer Token
Content‑Type	string	是	application/json

请求参数

参数名	类型	必填	说明
model	string	是	合成模型，如：`qwen3-tts-flash`、`qwen3-tts-instruct-flash`、`qwen3-tts-vc-2026-01-22`、`qwen3-tts-vd-2026-01-26`
voice	string	是	音色 ID，系统音色或自定义音色
text	string	是	要合成的文本，最长 512 Token
language_type	string	否	语言类型：`Auto`（默认）、`Chinese`、`English`、`Japanese`、`Korean` 等
instructions	string	否	指令控制（仅 `qwen3-tts-instruct-flash` 支持），最多 1600 Token
optimize_instructions	boolean	否	是否优化指令，默认 false（仅 `qwen3-tts-instruct-flash` 支持）
stream	boolean	否	是否流式输出，默认 false

注意：语速 / 音调 / 音量控制请通过 instructions 参数实现（仅 qwen3-tts-instruct-flash 支持）。

请求示例

{
  "model": "qwen3-tts-instruct-flash",
  "voice": "Cherry",
  "text": "欢迎使用语音合成服务",
  "language_type": "Chinese",
  "response_format": "mp3",
  "sample_rate": 24000
}

响应示例

{
  "code": 200,
  "message": "语音合成成功",
  "data": {
    "audio": {
      "url": "https://xxx.oss-cn-beijing.aliyuncs.com/xxx.mp3",
      "id": "audio_xxx",
      "expires_at": 1766113409
    },
    "finish_reason": "stop"
  },
  "char_count": 10,
  "cost": 0.01
}

2. 声音克隆

基于音频样本快速复刻音色，打造拟人化品牌声纹。

音频要求

项目	要求
支持格式	WAV（16bit）、MP3、M4A
音频时长	推荐 10~20 秒，最长 60 秒
文件大小	＜10 MB
采样率	≥24 kHz
声道	单声道

请求信息

请求 URL：POST https://www.jiaozitts.com/api/v1/qwen3-create-voice

请求头

字段名	类型	必填	描述
Authorization	string	是	Bearer Token
Content‑Type	string	是	multipart/form‑data

请求参数

参数名	类型	必填	说明
voice_name	string	是	音色名称，最多 20 字符
target_model	string	是	目标模型：`qwen3-tts-vc-2026-01-22`
file	file	是	音频文件（或使用 application/json 请求头，用 audio_url 传递音频地址）
language	string	否	语言：`zh`（默认）、`en`、`ja`、`ko` 等
description	string	否	音色描述
preferred_name	string	否	音色标识名，仅允许数字、英文字母和下划线，不超过 16 字符，默认 `jiaozitts`

请求示例

使用远程音频 URL

curl -X POST 'https://www.jiaozitts.com/api/v1/qwen3-create-voice' 
  -H 'Authorization: Bearer {user_token}' 
  -H 'Content-Type: application/json' 
  -d '{
    "target_model": "qwen3-tts-vc-2026-01-22",
    "language": "zh",
    "voice_name": "远程音频音色",
    "description": "使用远程URL创建的克隆音色",
    "preferred_name": "remote_voice",
    "audio_url": "https://example.com/audio/sample.wav"
  }'

音频上传

curl -X POST https://www.jiaozitts.com/api/v1/qwen3-create-voice 
  -H "Authorization: Bearer {api_key}" 
  -F "voice_name=我的音色" 
  -F "target_model=qwen3-tts-vc-2026-01-22" 
  -F "language=zh" 
  -F "file=@/path/to/audio.mp3"

响应示例

{
  "code": 200,
  "message": "声音创建成功",
  "data": {
    "target_model": "qwen3-tts-vc-2026-01-22",
    "voice": "qwen-tts-vc-jiaozitts-voice-xxx"
  }
}

3. 声音设计

通过文本描述生成定制化音色，无需音频样本。

请求信息

请求 URL：POST https://www.jiaozitts.com/api/v1/qwen3-create-design-voice

请求头

字段名	类型	必填	描述
Authorization	string	是	Bearer Token
Content‑Type	string	是	application/json

请求参数

参数名	类型	必填	说明
voice_name	string	是	音色名称，最多 20 字符
target_model	string	是	目标模型：`qwen3-tts-vd-2026-01-26`
voice_prompt	string	是	声音描述，最多 2048 字符，仅支持中文和英文
preview_text	string	是	预览文本，最多 1024 字符
language	string	否	语言：`zh`（默认）、`en` 等
description	string	否	音色描述
preferred_name	string	否	音色标识名，仅允许数字、英文字母和下划线，不超过 16 字符，默认 `jiaozitts`
sample_rate	int	否	预览音频采样率：8000、16000、24000（默认）、48000
response_format	string	否	预览音频格式：`pcm`、`wav`（默认）、`mp3`、`opus`

注意：仅支持非流式模型，不支持实时流式模型

voice_prompt 编写指南

维度	描述示例
性别	男性、女性、中性
年龄	儿童、青少年、青年、中年、老年
音调	高音、中音、低音
语速	快速、中速、缓慢
情感	开朗、沉稳、温柔、严肃、活泼
特点	有磁性、清脆、沙哑、圆润、甜美

请求示例

{
  "voice_name": "知性女声",
  "target_model": "qwen3-tts-vd-2026-01-26",
  "voice_prompt": "温柔知性的女性，30岁左右，语调平和，适合有声书朗读",
  "preview_text": "大家好，欢迎收听今天的节目",
  "language": "zh",
  "preferred_name": "zhixing",
  "sample_rate": 24000,
  "response_format": "wav"
}

响应示例

{
  "code": 200,
  "message": "设计声音创建成功",
  "data": {
    "target_model": "qwen3-tts-vd-2026-01-26",
    "voice": "qwen-tts-vd-jiaozitts-voice-xxx",
    "preview_audio": {
      "data": "base64_encoded_audio_data",
      "sample_rate": 24000,
      "response_format": "wav"
    }
  }
}

4. 删除音色

请求信息

请求 URL：POST https://www.jiaozitts.com/api/v1/qwen3-delete-voice

请求头

字段名	类型	必填	描述
Authorization	string	是	Bearer Token
Content‑Type	string	是	application/json

请求参数

参数名	类型	必填	说明
modelId	string	是	音色 ID（也支持 `voice` 参数名）
voice_type	string	否	音色类型：`voice_cloning`（声音复刻，默认）、`voice_design`（声音设计）

注意：根据音色类型选择正确的模型进行删除

voice_cloning：使用 qwen‑voice‑enrollment 模型

voice_design：使用 qwen‑voice‑design 模型
权限说明：只有音色创建者和管理员可以删除，删除前会验证权限

请求示例

{
  "modelId": "qwen-tts-vc-jiaozitts-voice-xxx",
  "voice_type": "voice_cloning"
}

响应示例

{
  "code": 200,
  "message": "删除成功",
  "data": {
    "voice": "qwen-tts-vc-jiaozitts-voice-xxx",
    "voice_type": "voice_cloning",
    "request_id": "yourRequestId"
  }
}

系统音色

系统音色请查看《Qwen3‑TTS 系统音色列表》

模型选型指南

场景	推荐模型	说明
通用语音合成	`qwen3-tts-instruct-flash`	按字符计费，支持指令控制
声音复刻	`qwen3-tts-vc-2026-01-22`	基于音频样本克隆音色
声音设计	`qwen3-tts-vd-2026-01-26`	基于文本描述创建音色

支持的模型列表

语音合成模型

qwen3-tts-instruct-flash：支持指令控制的语音合成模型

声音克隆（Voice Cloning）

声音克隆模型：qwen‑voice‑enrollment
驱动音色的语音合成模型：qwen3-tts-vc-2026-01-22（非流式，推荐）

声音设计（Voice Design）

声音设计模型：qwen‑voice‑design
驱动音色的语音合成模型：qwen3-tts-vd-2026-01-26（非流式，推荐）

重要提示：创建音色时指定的 target_model 必须与后续语音合成时使用的模型一致

计费说明

字符计费规则

汉字按 2 个字符计算
其他字符（英文、数字、符号等）按 1 个字符计算

模型价格（元 / 万字符）

模型	价格
`qwen3-tts-vc-2026-01-22`	2.0
`qwen3-tts-vd-2026-01-26`	2.0
`qwen3-tts-instruct-flash`	1.5
其他模型	1.5

会员折扣

永久会员：8 折
VIP 会员：9 折

免费额度

仅会员用户可享受
每月免费额度可在后台设置
免费额度用完后正常计费

最低扣费

每次合成最低扣费 0.01 元

计费流程

计算字符数
根据模型计算基础费用
应用会员折扣
使用免费额度（如有）
扣除余额（如需要）
调用 API
失败自动退款

错误码

HTTP 状态码	错误码	说明
400	`model_required`	模型参数不能为空
400	`voice_required`	音色参数不能为空
400	`text_required`	文本参数不能为空
400	`insufficient_balance`	余额不足
400	`model_limit_exceeded`	模型数量超过限制
401	—	未授权或 API Key 无效
403	`permission_denied`	没有权限删除该音色
404	`voice_not_found`	音色不存在
500	`api_request_failed`	API 请求失败
500	`balance_deduction_failed`	余额扣除失败
500	`order_creation_failed`	订单创建失败
500	`synthesis_failed`	语音合成失败

注意事项

声音复刻 / 设计与语音合成的关联：创建音色时指定的 target_model 必须与后续语音合成时使用的模型一致
音频 URL 有效期：非流式合成返回的音频 URL 有效期为 24 小时
模型限制：
- 普通用户最多创建 2 个音色
- VIP 会员用户最多创建 10 个音色
- 永久会员用户无限制

最近更新：2026‑04‑27
API 接口｜Qwen3‑TTS｜Qwen3‑TTS API｜声音克隆｜语音合成｜饺子配音

需要我把这份文档整理成可直接复制的Markdown 纯文本，方便你直接发布到网站吗？

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

Qwen3‑TTS 开发者 API 接口对接文档

前言说明

在线调试

概述

接口列表

1. 语音合成

请求信息

请求头

请求参数

请求示例

响应示例

2. 声音克隆

音频要求

请求信息

请求头

请求参数

请求示例

使用远程音频 URL

音频上传

响应示例

3. 声音设计

请求信息

请求头

请求参数

voice_prompt 编写指南

推荐示例

请求示例

响应示例

4. 删除音色

请求信息

请求头

请求参数

请求示例

响应示例

系统音色

模型选型指南

支持的模型列表

语音合成模型

声音克隆（Voice Cloning）

声音设计（Voice Design）

计费说明

字符计费规则

模型价格（元 / 万字符）

会员折扣

免费额度

最低扣费

计费流程

错误码

注意事项

评论(0)

提示：请文明发言 取消回复

相关文章

解析Qwen3-TTS：重新定义AI语音合成的体验边界

Index-TTS2：重塑零样本语音合成，精准控时与情感表达双突破

Index-TTS2：突破局限，重新定义情感化零样本语音合成新体验

Index-TTS2 异步语音合成 API 开发者文档

作者信息

快捷操作

提示：请文明发言取消回复