发布时间:2026‑04‑27
文档来源:饺子配音 jiaozitts.com


前言说明

Qwen3‑TTS 是阿里通义千问团队开源的新一代多语言文本转语音模型,依托 Qwen3 大模型体系打造,提供高拟人度自然音色,覆盖中、英、日、韩等 10 种主流语言与多种方言,音色表现力丰富。模型支持声音复刻声音设计双定制路径:3 秒短音频即可完成高保真声纹复刻,也可通过自然语言描述直接生成专属虚拟音色。

Qwen3‑TTS 开发者 API 接口对接文档 1


在线调试

概述

  • 基础 URL:https://www.jiaozitts.com/api/v1
  • 认证方式:在请求头中添加 Authorization: Bearer {api_key}

接口列表

接口 路径 方法 说明
语音合成 https://www.jiaozitts.com/api/v1/qwen3-synthesize POST 将文本转换为语音
声音克隆 https://www.jiaozitts.com/api/v1/qwen3-create-voice POST 基于音频样本克隆音色
声音设计 https://www.jiaozitts.com/api/v1/qwen3-create-design-voice POST 基于文本描述设计音色
删除音色 https://www.jiaozitts.com/api/v1/qwen3-delete-voice POST 删除已创建的音色

1. 语音合成

请求信息

  • 请求 URL:POST https://www.jiaozitts.com/api/v1/qwen3-synthesize

请求头

字段名 类型 必填 描述
Authorization string Bearer Token
Content‑Type string application/json

请求参数

参数名 类型 必填 说明
model string 合成模型,如:qwen3-tts-flashqwen3-tts-instruct-flashqwen3-tts-vc-2026-01-22qwen3-tts-vd-2026-01-26
voice string 音色 ID,系统音色或自定义音色
text string 要合成的文本,最长 512 Token
language_type string 语言类型:Auto(默认)、ChineseEnglishJapaneseKorean
instructions string 指令控制(仅 qwen3-tts-instruct-flash 支持),最多 1600 Token
optimize_instructions boolean 是否优化指令,默认 false(仅 qwen3-tts-instruct-flash 支持)
stream boolean 是否流式输出,默认 false

注意:语速 / 音调 / 音量控制请通过 instructions 参数实现(仅 qwen3-tts-instruct-flash 支持)。

请求示例

{
  "model": "qwen3-tts-instruct-flash",
  "voice": "Cherry",
  "text": "欢迎使用语音合成服务",
  "language_type": "Chinese",
  "response_format": "mp3",
  "sample_rate": 24000
}

响应示例

{
  "code": 200,
  "message": "语音合成成功",
  "data": {
    "audio": {
      "url": "https://xxx.oss-cn-beijing.aliyuncs.com/xxx.mp3",
      "id": "audio_xxx",
      "expires_at": 1766113409
    },
    "finish_reason": "stop"
  },
  "char_count": 10,
  "cost": 0.01
}

2. 声音克隆

基于音频样本快速复刻音色,打造拟人化品牌声纹。

音频要求

项目 要求
支持格式 WAV(16bit)、MP3、M4A
音频时长 推荐 10~20 秒,最长 60 秒
文件大小 <10 MB
采样率 ≥24 kHz
声道 单声道

请求信息

  • 请求 URL:POST https://www.jiaozitts.com/api/v1/qwen3-create-voice

请求头

字段名 类型 必填 描述
Authorization string Bearer Token
Content‑Type string multipart/form‑data

请求参数

参数名 类型 必填 说明
voice_name string 音色名称,最多 20 字符
target_model string 目标模型:qwen3-tts-vc-2026-01-22
file file 音频文件(或使用 application/json 请求头,用 audio_url 传递音频地址)
language string 语言:zh(默认)、enjako
description string 音色描述
preferred_name string 音色标识名,仅允许数字、英文字母和下划线,不超过 16 字符,默认 jiaozitts

请求示例

使用远程音频 URL

curl -X POST 'https://www.jiaozitts.com/api/v1/qwen3-create-voice' 
  -H 'Authorization: Bearer {user_token}' 
  -H 'Content-Type: application/json' 
  -d '{
    "target_model": "qwen3-tts-vc-2026-01-22",
    "language": "zh",
    "voice_name": "远程音频音色",
    "description": "使用远程URL创建的克隆音色",
    "preferred_name": "remote_voice",
    "audio_url": "https://example.com/audio/sample.wav"
  }'

音频上传

curl -X POST https://www.jiaozitts.com/api/v1/qwen3-create-voice 
  -H "Authorization: Bearer {api_key}" 
  -F "voice_name=我的音色" 
  -F "target_model=qwen3-tts-vc-2026-01-22" 
  -F "language=zh" 
  -F "file=@/path/to/audio.mp3"

响应示例

{
  "code": 200,
  "message": "声音创建成功",
  "data": {
    "target_model": "qwen3-tts-vc-2026-01-22",
    "voice": "qwen-tts-vc-jiaozitts-voice-xxx"
  }
}

3. 声音设计

通过文本描述生成定制化音色,无需音频样本。

请求信息

  • 请求 URL:POST https://www.jiaozitts.com/api/v1/qwen3-create-design-voice

请求头

字段名 类型 必填 描述
Authorization string Bearer Token
Content‑Type string application/json

请求参数

参数名 类型 必填 说明
voice_name string 音色名称,最多 20 字符
target_model string 目标模型:qwen3-tts-vd-2026-01-26
voice_prompt string 声音描述,最多 2048 字符,仅支持中文和英文
preview_text string 预览文本,最多 1024 字符
language string 语言:zh(默认)、en
description string 音色描述
preferred_name string 音色标识名,仅允许数字、英文字母和下划线,不超过 16 字符,默认 jiaozitts
sample_rate int 预览音频采样率:8000、16000、24000(默认)、48000
response_format string 预览音频格式:pcmwav(默认)、mp3opus

注意:仅支持非流式模型,不支持实时流式模型

voice_prompt 编写指南

维度 描述示例
性别 男性、女性、中性
年龄 儿童、青少年、青年、中年、老年
音调 高音、中音、低音
语速 快速、中速、缓慢
情感 开朗、沉稳、温柔、严肃、活泼
特点 有磁性、清脆、沙哑、圆润、甜美

推荐示例

  • 年轻活泼的女性声音,语速较快,适合介绍时尚产品
  • 沉稳的中年男性,语速缓慢,音色低沉有磁性,适合新闻播报

请求示例

{
  "voice_name": "知性女声",
  "target_model": "qwen3-tts-vd-2026-01-26",
  "voice_prompt": "温柔知性的女性,30岁左右,语调平和,适合有声书朗读",
  "preview_text": "大家好,欢迎收听今天的节目",
  "language": "zh",
  "preferred_name": "zhixing",
  "sample_rate": 24000,
  "response_format": "wav"
}

响应示例

{
  "code": 200,
  "message": "设计声音创建成功",
  "data": {
    "target_model": "qwen3-tts-vd-2026-01-26",
    "voice": "qwen-tts-vd-jiaozitts-voice-xxx",
    "preview_audio": {
      "data": "base64_encoded_audio_data",
      "sample_rate": 24000,
      "response_format": "wav"
    }
  }
}

4. 删除音色

请求信息

  • 请求 URL:POST https://www.jiaozitts.com/api/v1/qwen3-delete-voice

请求头

字段名 类型 必填 描述
Authorization string Bearer Token
Content‑Type string application/json

请求参数

参数名 类型 必填 说明
modelId string 音色 ID(也支持 voice 参数名)
voice_type string 音色类型:voice_cloning(声音复刻,默认)、voice_design(声音设计)

注意:根据音色类型选择正确的模型进行删除

  • voice_cloning:使用 qwen‑voice‑enrollment 模型
  • voice_design:使用 qwen‑voice‑design 模型
    权限说明:只有音色创建者和管理员可以删除,删除前会验证权限

请求示例

{
  "modelId": "qwen-tts-vc-jiaozitts-voice-xxx",
  "voice_type": "voice_cloning"
}

响应示例

{
  "code": 200,
  "message": "删除成功",
  "data": {
    "voice": "qwen-tts-vc-jiaozitts-voice-xxx",
    "voice_type": "voice_cloning",
    "request_id": "yourRequestId"
  }
}

系统音色

系统音色请查看《Qwen3‑TTS 系统音色列表》


模型选型指南

场景 推荐模型 说明
通用语音合成 qwen3-tts-instruct-flash 按字符计费,支持指令控制
声音复刻 qwen3-tts-vc-2026-01-22 基于音频样本克隆音色
声音设计 qwen3-tts-vd-2026-01-26 基于文本描述创建音色

支持的模型列表

语音合成模型

  • qwen3-tts-instruct-flash:支持指令控制的语音合成模型

声音克隆(Voice Cloning)

  • 声音克隆模型:qwen‑voice‑enrollment
  • 驱动音色的语音合成模型:qwen3-tts-vc-2026-01-22(非流式,推荐)

声音设计(Voice Design)

  • 声音设计模型:qwen‑voice‑design
  • 驱动音色的语音合成模型:qwen3-tts-vd-2026-01-26(非流式,推荐)

重要提示:创建音色时指定的 target_model 必须与后续语音合成时使用的模型一致


计费说明

字符计费规则

  • 汉字按 2 个字符计算
  • 其他字符(英文、数字、符号等)按 1 个字符计算

模型价格(元 / 万字符)

模型 价格
qwen3-tts-vc-2026-01-22 2.0
qwen3-tts-vd-2026-01-26 2.0
qwen3-tts-instruct-flash 1.5
其他模型 1.5

会员折扣

  • 永久会员:8 折
  • VIP 会员:9 折

免费额度

  • 仅会员用户可享受
  • 每月免费额度可在后台设置
  • 免费额度用完后正常计费

最低扣费

每次合成最低扣费 0.01 元

计费流程

  1. 计算字符数
  2. 根据模型计算基础费用
  3. 应用会员折扣
  4. 使用免费额度(如有)
  5. 扣除余额(如需要)
  6. 调用 API
  7. 失败自动退款

错误码

HTTP 状态码 错误码 说明
400 model_required 模型参数不能为空
400 voice_required 音色参数不能为空
400 text_required 文本参数不能为空
400 insufficient_balance 余额不足
400 model_limit_exceeded 模型数量超过限制
401 未授权或 API Key 无效
403 permission_denied 没有权限删除该音色
404 voice_not_found 音色不存在
500 api_request_failed API 请求失败
500 balance_deduction_failed 余额扣除失败
500 order_creation_failed 订单创建失败
500 synthesis_failed 语音合成失败

注意事项

  1. 声音复刻 / 设计与语音合成的关联:创建音色时指定的 target_model 必须与后续语音合成时使用的模型一致
  2. 音频 URL 有效期:非流式合成返回的音频 URL 有效期为 24 小时
  3. 模型限制:
    • 普通用户最多创建 2 个音色
    • VIP 会员用户最多创建 10 个音色
    • 永久会员用户无限制

最近更新:2026‑04‑27
API 接口|Qwen3‑TTS|Qwen3‑TTS API|声音克隆|语音合成|饺子配音

需要我把这份文档整理成可直接复制的Markdown 纯文本,方便你直接发布到网站吗?

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。