Index‑TTS2 在线语音合成

依托 Index-TTS2 官方模型,RTX 5090 32G 大显存高速算力加持,可实现专业音色复刻、细腻情感把控,一键轻松生成自然流畅 AI 人声。

AI语音合成与音色克隆平台

旗舰 RTX5090 32G GPU,极致算力赋能体验

点击或拖拽音频文件至此处上传

支持WAV、MP3格式,最大20MB,最长90秒,采样率不低于16kHz

合成文本定义了模型要生成的对话内容,查看多音字处理教程
0/4096 字符
选择模型采用的情感控制策略

点击或拖拽音频文件至此处上传

支持WAV、MP3格式,最大10MB

当前值: 0.6
参数用于控制情感参考音频或文本对合成语音的影响强度,数值越大,生成语音的情绪特征越明显。
会员用户专属算力接口,顶配 RTX5090 32G 高性能 GPU,超强算力全速加持
暂无合成结果

请先输入文本并点击"开始合成"按钮

暂无历史任务

您还没有任何历史合成任务

使用指南

基本步骤
  • 在文本框中输入或粘贴需要合成的文本内容
  • 选择公共音色或克隆自己的音色
  • 克隆音频小等于20MB,时长5–30 秒,仅支持 MP3、WAV
  • 选择情绪控制方式或开启情绪随机性
  • 调整完参数后,点击“开始合成”生成自己的音频文件
参数说明
  • 情绪控制权重:设置为 0.6 左右(或更低),以获得更自然的语音效果。
  • 情绪向量:单个维度的值范围为0-1。
  • 情绪随机性:用于增加多样性或避免每句语音完全一致的情绪表达。
实用技巧
  • 长文本建议分段合成,效果更佳
  • 克隆音色时可上传参考情绪音频
  • MP3格式适合网络使用,WAV格式适合专业制作
  • 支持中英文混合文本的自然合成
  • 生成的音频可直接用于视频配音、语音播报等场景
常见问题
  • 文本内容:单次合成最大支持 4096 字符(汉字按2倍计数)
  • 合成说明:按Token计费,¥150/百万Tokens。
  • 音频下载:音频合成后请在24小时内下载,过期自动清理。