
IndexTTS2 是 Bilibili / Index 团队在 2025 年推出的第二代开源文本转语音(TTS)系统,主打「高表现力情感合成 + 精确时长控制 + 零样本声音克隆」,并已以论文、代码与模型权重形式公开,面向本地部署与工业落地。
视频演示
可控情感语音生成用于视听配音——以《甄嬛传》中的经典场景为例
产品功能
- 零样本语音克隆:仅需一段示例音频即可克隆说话风格与音色(zero-shot)。
- 情感可控合成:支持多种情感/表达强度控制(文字描述、参考音频或向量化控制)。
- 精确时长控制:作为自回归模型首次提出对「合成时长」的精细控制方法,便于对口型配音与视音同步。
- 多语/长文本支持:针对长文本、多角色、批量任务提供适配或工具链(社区整合包/脚本)。
使用教程
目前该项目已经在github开源,感兴趣的小伙伴可以去下载自己在本地部署。
github :https://github.com/index-tts/index-tts
Hugging Face在线体验Demo:https://huggingface.co/spaces/IndexTeam/IndexTTS-2-Demo
演示页面:https://index-tts.github.io/index-tts2.github.io/

数据统计
相关导航

微软官方文本转语音服务

MiniMax Audio
MiniMax公司推出的一款基于其自研语音大模型(speech-01-hd)的AI音频合成产品。该产品的主要功能为超拟人语音生成与音色克隆。

抖音音乐创作实验室
免费的AI音乐创作平台,支持从作词、作曲、编曲到发行的整套流程

Fish Audio
文本转语音和声音克隆AI工具

秘塔回响
AI语音输入法,0.5秒转写、支持50+语言方言、还能边说边翻译边搜索

通义听悟
通义听悟是阿里云通义家族新成员,是一款聚焦于音视频内容的工作学习AI助手。

Suno V3
AI生成精美歌曲

音述 AI
中文圈的AI写歌神器
暂无评论...















