MARS5 TTS logo

MARS5 TTS开源、令人惊叹的韵律文本到语音模型

MARS5 是一款开源 TTS 模型,可复制 140 多种语言的表现(从 2-3 秒的音频参考开始),即使是极度困难的韵律场景,例如体育解说、电影、动漫等等。今天就加入我们的 Discord:https://discord.com/invite/ZzsKTAKM!

MARS5 TTS screenshot
更多关于 MARS5 TTS 的信息

MARS5 TTS:利用先进的韵律改变文本到语音

简介

CAMB.AI 的 MARS5 TTS 是一款最先进的文本到语音模型,旨在生成高度自然、韵律丰富的语音。利用创新的两阶段 AR-NAR 管道,MARS5 在为各种具有挑战性的场景生成语音方面表现出色。

主要功能

  • 先进的韵律: 生成具有自然音调和节奏的语音。
  • 两阶段管道: 结合自回归和非自回归模型以获得高质量输出。
  • 最小的输入要求: 只需 5 秒音频和一段文本片段。
  • 可自定义的输出: 使用标点符号和大写字母控制韵律。
  • 深度克隆: 通过参考转录增强语音识别质量。

使用场景

  • 体育解说: 生成动态且引人入胜的体育解说。
  • 动漫配音: 为动漫创建富有表现力且具有角色特色的声音。
  • 语音克隆: 高保真地克隆语音以用于各种应用程序。
  • 交互式语音应答 (IVR): 使用自然声音的自动响应来提升客户服务。
  • 有声书旁白: 制作专业质量的有声书旁白。

定价

MARS5 TTS 在 GNU AGPL 3.0 许可下是开源的。对于商业查询或要获得闭源版本的许可,请联系 [email protected]

团队

CAMB.AI 是一支全球分布式的专家团队,包括在 Interspeech 上发表论文的研究人员以及来自卡内基梅隆大学的前 Siri 工程师。我们致力于推进语音合成技术,并积极招聘。有兴趣的候选人可以联系 [email protected] 获取更多信息。

加入我们社区的论坛和 Discord,分享您的反馈、建议或问题。在 Ko-fi 上支持我们,帮助我们继续我们的工作,让每个人的声音都变得重要。