VoxCPM2 logo

VoxCPM2

通过先进技术,实现多语言语音生成,声音设计与克隆,创造逼真、富有表现力的语音体验。

VoxCPM2 是一款免分词器的文本转语音 (TTS) 系统,支持 30 种语言,实现逼真语音合成、声音设计和声音克隆。支持48kHz 高质量音频输出。

Sponsors

Become one
Featured
NoFilterGPT
NoFilterGPT

NoFilterGPT

Unleash the Unrestricted Power of anonymous and unfiltered ChatGPT

Visit Website
Featured
NotchNook
NotchNook

NotchNook

Access media, calendar, files, and more from the Mac's notch

Visit Website

Promote your product

Seen by 300K+ monthly visitors

VoxCPM2 - 通过先进技术,实现多语言语音生成,声音设计与克隆,创造逼真、富有表现力的语音体验。 | Product Screenshot
VoxCPM2 product screenshot

更多关于 VoxCPM2 的信息

VoxCPM2

这款名为VoxCPM2的工具是一款基于MiniCPM-4的、免分词的文本转语音系统,能够生成高度自然且富有表现力的语音。它支持30种语言,并提供声音设计、可控声音克隆等功能,适用于多种应用场景。

  • 30种语言支持:支持30种语言的文本直接合成语音,无需语言标签,覆盖广泛的语言需求。
  • 声音设计功能:通过自然语言描述创建全新声音,支持性别、年龄、语调、情感、语速等参数,无需参考音频。
  • 可控声音克隆:通过简短的参考音频片段克隆声音,并可控制风格,调整情感、语速和表达方式,同时保留原始音色。
  • 48kHz高品质音频:接受16kHz参考音频,通过AudioVAE V2的非对称编码/解码设计,直接输出48kHz工作室质量的音频,无需外部升频器。
  • 上下文感知合成:从文本内容中自动推断适当的韵律和表现力,使语音更自然流畅。
  • 实时流式处理:在NVIDIA RTX 4090上,RTF低至约0.3,通过Nano-VLLM加速后,RTF低至约0.13。
  • 终极克隆:提供参考音频及其确切的文本转录,实现音频延续性克隆,再现每个声音细微差别,包括音色、节奏、情感和风格。
  • 完全开源:代码和权重在Apache-2.0许可证下发布,可免费用于商业用途。

对于希望提升语音合成质量和效率的用户来说,VoxCPM2是一个理想的选择。它通过创新的免分词技术,提供多语言支持和丰富的声音设计功能,从而简化了工作流程。选择VoxCPM2,您将体验到前所未有的语音合成自由,轻松打造个性化、高质量的语音内容。