
VoxCPM2
通过先进技术,实现多语言语音生成,声音设计与克隆,创造逼真、富有表现力的语音体验。
VoxCPM2 是一款免分词器的文本转语音 (TTS) 系统,支持 30 种语言,实现逼真语音合成、声音设计和声音克隆。支持48kHz 高质量音频输出。

更多关于 VoxCPM2 的信息
VoxCPM2
这款名为VoxCPM2的工具是一款基于MiniCPM-4的、免分词的文本转语音系统,能够生成高度自然且富有表现力的语音。它支持30种语言,并提供声音设计、可控声音克隆等功能,适用于多种应用场景。
- •30种语言支持:支持30种语言的文本直接合成语音,无需语言标签,覆盖广泛的语言需求。
- •声音设计功能:通过自然语言描述创建全新声音,支持性别、年龄、语调、情感、语速等参数,无需参考音频。
- •可控声音克隆:通过简短的参考音频片段克隆声音,并可控制风格,调整情感、语速和表达方式,同时保留原始音色。
- •48kHz高品质音频:接受16kHz参考音频,通过AudioVAE V2的非对称编码/解码设计,直接输出48kHz工作室质量的音频,无需外部升频器。
- •上下文感知合成:从文本内容中自动推断适当的韵律和表现力,使语音更自然流畅。
- •实时流式处理:在NVIDIA RTX 4090上,RTF低至约0.3,通过Nano-VLLM加速后,RTF低至约0.13。
- •终极克隆:提供参考音频及其确切的文本转录,实现音频延续性克隆,再现每个声音细微差别,包括音色、节奏、情感和风格。
- •完全开源:代码和权重在Apache-2.0许可证下发布,可免费用于商业用途。
对于希望提升语音合成质量和效率的用户来说,VoxCPM2是一个理想的选择。它通过创新的免分词技术,提供多语言支持和丰富的声音设计功能,从而简化了工作流程。选择VoxCPM2,您将体验到前所未有的语音合成自由,轻松打造个性化、高质量的语音内容。










