
VoxCPM2
Genera discursos de alta calidad en múltiples idiomas, con diseño de voz creativo y clonación precisa de voces.
VoxCPM2 es un sistema de texto a voz sin tokenizador para síntesis de voz multilingüe, diseño creativo de voz y clonación fiel a la realidad. Soporta 30 idiomas, diseño de voz y clonación controlable.

Más sobre VoxCPM2
VoxCPM2
VoxCPM2 es un sistema de texto a voz (TTS) que genera representaciones de voz continuas directamente, evitando la tokenización discreta para lograr una síntesis altamente natural y expresiva. Permite crear voces nuevas y clonar voces existentes con alta calidad.
- •Multilingüe con 30 idiomas:Permite sintetizar texto en 30 idiomas diferentes sin necesidad de etiquetas de idioma, lo que facilita la creación de contenido global.
- •Diseño de voz innovador:Crea una voz completamente nueva a partir de una descripción en lenguaje natural, especificando género, edad, tono y emoción, sin necesidad de audio de referencia.
- •Clonación de voz controlable:Clona cualquier voz a partir de un clip de referencia corto, con opciones de estilo para ajustar la emoción, el ritmo y la expresión, manteniendo el timbre original.
- •Clonación de voz definitiva:Reproduce cada matiz vocal, proporcionando audio de referencia y su transcripción exacta, para una clonación precisa que conserva timbre, ritmo, emoción y estilo.
- •Audio de alta calidad (48kHz):Acepta audio de referencia de 16 kHz y produce audio de calidad de estudio de 48 kHz directamente, sin necesidad de un upsampler externo.
- •Síntesis consciente del contexto:Infiere automáticamente la prosodia y expresividad apropiadas del contenido del texto, mejorando la naturalidad de la voz generada.
- •Streaming en tiempo real:Ofrece un RTF (Real-Time Factor) tan bajo como ~0.3 en NVIDIA RTX 4090, y ~0.13 acelerado por Nano-VLLM, lo que permite una respuesta rápida.
- •Código fuente abierto y comercial:Pesa y código liberados bajo la licencia Apache-2.0, lo que permite su uso gratuito para fines comerciales.
Con VoxCPM2, la síntesis de voz alcanza un nuevo nivel de realismo y control. Permite a los usuarios crear voces únicas y personalizadas, o replicar voces existentes con una fidelidad asombrosa. Ya sea para aplicaciones de entretenimiento, accesibilidad o creación de contenido, la tecnología transforma la forma en que interactuamos con la voz.










