VoxCPM2 logo

VoxCPM2

Genera discursos de alta calidad en múltiples idiomas, con diseño de voz creativo y clonación precisa de voces.

VoxCPM2 es un sistema de texto a voz sin tokenizador para síntesis de voz multilingüe, diseño creativo de voz y clonación fiel a la realidad. Soporta 30 idiomas, diseño de voz y clonación controlable.

Sponsors

Become one
Featured
NotchNook
NotchNook

NotchNook

Access media, calendar, files, and more from the Mac's notch

Visit Website
Featured
NoFilterGPT
NoFilterGPT

NoFilterGPT

Unleash the Unrestricted Power of anonymous and unfiltered ChatGPT

Visit Website

Promote your product

Seen by 300K+ monthly visitors

VoxCPM2 - Genera discursos de alta calidad en múltiples idiomas, con diseño de voz creativo y clonación precisa de voces. | Product Screenshot
VoxCPM2 product screenshot

Más sobre VoxCPM2

VoxCPM2

VoxCPM2 es un sistema de texto a voz (TTS) que genera representaciones de voz continuas directamente, evitando la tokenización discreta para lograr una síntesis altamente natural y expresiva. Permite crear voces nuevas y clonar voces existentes con alta calidad.

  • Multilingüe con 30 idiomas:Permite sintetizar texto en 30 idiomas diferentes sin necesidad de etiquetas de idioma, lo que facilita la creación de contenido global.
  • Diseño de voz innovador:Crea una voz completamente nueva a partir de una descripción en lenguaje natural, especificando género, edad, tono y emoción, sin necesidad de audio de referencia.
  • Clonación de voz controlable:Clona cualquier voz a partir de un clip de referencia corto, con opciones de estilo para ajustar la emoción, el ritmo y la expresión, manteniendo el timbre original.
  • Clonación de voz definitiva:Reproduce cada matiz vocal, proporcionando audio de referencia y su transcripción exacta, para una clonación precisa que conserva timbre, ritmo, emoción y estilo.
  • Audio de alta calidad (48kHz):Acepta audio de referencia de 16 kHz y produce audio de calidad de estudio de 48 kHz directamente, sin necesidad de un upsampler externo.
  • Síntesis consciente del contexto:Infiere automáticamente la prosodia y expresividad apropiadas del contenido del texto, mejorando la naturalidad de la voz generada.
  • Streaming en tiempo real:Ofrece un RTF (Real-Time Factor) tan bajo como ~0.3 en NVIDIA RTX 4090, y ~0.13 acelerado por Nano-VLLM, lo que permite una respuesta rápida.
  • Código fuente abierto y comercial:Pesa y código liberados bajo la licencia Apache-2.0, lo que permite su uso gratuito para fines comerciales.

Con VoxCPM2, la síntesis de voz alcanza un nuevo nivel de realismo y control. Permite a los usuarios crear voces únicas y personalizadas, o replicar voces existentes con una fidelidad asombrosa. Ya sea para aplicaciones de entretenimiento, accesibilidad o creación de contenido, la tecnología transforma la forma en que interactuamos con la voz.