MARS5 TTS logo

MARS5 TTSModelo de texto para fala de código aberto, incrivelmente prosódico

MARS5 um modelo TTS de código aberto para replicar performances (de 2-3 segundos de referência de áudio) em mais de 140 idiomas, mesmo para cenários de prosodia extremamente desafiadores como comentários esportivos, filmes, anime e muito mais. Junte-se ao nosso Discord https://discord.com/invite/ZzsKTAKM hoje!

MARS5 TTS screenshot
Mais sobre MARS5 TTS

MARS5 TTS: Transformando texto em fala com prosodia avançada

Introdução

O MARS5 TTS da CAMB.AI é um modelo de última geração de conversão de texto em fala projetado para gerar fala altamente natural e rica em prosodia. Aproveitando um pipeline AR-NAR de duas etapas inovador, o MARS5 se destaca na produção de fala para cenários diversos e desafiadores.

Principais recursos

  • Prosodia avançada: Gera fala com entonação e ritmo naturais.
  • Pipeline de duas etapas: Combina modelos autorregressivos e não autorregressivos para saída de alta qualidade.
  • Requisitos mínimos de entrada: Requer apenas 5 segundos de áudio e um trecho de texto.
  • Saída personalizável: Controle a prosodia com pontuação e maiúsculas.
  • Clonagem profunda: Qualidade aprimorada com transcrição de referência para identidade do locutor.

Casos de uso

  • Comentários esportivos: Gere comentários esportivos dinâmicos e envolventes.
  • Dublagem de anime: Crie vozes expressivas e específicas de personagens para anime.
  • Clonagem de voz: Clone vozes para vários aplicativos com alta fidelidade.
  • Resposta de voz interativa (IVR): Melhore o atendimento ao cliente com respostas automatizadas de som natural.
  • Narração de audiobook: Produza narrações de audiobook de qualidade profissional.

Preços

O MARS5 TTS é de código aberto sob a licença GNU AGPL 3.0. Para consultas comerciais ou para licenciar a versão de código fechado, entre em contato com [email protected].

Equipes

A CAMB.AI é uma equipe globalmente distribuída de especialistas, incluindo pesquisadores publicados na Interspeech e ex-engenheiros da Siri da Carnegie Mellon. Somos dedicados a avançar na tecnologia de síntese de fala e estamos contratando ativamente. Candidatos interessados ​​podem entrar em contato com [email protected] para obter mais informações.

Junte-se à nossa comunidade em nosso Fórum e Discord para compartilhar feedback, sugestões ou perguntas. Apoie-nos no Ko-fi para nos ajudar a continuar nosso trabalho em tornar a voz de todos importante.