MARS5 TTS logo

MARS5 TTSМодель преобразования текста в речь с открытым исходным кодом, невероятно просодическая

MARS5 — это модель TTS с открытым исходным кодом для репликации выступлений (от 2-3 секунд аудио-ссылки) на более чем 140 языках, даже для очень сложных сценариев просодии, таких как спортивный комментарий, фильмы, аниме и многое другое. Присоединяйтесь к нашему Discord сегодня! https://discord.com/invite/ZzsKTAKM

MARS5 TTS screenshot
Подробнее о MARS5 TTS

MARS5 TTS: Преобразование текста в речь с помощью продвинутой просодии

Введение

MARS5 TTS от CAMB.AI — это современная модель преобразования текста в речь, разработанная для создания максимально естественной речи, богатой просодией. Используя новый двухэтапный конвейер AR-NAR, MARS5 превосходит в создании речи для разнообразных и сложных сценариев.

Ключевые особенности

  • Продвинутая просодия: Создает речь с естественной интонацией и ритмом.
  • Двухэтапный конвейер: Объединяет авторегрессивные и неавторегрессивные модели для получения высококачественного результата.
  • Минимальные требования к вводу: Требуется всего 5 секунд звука и фрагмент текста.
  • Настраиваемый вывод: Управление просодией с помощью пунктуации и заглавных букв.
  • Глубокое клонирование: Повышенное качество с использованием референсной транскрипции для идентификации говорящего.

Случаи использования

  • Спортивный комментарий: Создание динамичного и захватывающего спортивного комментария.
  • Озвучивание аниме: Создание выразительных голосов, характерных для персонажей аниме.
  • Клонирование голоса: Клонирование голосов для различных приложений с высокой точностью.
  • Интерактивный голосовой ответ (IVR): Повышение качества обслуживания клиентов с помощью естественно звучащих автоматизированных ответов.
  • Чтение аудиокниг: Создание профессиональных аудиокниг.

Цены

MARS5 TTS — это проект с открытым исходным кодом, распространяемый по лицензии GNU AGPL 3.0. Для коммерческих запросов или получения лицензии на закрытую версию обратитесь к [email protected].

Команды

CAMB.AI — это глобально распределенная команда экспертов, в том числе исследователей, опубликовавших работы в Interspeech, и бывших инженеров Siri из Карнеги-Меллона. Мы стремимся развивать технологию синтеза речи и активно ведем набор сотрудников. Заинтересованные кандидаты могут связаться с [email protected] для получения дополнительной информации.

Присоединяйтесь к нашему сообществу на нашем форуме и в Discord, чтобы делиться отзывами, предложениями или задавать вопросы. Поддержите нас на Ko-fi, чтобы помочь нам продолжить работу по тому, чтобы голос каждого имел значение.

Топ-10 продуктов недели