MARS5 TTS logo

MARS5 TTSオープンソース、プロソディが驚くほど優れたテキスト音声変換モデル

MARS5は、スポーツ実況、映画、アニメなど、非常に難しいプロソディシナリオにおいても、140以上の言語でパフォーマンスを複製するためのオープンソースのTTSモデルです。ぜひDiscordに参加してください: https://discord.com/invite/ZzsKTAKM

MARS5 TTS screenshot
MARS5 TTSについてもっと知る

MARS5 TTS: 進化したプロソディによるテキストから音声への変換

はじめに

CAMB.AIのMARS5 TTSは、非常に自然でプロソディックに豊かな音声生成を目的とした最先端のテキスト音声変換モデルです。革新的な2段階のAR-NARパイプラインを活用することで、MARS5は、多様な難しいシナリオにおいて音声生成に優れています。

主な機能

  • 高度なプロソディ: 自然なイントネーションとリズムの音声を生成します。
  • 2段階パイプライン: 高品質な出力のために、自己回帰モデルと非自己回帰モデルを組み合わせます。
  • 最小限の入力要件: 5秒間の音声とテキストスニペットのみが必要です。
  • カスタマイズ可能な出力: 音調を句読点と大文字で制御します。
  • ディープクローン: 話者のアイデンティティのための参照転写による品質向上。

ユースケース

  • スポーツ実況: ダイナミックで魅力的なスポーツ実況を生成します。
  • アニメ吹き替え: アニメに表現力豊かなキャラクター固有の音声を作り出します。
  • ボイスクローン: 高忠実度でさまざまな用途にボイスをクローンします。
  • インタラクティブボイスレスポンス (IVR): 自然な音声の自動応答で顧客サービスを向上させます。
  • オーディオブックナレーション: プロ品質のオーディオブックナレーションを作成します。

価格

MARS5 TTSは、GNU AGPL 3.0ライセンスの下でオープンソースです。商業的な問い合わせ、またはクローズドソースバージョンのライセンスについては、[email protected]までお問い合わせください。

チーム

CAMB.AIは、Interspeechで発表された研究者やカーネギーメロン出身の元Siriエンジニアを含む、グローバルに分散された専門家チームです。当社は、音声合成技術の進歩に専念し、積極的に採用を行っています。ご興味のある方は、[email protected]までお問い合わせください。

フォーラムとDiscordで私たちのコミュニティに参加して、フィードバック、提案、質問を共有してください。私たちの活動を継続し、すべての人が声を上げられるように、Ko-fiで私たちをサポートしてください。