
Zyphra Zonos
高品質リアルタイム音声生成、高忠実度音声クローン機能搭載
高忠実度音声クローン作成機能付き、リアルタイムテキスト音声変換(TTS)モデル「Zonos-v0.1ベータ版」が登場。1.6B Transformerと1.6B HybridモデルをApache 2.0ライセンスで公開。Hugging FaceとGithubで利用可能。

Zyphra Zonosについてもっと知る
Zyphra Zonos
ZyphraのZonosは、リアルタイムで高品質な音声生成を実現するテキスト音声変換(TTS)モデルです。このモデルは、高忠実度の音声クローン作成と幅広い感情表現に対応し、様々な音声制作ニーズに対応します。APIとモデルプレイグラウンドを通して、手軽に利用可能です。
- •2つの強力な音声モデル:16億パラメーターのTransformerモデルとハイブリッドモデルの2つのモデルを提供し、それぞれ異なるアーキテクチャによる音声生成の性能と品質のトレードオフを徹底的に調査できます。
- •大規模な多言語音声データセット:約20万時間の音声データでトレーニングされており、ニュートラルな音声から感情表現豊かな音声まで幅広く対応します。英語を主に、中国語、日本語、フランス語、スペイン語、ドイツ語など多言語に対応しています。
- •高忠実度音声クローン機能:5~30秒の音声クリップから高忠実度の音声クローンを作成できます。
- •柔軟な音声制御:話速、ピッチ標準偏差、音声品質、感情(悲しみ、恐怖、怒り、喜び、驚きなど)を調整できます。
- •高音質出力:44kHzの高音質で音声を出力します。
- •高速なリアルタイム音声生成:最適化された推論エンジンにより、高速な音声生成を実現します。特にハイブリッドモデルは、Transformerモデルと比べて遅延とメモリオーバーヘッドが低減されています。
- •費用対効果の高い価格設定:シンプルで競争力のある従量課金制で、1分あたり0.02ドルです。無料トライアルとして月間100分の利用が可能です。
Zonosは、テキストプロンプトから自然で表現力豊かな音声生成を可能にする、革新的なテキスト音声変換(TTS)モデルです。リアルタイム処理と高忠実度の音声クローン作成機能により、音声制作ワークフローを劇的に改善し、時間とコストを削減します。高品質な音声生成と柔軟な制御オプションにより、創造的な可能性を広げ、新たな表現方法を提供します。










