NVLM 1.0 は、最先端の画像とテキストを組み合わせたマルチモーダル LLM のファミリーです。GPT-4o や Llama 3-V 405B、InternVL 2 などの主要なプロプライエタリモデルおよびオープンアクセスモデルに匹敵する、最先端の結果を画像とテキストのタスクで達成します。
NVLM 1.0は、最先端のマルチモーダル大規模言語モデル(LLM)のファミリーであり、ビジョンと言語のタスクで最先端の結果を達成し、主要なプロプライエタリモデル(例:GPT-4o)やオープンアクセスモデル(例:Llama 3-V 405BおよびInternVL 2)に匹敵します。注目すべきは、マルチモーダルトレーニング後、NVLM 1.0は、そのLLMバックボーンよりも、テキストのみのタスクで精度が向上していることです。私たちは、コミュニティのために、Megatron-Coreのモデルウェイトとトレーニングコードをオープンソース化しています。
NVLM 1.0は、マルチモーダルアプリケーションの構築に関心のある研究者や開発者によって使用されます。