NVLM 1.0 adalah keluarga model bahasa besar multimodal (LLM) kelas frontier yang mencapai hasil mutakhir dalam tugas vision-language, bersaing dengan model-model proprietari terkemuka (mis., GPT-4o) dan model-model akses terbuka (mis., Llama 3-V 405B dan InternVL 2).
NVLM 1.0 adalah keluarga model bahasa besar multimodal (LLM) kelas frontier yang mencapai hasil mutakhir pada tugas visi-bahasa, menyaingi model kepemilikan terkemuka (misalnya, GPT-4o) dan model akses terbuka (misalnya, Llama 3-V 405B dan InternVL 2). Yang luar biasa, setelah pelatihan multimodal, NVLM 1.0 menunjukkan akurasi yang lebih baik pada tugas teks saja dibandingkan dengan tulang punggung LLM-nya. Kami membuka sumber bobot model dan kode pelatihan di Megatron-Core untuk komunitas.
NVLM 1.0 digunakan oleh peneliti dan pengembang yang tertarik untuk membangun aplikasi multimodal.