NVLM 1.0

NVLM 1.0Model bahasa besar multimodal yang unggul dalam tugas vision-language.

NVLM 1.0 adalah keluarga model bahasa besar multimodal (LLM) kelas frontier yang mencapai hasil mutakhir dalam tugas vision-language, bersaing dengan model-model proprietari terkemuka (mis., GPT-4o) dan model-model akses terbuka (mis., Llama 3-V 405B dan InternVL 2).

NVLM 1.0 screenshot

NVLM 1.0

NVLM 1.0 adalah keluarga model bahasa besar multimodal (LLM) kelas frontier yang mencapai hasil mutakhir pada tugas visi-bahasa, menyaingi model kepemilikan terkemuka (misalnya, GPT-4o) dan model akses terbuka (misalnya, Llama 3-V 405B dan InternVL 2). Yang luar biasa, setelah pelatihan multimodal, NVLM 1.0 menunjukkan akurasi yang lebih baik pada tugas teks saja dibandingkan dengan tulang punggung LLM-nya. Kami membuka sumber bobot model dan kode pelatihan di Megatron-Core untuk komunitas.

Product Highlights

  • Fitur 1: Mencapai hasil mutakhir pada tugas visi-bahasa.
  • Fitur 2: Akurasi yang lebih baik pada tugas teks saja.
  • Fitur 3: Sumber terbuka.

Use Cases

  • Kasus penggunaan 1: NVLM 1.0 digunakan untuk menjawab pertanyaan yang terkait dengan gambar dan teks.
  • Kasus penggunaan 2: NVLM 1.0 digunakan untuk menghasilkan teks deskriptif untuk gambar.
  • Kasus penggunaan 3: NVLM 1.0 digunakan untuk menganalisis teks dan gambar serta melakukan penalaran logis.

Target Audience

NVLM 1.0 digunakan oleh peneliti dan pengembang yang tertarik untuk membangun aplikasi multimodal.

10 Produk Teratas Mingguan