NVLM 1.0, en gelişmiş çoklu modlu büyük dil modelleri (LLM) ailesi, görsel-dil görevlerinde en son teknolojiyi sunarak, önde gelen tescilli modellere (örneğin GPT-4o) ve açık erişimli modellere (örneğin Llama 3-V 405B ve InternVL 2) rakip oluyor.
NVLM 1.0, görsel-dil görevlerinde en son teknolojiyi yakalayan ve lider özel mülk modellerini (örneğin GPT-4o) ve açık erişimli modelleri (örneğin Llama 3-V 405B ve InternVL 2) geride bırakan, öncü sınıf çoklu modlu büyük dil modelleri (LLM) ailesidir. Çarpıcı bir şekilde, çoklu modlu eğitimden sonra NVLM 1.0, LLM omurgasından daha fazla yalnızca metin görevlerinde iyileştirilmiş doğruluk göstermektedir. Topluluk için Megatron-Core'da model ağırlıklarını ve eğitim kodunu açık kaynak olarak yayınlıyoruz.
NVLM 1.0, çoklu modlu uygulamalar oluşturmakla ilgilenen araştırmacılar ve geliştiriciler tarafından kullanılır.