NVLM 1.0: Modelos lingüísticos de gran tamaño (LLM) multimodales de clase fronteriza que obtienen resultados de vanguardia en tareas de visión-lenguaje. Rivaliza con los modelos propietarios líderes (por ejemplo, GPT-4o) y los modelos de acceso abierto (por ejemplo, Llama 3-V 405B e InternVL 2).
NVLM 1.0 es una familia de modelos de lenguaje grandes multimodales (LLMs) de clase avanzada que logran resultados de vanguardia en tareas de visión-lenguaje, compitiendo con los modelos propietarios líderes (por ejemplo, GPT-4o) y los modelos de acceso abierto (por ejemplo, Llama 3-V 405B e InternVL 2). Notablemente, después del entrenamiento multimodal, NVLM 1.0 muestra una precisión mejorada en las tareas de solo texto en comparación con su columna vertebral LLM. Estamos liberando el código fuente de los pesos del modelo y el código de entrenamiento en Megatron-Core para la comunidad.
NVLM 1.0 es utilizado por investigadores y desarrolladores interesados en construir aplicaciones multimodales.