NVLM 1.0

NVLM 1.0Libera el poder de la inteligencia artificial multimodales.

NVLM 1.0: Modelos lingüísticos de gran tamaño (LLM) multimodales de clase fronteriza que obtienen resultados de vanguardia en tareas de visión-lenguaje. Rivaliza con los modelos propietarios líderes (por ejemplo, GPT-4o) y los modelos de acceso abierto (por ejemplo, Llama 3-V 405B e InternVL 2).

NVLM 1.0 screenshot

NVLM 1.0

NVLM 1.0 es una familia de modelos de lenguaje grandes multimodales (LLMs) de clase avanzada que logran resultados de vanguardia en tareas de visión-lenguaje, compitiendo con los modelos propietarios líderes (por ejemplo, GPT-4o) y los modelos de acceso abierto (por ejemplo, Llama 3-V 405B e InternVL 2). Notablemente, después del entrenamiento multimodal, NVLM 1.0 muestra una precisión mejorada en las tareas de solo texto en comparación con su columna vertebral LLM. Estamos liberando el código fuente de los pesos del modelo y el código de entrenamiento en Megatron-Core para la comunidad.

Product Highlights

  • Característica 1: Alcanza resultados de vanguardia en tareas de visión-lenguaje.
  • Característica 2: Precisión mejorada en tareas de solo texto.
  • Característica 3: Código abierto.

Use Cases

  • Caso de uso 1: NVLM 1.0 se utiliza para responder preguntas relacionadas con imágenes y texto.
  • Caso de uso 2: NVLM 1.0 se utiliza para generar texto descriptivo para imágenes.
  • Caso de uso 3: NVLM 1.0 se utiliza para analizar texto e imágenes y realizar razonamiento lógico.

Target Audience

NVLM 1.0 es utilizado por investigadores y desarrolladores interesados en construir aplicaciones multimodales.

Top 10 productos de la semana