NVLM 1.0

NVLM 1.0Desbloqueie o poder da multimodalidade com LLMs de última geração.

NVLM 1.0 é uma família de modelos de linguagem grandes (LLMs) multimodais de classe de fronteira que atingem resultados de ponta em tarefas de visão-linguagem, competindo com os principais modelos proprietários (por exemplo, GPT-4o) e modelos de acesso aberto (por exemplo, Llama 3-V 405B e InternVL 2).

NVLM 1.0 screenshot

NVLM 1.0

NVLM 1.0 é uma família de modelos de linguagem grandes multimodais (LLMs) de classe de ponta que alcançam resultados de ponta em tarefas de visão-linguagem, rivalizando com os principais modelos proprietários (por exemplo, GPT-4o) e modelos de acesso aberto (por exemplo, Llama 3-V 405B e InternVL 2). Notavelmente, após o treinamento multimodal, o NVLM 1.0 mostra uma precisão aprimorada em tarefas de texto apenas em comparação com sua base LLM. Estamos disponibilizando o código-fonte dos pesos do modelo e o código de treinamento em Megatron-Core para a comunidade.

Product Highlights

  • Recurso 1: Alcança resultados de ponta em tarefas de visão-linguagem.
  • Recurso 2: Precisão aprimorada em tarefas de texto apenas.
  • Recurso 3: Código aberto.

Use Cases

  • Caso de uso 1: O NVLM 1.0 é usado para responder perguntas relacionadas a imagens e texto.
  • Caso de uso 2: O NVLM 1.0 é usado para gerar texto descritivo para imagens.
  • Caso de uso 3: O NVLM 1.0 é usado para analisar texto e imagens e realizar raciocínio lógico.

Target Audience

NVLM 1.0 é usado por pesquisadores e desenvolvedores interessados em construir aplicativos multimodais.

Top 10 produtos da semana