NVLM 1.0 é uma família de modelos de linguagem grandes (LLMs) multimodais de classe de fronteira que atingem resultados de ponta em tarefas de visão-linguagem, competindo com os principais modelos proprietários (por exemplo, GPT-4o) e modelos de acesso aberto (por exemplo, Llama 3-V 405B e InternVL 2).
NVLM 1.0 é uma família de modelos de linguagem grandes multimodais (LLMs) de classe de ponta que alcançam resultados de ponta em tarefas de visão-linguagem, rivalizando com os principais modelos proprietários (por exemplo, GPT-4o) e modelos de acesso aberto (por exemplo, Llama 3-V 405B e InternVL 2). Notavelmente, após o treinamento multimodal, o NVLM 1.0 mostra uma precisão aprimorada em tarefas de texto apenas em comparação com sua base LLM. Estamos disponibilizando o código-fonte dos pesos do modelo e o código de treinamento em Megatron-Core para a comunidade.
NVLM 1.0 é usado por pesquisadores e desenvolvedores interessados em construir aplicativos multimodais.