NVLM 1.0 是一个突破性的多模态大型语言模型系列,在视觉语言任务上取得了最先进的结果,与领先的专有模型(例如 GPT-4o)和开源模型(例如 Llama 3-V 405B 和 InternVL 2)相媲美。
NVLM 1.0 是一个由前沿级多模态大型语言模型 (LLM) 组成的系列,在视觉语言任务中取得了最先进的结果,与领先的专有模型(例如 GPT-4o)和开放访问模型(例如 Llama 3-V 405B 和 InternVL 2)相媲美。值得注意的是,在多模态训练后,NVLM 1.0 在仅文本任务中表现出比其 LLM 主干更高的准确性。我们正在为社区开源 Megatron-Core 中的模型权重和训练代码。
NVLM 1.0 由对构建多模态应用程序感兴趣的研究人员和开发人员使用。