NVLM 1.0 - это семейство передовых многомодальных больших языковых моделей (LLM), которые демонстрируют передовые результаты в задачах обработки изображений и текста, конкурируя с ведущими проприетарными моделями (например, GPT-4o) и моделями с открытым доступом (например, Llama 3-V 405B и InternVL 2).
NVLM 1.0 - это семейство многомодальных больших языковых моделей (LLM) класса «фронтир», которые достигают передовых результатов в задачах по обработке визуальной информации и языка, конкурируя с ведущими проприетарными моделями (например, GPT-4o) и моделями с открытым доступом (например, Llama 3-V 405B и InternVL 2). Примечательно, что после многомодального обучения NVLM 1.0 демонстрирует улучшенную точность в задачах только с текстом по сравнению с его базовой LLM. Мы открываем исходный код весов модели и код обучения в Megatron-Core для сообщества.
NVLM 1.0 используется исследователями и разработчиками, заинтересованными в создании многомодальных приложений.