
Molmo 2
该模型为视频分析带来了先进的定位、追踪和密集字幕功能,适用于多种应用场景。
Molmo 2 是一个先进的开放多模态模型,在视频理解、定位和追踪方面实现了技术突破,支持单图像、多图像和视频剪辑,提供更精确的视觉定位和推理能力。

更多关于 Molmo 2 的信息
Molmo 2
Molmo 2 是一款先进的视频理解模型,旨在提升多模态智能。它能够理解视频内容,并应用于机器人、辅助技术、交通监控等领域。Molmo 2 提供了更强的定位和推理能力,并支持视频指向、跟踪和密集字幕。
- •视频跟踪能力:Molmo 2 在视频跟踪方面表现出色,超越了开源 VLM 基线和专业跟踪器,甚至优于 Gemini 3 Pro。它能够稳定跟踪物体,即使在遮挡和重新出现的情况下也能保持 ID。
- •图像和多图像推理:在图像质量评估中,Molmo 2 (8B) 领先于所有开源模型,4B 变体紧随其后。它在图像 QA、短视频 QA、视频计数、视频跟踪和人类偏好方面表现出色。
- •视频指向与计数:Molmo 2 在视频计数基准测试中大幅领先所有开源模型。它通过空间和时间定位提供具体的视觉证据,回答“有多少?”等问题,而不是仅仅提供一个数字。
- •多模态输入支持:Molmo 2 能够处理单张图像、多图像输入和不同长度的视频片段。它扩展了图像指向的概念,并支持在时间和空间上的理解。
- •开放且可扩展的架构:Molmo 2 具有开放架构,包括处理图像或视频帧的视觉编码器和消耗这些标记的语言模型。轻量级连接器将视觉标记与时间戳、图像索引和文本交织在一起,以便模型可以共同推理空间、时间和语言。
- •多数据集训练:Molmo 2 训练使用了九个新数据集,专门用于密集字幕、长篇 QA 和跨图像、多图像集和视频的定位/跟踪。包括 Molmo2-Cap、Molmo2-AskModelAnything 等。
对于希望构建可重复使用、可定制和改进系统的用户来说,开放且先进的图像和视频理解模型至关重要。Molmo 2 提供了强大的功能,可用于各种应用,从视频摘要到目标跟踪。选择 Molmo 2,您将拥有一个强大的工具,可以显著提高您的视频理解能力,并为您的项目带来创新。










