
Molmo 2
Desenvolvendo capacidades avançadas de compreensão visual, permitindo análises precisas e detalhadas de conteúdo em vídeo.
Molmo 2 é um modelo multimodal de última geração para compreensão, apontamento e rastreamento de vídeos, superando os modelos abertos em diversas métricas e oferecendo uma arquitetura aberta e extensível.

Mais sobre Molmo 2
Molmo 2
Molmo 2 é um modelo multimodal de ponta para compreensão de vídeo. Ele oferece funcionalidades avançadas para robótica, monitoramento de tráfego e medições científicas. O modelo se destaca na localização e raciocínio em vídeo, tornando-o uma ferramenta poderosa para diversas aplicações.
- •Rastreamento de vídeo avançado:Molmo 2 é o rastreador mais forte em avaliações, superando modelos de código aberto e sistemas proprietários. Ele rastreia objetos em vídeos, mesmo com oclusões, com identificadores persistentes.
- •Compreensão de vídeo nativa:O modelo suporta imagens únicas, múltiplas imagens e clipes de vídeo de vários comprimentos. Ele estende a ideia de 'onde o modelo está olhando' para o espaço e tempo, permitindo respostas precisas.
- •Grounded QA e pontuação:Responde a perguntas sobre vídeos, retornando evidências visuais concretas, como pontos e timestamps. Permite contar objetos, rastrear múltiplos objetos e detectar anomalias.
- •Análise de imagens e vídeo:O Molmo 2 (8B) lidera todos os modelos de código aberto em benchmarks de imagem, com a variante 4B próxima. Ele se compara aos principais sistemas proprietários, como GPT-5.
- •Arquitetura aberta e extensível:Consiste em um codificador de visão e um modelo de linguagem (Qwen 3 ou Olmo). Um conector intercala tokens visuais com timestamps e informações de texto para raciocínio conjunto.
- •Múltiplas variantes de modelo:Oferece três variantes: Molmo 2 (8B) para grounding e QA, Molmo 2 (4B) otimizado para eficiência e Molmo 2-O (7B) para controle total.
- •Conjunto de dados abrangente:Utiliza um corpus multimodal centrado em vídeo com mais de 9 milhões de exemplos. Inclui nove novos conjuntos de dados para legendagem, QA e pontuação/rastreamento.
Com o Molmo 2, a compreensão de vídeo atinge um novo patamar, oferecendo recursos avançados para diversas aplicações. Ele transforma a forma como interagimos com dados de vídeo, permitindo análises detalhadas e precisas. Ao escolher o Molmo 2, você terá uma ferramenta poderosa para impulsionar a inovação em seus projetos.










