Molmo 2 logo

Molmo 2

Desenvolvendo capacidades avançadas de compreensão visual, permitindo análises precisas e detalhadas de conteúdo em vídeo.

Molmo 2 é um modelo multimodal de última geração para compreensão, apontamento e rastreamento de vídeos, superando os modelos abertos em diversas métricas e oferecendo uma arquitetura aberta e extensível.

Sponsors

Become one
Featured
NoFilterGPT
NoFilterGPT

NoFilterGPT

Unleash the Unrestricted Power of anonymous and unfiltered ChatGPT

Visit Website
Featured
NotchNook
NotchNook

NotchNook

Access media, calendar, files, and more from the Mac's notch

Visit Website

Promote your product

Seen by 300K+ monthly visitors

Molmo 2 - Desenvolvendo capacidades avançadas de compreensão visual, permitindo análises precisas e detalhadas de conteúdo em vídeo. | Product Screenshot
Molmo 2 product screenshot

Mais sobre Molmo 2

Molmo 2

Molmo 2 é um modelo multimodal de ponta para compreensão de vídeo. Ele oferece funcionalidades avançadas para robótica, monitoramento de tráfego e medições científicas. O modelo se destaca na localização e raciocínio em vídeo, tornando-o uma ferramenta poderosa para diversas aplicações.

  • Rastreamento de vídeo avançado:Molmo 2 é o rastreador mais forte em avaliações, superando modelos de código aberto e sistemas proprietários. Ele rastreia objetos em vídeos, mesmo com oclusões, com identificadores persistentes.
  • Compreensão de vídeo nativa:O modelo suporta imagens únicas, múltiplas imagens e clipes de vídeo de vários comprimentos. Ele estende a ideia de 'onde o modelo está olhando' para o espaço e tempo, permitindo respostas precisas.
  • Grounded QA e pontuação:Responde a perguntas sobre vídeos, retornando evidências visuais concretas, como pontos e timestamps. Permite contar objetos, rastrear múltiplos objetos e detectar anomalias.
  • Análise de imagens e vídeo:O Molmo 2 (8B) lidera todos os modelos de código aberto em benchmarks de imagem, com a variante 4B próxima. Ele se compara aos principais sistemas proprietários, como GPT-5.
  • Arquitetura aberta e extensível:Consiste em um codificador de visão e um modelo de linguagem (Qwen 3 ou Olmo). Um conector intercala tokens visuais com timestamps e informações de texto para raciocínio conjunto.
  • Múltiplas variantes de modelo:Oferece três variantes: Molmo 2 (8B) para grounding e QA, Molmo 2 (4B) otimizado para eficiência e Molmo 2-O (7B) para controle total.
  • Conjunto de dados abrangente:Utiliza um corpus multimodal centrado em vídeo com mais de 9 milhões de exemplos. Inclui nove novos conjuntos de dados para legendagem, QA e pontuação/rastreamento.

Com o Molmo 2, a compreensão de vídeo atinge um novo patamar, oferecendo recursos avançados para diversas aplicações. Ele transforma a forma como interagimos com dados de vídeo, permitindo análises detalhadas e precisas. Ao escolher o Molmo 2, você terá uma ferramenta poderosa para impulsionar a inovação em seus projetos.