MolmoWeb logo

MolmoWeb

通过视觉理解和行动,在网络上执行任务,扩展信息和数字服务的访问。

MolmoWeb 是一个开源的视觉网络代理,基于 Molmo 2 多模态模型家族构建,可自动化网络任务。包括模型、训练数据、代码和评估工具。

Sponsors

Become one
Featured
NotchNook
NotchNook

NotchNook

Access media, calendar, files, and more from the Mac's notch

Visit Website
Featured
NoFilterGPT
NoFilterGPT

NoFilterGPT

Unleash the Unrestricted Power of anonymous and unfiltered ChatGPT

Visit Website

Promote your product

Seen by 300K+ monthly visitors

MolmoWeb - 通过视觉理解和行动,在网络上执行任务,扩展信息和数字服务的访问。 | Product Screenshot
MolmoWeb product screenshot

更多关于 MolmoWeb 的信息

MolmoWeb

MolmoWeb 是一款基于 Molmo 2 多模态模型构建的开放视觉 Web 代理。它能够通过理解用户指令,在浏览器中执行点击、输入、滚动等操作,从而实现网页任务自动化。 MolmoWeb 适用于各种 Web 任务,例如信息检索、表单填写和产品搜索。

  • 视觉网页任务自动化:通过理解网页截图,执行点击、输入、滚动等浏览器操作,实现网页任务自动化。支持多种 Web 任务,无需特定网站 API。
  • 开放模型与代码:提供 MolmoWeb 模型权重、训练数据、代码和评估工具。允许用户在本地或云端部署,方便研究和开发。
  • 多模态理解能力:基于 Molmo 模型,具备出色的图像理解、视觉推理能力。扩展到浏览器控制,实现网页内容理解与操作。
  • 开放训练数据 MolmoWebMix:包含合成数据和人工标注数据,用于训练 Web 代理。提供完整的训练和评估流程,方便用户复现和改进。
  • 实时网页交互:通过截图获取网页信息,并根据指令执行操作。支持导航、表单填写、搜索等多种任务。
  • 多任务基准测试:在 WebVoyager、Online-Mind2Web、DeepShop 和 WebTailBench 等基准测试中表现出色。性能超越其他开源模型。
  • 视觉元素定位:在 ScreenSpot 和 ScreenSpot v2 基准测试中,精准定位屏幕上的用户界面元素。性能超越其他开源模型。
  • Demo 演示:提供 MolmoWeb 演示,用户可以输入任务并实时观察网页操作。 方便用户了解和使用。

对于希望自动化 Web 任务的用户来说,MolmoWeb 是一个理想的选择。它通过开放的架构和全面的工具,帮助您轻松实现网页浏览的自动化。 无论您是研究人员还是开发者,MolmoWeb 都能帮助您提高效率,并为 Web 智能的发展做出贡献。