
MolmoWeb
通过视觉理解和行动,在网络上执行任务,扩展信息和数字服务的访问。
MolmoWeb 是一个开源的视觉网络代理,基于 Molmo 2 多模态模型家族构建,可自动化网络任务。包括模型、训练数据、代码和评估工具。

更多关于 MolmoWeb 的信息
MolmoWeb
MolmoWeb 是一款基于 Molmo 2 多模态模型构建的开放视觉 Web 代理。它能够通过理解用户指令,在浏览器中执行点击、输入、滚动等操作,从而实现网页任务自动化。 MolmoWeb 适用于各种 Web 任务,例如信息检索、表单填写和产品搜索。
- •视觉网页任务自动化:通过理解网页截图,执行点击、输入、滚动等浏览器操作,实现网页任务自动化。支持多种 Web 任务,无需特定网站 API。
- •开放模型与代码:提供 MolmoWeb 模型权重、训练数据、代码和评估工具。允许用户在本地或云端部署,方便研究和开发。
- •多模态理解能力:基于 Molmo 模型,具备出色的图像理解、视觉推理能力。扩展到浏览器控制,实现网页内容理解与操作。
- •开放训练数据 MolmoWebMix:包含合成数据和人工标注数据,用于训练 Web 代理。提供完整的训练和评估流程,方便用户复现和改进。
- •实时网页交互:通过截图获取网页信息,并根据指令执行操作。支持导航、表单填写、搜索等多种任务。
- •多任务基准测试:在 WebVoyager、Online-Mind2Web、DeepShop 和 WebTailBench 等基准测试中表现出色。性能超越其他开源模型。
- •视觉元素定位:在 ScreenSpot 和 ScreenSpot v2 基准测试中,精准定位屏幕上的用户界面元素。性能超越其他开源模型。
- •Demo 演示:提供 MolmoWeb 演示,用户可以输入任务并实时观察网页操作。 方便用户了解和使用。
对于希望自动化 Web 任务的用户来说,MolmoWeb 是一个理想的选择。它通过开放的架构和全面的工具,帮助您轻松实现网页浏览的自动化。 无论您是研究人员还是开发者,MolmoWeb 都能帮助您提高效率,并为 Web 智能的发展做出贡献。










