
MolmoWeb
Permite la navegación y realización de tareas en la web interpretando interfaces visuales para una mayor accesibilidad.
MolmoWeb es un agente web abierto de Allen AI que automatiza tareas en la web mediante la interpretación visual de interfaces. Incluye modelos, datos de entrenamiento y herramientas de evaluación.

Más sobre MolmoWeb
MolmoWeb
MolmoWeb es un agente visual abierto para la automatización de tareas web. Permite a los usuarios navegar y completar tareas en un navegador, interpretando la interfaz visual como lo haría un humano. Este sistema se basa en modelos multimodales y ofrece una solución para la automatización de tareas web.
- •Automatización de tareas web:Permite navegar y completar tareas en un navegador, como rellenar formularios, buscar información y extraer datos de páginas web. El modelo interpreta la interfaz visual, lo que permite interactuar con sitios web de forma intuitiva.
- •Entrenamiento con datos abiertos:Se entrena con MolmoWebMix, un conjunto de datos abierto que combina datos sintéticos y ejemplos anotados por humanos. Esto facilita la inspección y mejora de cada componente del sistema.
- •Modelos de código abierto:Ofrece modelos de código abierto, pesos, datos de entrenamiento, código y herramientas de evaluación. Esto permite a los desarrolladores y investigadores inspeccionar y mejorar cada parte del sistema.
- •Interacción basada en capturas de pantalla:Funciona con capturas de pantalla, prediciendo el siguiente paso y ejecutando acciones en el navegador. Esto permite una interacción visual estable y fácil de interpretar.
- •Evaluación en benchmarks:Se evalúa en benchmarks como WebVoyager, Online-Mind2Web, DeepShop y WebTailBench. Los modelos MolmoWeb (4B y 8B) logran resultados de vanguardia entre los agentes web de código abierto.
- •Acciones en el navegador:Soporta acciones como navegar a URLs, hacer clic en coordenadas de la pantalla, escribir texto, desplazarse, abrir pestañas y enviar mensajes. Estas acciones operan directamente en la ventana gráfica del navegador.
- •Datos de demostración humana:Incluye 36K trayectorias de tareas humanas, la mayor cantidad de datos de ejecución de tareas web humanas de código abierto. Esto abarca más de 623K demostraciones de subtareas en más de 1.1K sitios web.
En la actualidad, MolmoWeb representa un avance significativo en la automatización web. Al elegir MolmoWeb, se obtiene una herramienta que simplifica la navegación y la interacción en la web. Con su enfoque en la transparencia y el código abierto, se impulsa la investigación y el desarrollo de agentes web confiables, abriendo nuevas posibilidades en la expansión del acceso a la información y los servicios digitales.










