
MolmoWeb
यह मल्टीमॉडल एआई का उपयोग करके वेब ब्राउज़िंग को स्वचालित करने और जानकारी तक पहुँचने के लिए डिज़ाइन किया गया है।
MolmoWeb, वेब कार्यों को स्वचालित करने के लिए एक ओपन-सोर्स विज़ुअल वेब एजेंट है। यह ब्राउज़र नियंत्रण के लिए मल्टीमॉडल AI का उपयोग करता है और स्व-होस्टेड परिनियोजन के लिए डिज़ाइन किया गया है।

MolmoWeb के बारे में अधिक
MolmoWeb
MolmoWeb एक वेब एजेंट है जो वेब कार्यों को स्वचालित करता है। यह मल्टीमॉडल AI पर आधारित है और ब्राउज़र को उसी तरह संचालित करता है जैसे इंसान करते हैं। यह विभिन्न उपयोग मामलों में जानकारी प्राप्त करने और डिजिटल सेवाओं तक पहुंच बढ़ाने में मदद करता है।
- •वेबसाइट नेविगेशन और क्रियाएँ:यह वेबसाइटों पर नेविगेट कर सकता है, फॉर्म भर सकता है, खोज कर सकता है और उत्पाद लिस्टिंग को फ़िल्टर कर सकता है। यह स्क्रीनशॉट के माध्यम से दृश्य इंटरफ़ेस की व्याख्या करता है।
- •खुला प्रशिक्षण डेटा:MolmoWebMix नामक एक बड़ा और विविध डेटासेट का उपयोग वेब एजेंटों को प्रशिक्षित करने के लिए किया जाता है। इसमें मानव प्रदर्शन और सिंथेटिक ट्रैजेक्टरी शामिल हैं।
- •खुला स्रोत मॉडल और कोड:यह मॉडल, प्रशिक्षण डेटा, कोड और मूल्यांकन उपकरण सहित पूर्ण रेसिपी प्रदान करता है। यह शोधकर्ताओं और डेवलपर्स को हर घटक का निरीक्षण और सुधार करने में सक्षम बनाता है।
- •विभिन्न बेंचमार्क पर प्रदर्शन:WebVoyager, Online-Mind2Web, DeepShop, और WebTailBench सहित कई बेंचमार्क पर उत्कृष्ट परिणाम प्राप्त करता है। यह अन्य ओपन-वेट मॉडल से बेहतर प्रदर्शन करता है।
- •दृश्य तत्व पहचान:स्क्रीनस्पॉट और स्क्रीनस्पॉट v2 बेंचमार्क पर मजबूत दृश्य ग्राउंडिंग प्रदर्शित करता है। यह UI तत्वों को सटीक रूप से स्क्रीन पर स्थित कर सकता है।
- •स्वयं-मेजबानी और अनुकूलन:डेवलपर MolmoWeb को स्थानीय रूप से या क्लाउड सेवाओं पर स्वयं-मेजबानी कर सकते हैं। वे विशिष्ट उपयोग मामलों के लिए मॉडल को फाइन-ट्यून भी कर सकते हैं।
आज, MolmoWeb के साथ, आप वेब पर विश्वसनीय स्वचालन के लिए आवश्यक सुरक्षा प्रथाओं को विकसित करने में भाग ले सकते हैं। यह जानकारी और डिजिटल सेवाओं तक पहुंच का विस्तार करता है। MolmoWeb मल्टीमॉडल मॉडल को छवियों की निष्क्रिय समझ से आगे बढ़ाता है, जिससे वे जो देखते हैं उस पर कार्य कर सकते हैं।










