
Step 3.7 Flash
高效能多模态代理模型,支持视觉理解与工具调用
Step 3.7 Flash 是一款高效能多模态代理模型,支持视觉理解、网页搜索、工具调用和编码,在多项基准测试中表现优异。


更多关于 Step 3.7 Flash 的信息
Step 3.7 Flash
Step 3.7 Flash是一款面向真实世界智能体的高效Flash模型。它具备多模态理解与行动能力,专为提升智能体效率而设计,适用于编码、搜索、企业任务等场景。
- •原生多模态理解与行动:能够理解产品界面、文档、图表和自然场景等各类图像,并编写代码或调用工具对所见内容执行操作。
- •网络与视觉搜索增强:网络搜索覆盖更多来源并支持深度追问;视觉搜索可识别其他系统无法识别的长尾实体和新概念。
- •可靠工具调用与编排:驱动终端、浏览器、Office工具、搜索等,在长时间运行中保持连贯,减少漂移、工具调用失败和运行中断。
- •智能体生态兼容性:兼容主流框架(Claude Code、KiloCode、Hermes Agent、OpenClaw)和技能,降低集成成本,减少工作流改造。
- •高效编码能力:在SWE-Bench Pro和Terminal-Bench 2.1上分别达到56.3%和59.5%的得分,支持顾问模式,以九分之一成本实现97%的编码性能。
- •企业任务优化:在动态环境中自主执行任务,结合深度领域知识,在Toolathlon和ClawEval-1.1上分别取得49.5%和67.1%的得分。
- •视觉感知与Python工具:通过Python工具实现裁剪、缩放、绘制等操作,在V*和HR-Bench等基准上达到95.3%和89.1%的准确率。
- •GUI操作能力:支持手机端图形界面操作,在Android Daily基准上达到61.87%的完成率,超越多数更大规模模型。
在当今智能体驱动的应用场景中,Step 3.7 Flash以Flash级效率提供了接近前沿模型的性能。通过原生多模态、深度搜索和可靠工具编排,它显著降低了部署成本并提升了任务完成质量。选择它,意味着在效率与能力之间获得最佳平衡。










