
Polarity
基于真实服务沙盒的AI代理评估基础设施
Polarity为AI代理提供沙盒评估基础设施,支持真实服务隔离、行为不变性评分、非确定性测量和种子重放,适用于复杂多步骤代理。

更多关于 Polarity 的信息
Polarity
Polarity 是一款面向 AI 代理的沙盒化评估基础设施。它通过隔离的 Docker 沙箱运行代理任务,并预加载真实后端服务,以捕获复杂多步骤代理中的状态故障。相比传统工具,它在长周期、有状态场景下提供更准确的评估。
- •沙盒化评估环境:每个代理任务在隔离的 Docker 沙箱中运行,预加载 Postgres、Redis、S3 等真实服务,确保评估环境与生产一致。
- •行为不变性评分:根据行为不变性和禁止规则对运行进行评分,自动检测违规行为,确保代理行为符合预期。
- •非确定性测量:通过副本运行测量非确定性,量化结果的可重复性,提升评估可靠性。
- •故障种子复现:每次失败附带种子复现器,一条命令即可在本地重建相同沙箱,加速调试。
- •快速沙箱启动:沙箱冷启动仅需 214 毫秒,服务启动 520 毫秒,集群预热 392 毫秒,显著快于竞品。
- •大规模并行运行:支持单次基准测试中并行运行 10,000 个沙箱,成本线性增长,无需预热。
- •回归检测:在合并前捕获 96% 的回归,使上线故障减少 14 倍。
- •可观测性:实时追踪每个代理的轨迹、工具调用、延迟和成本,支持告警和自动化。
- •企业级部署:支持 VPC 部署、SSO、审计日志,符合 SOC 2、HIPAA、ISO 27001 标准。
在当今复杂的 AI 代理生产环境中,Polarity 提供最准确的评估基础设施。通过沙盒化真实服务环境,它帮助团队将代理变更到评估的周期从数周缩短至一小时,并大幅降低上线故障。选择 Polarity,意味着以可靠的数据驱动代理迭代,自信地交付高质量 AI 代理。










