
Runlog
轻量级训练监控,实时追踪指标,自动生成图表
Runlog是一款面向开发者的训练监控工具,支持三行代码集成,实时流式传输指标,自动检测图表,离线优先,团队协作与运行对比。

更多关于 Runlog 的信息
Runlog
Runlog是一款面向开发者的轻量级训练监控工具。通过三行代码即可从任何脚本发送指标,实时查看训练进度,并保留每次实验的完整历史记录。
- •实时指标流式传输:每一步的指标值实时流式传输,图表即时更新,无需轮询,零延迟。
- •离线优先SDK:即使断网或进程崩溃,指标和日志也不会丢失。数据本地缓冲,重连后自动同步,也支持手动CLI同步。
- •自动终端日志捕获:自动捕获所有print语句、tqdm进度条和框架日志,与指标一同显示在仪表盘上,无需额外配置。
- •工作区群组聊天:每个工作区内置群组聊天功能,可在仪表盘内讨论运行、分享观察结果,无需切换工具。
- •跨用户运行对比:直接加载队友的运行到对比视图,即时叠加结果,无需导出。
- •条件邮件告警:对任意指标设置阈值规则,当值超限、指标停滞或损失突增时立即发送通知。
- •崩溃检测:自动检测训练崩溃(如Python异常、OOM、NaN损失),立即发送告警并附上最后已知状态。
- •死运行检测:在可配置超时内无步骤记录时,将运行标记为死运行并立即告警。
- •可中断训练:从仪表盘点击暂停,训练脚本会收到干净信号以保存检查点并停止,零状态丢失。
- •动态指标记录:任意步骤记录任意键值对,图表自动创建,无需预定义模式或配置,甚至可在运行中途添加新指标。
- •运行笔记与观察:直接在运行上编写Markdown笔记,可锚定到特定步骤,记录实验间的变化。
- •团队空间与RBAC:邀请团队成员进入共享工作区,通过细粒度操作级角色控制每个成员的创建、编辑、删除和管理权限。
- •并排运行对比:在相同图表轴上叠加多个运行,一目了然地评估训练方法、超参数搜索和架构变化。
- •公开分享链接:生成任何运行的公开只读URL,分享给协作者或观众,无需账户即可查看,且可随时撤销。
- •检查点账本:在仪表盘中标记检查点路径及其精确指标快照(如验证损失、困惑度、步数),无需翻查日志即可找到最佳检查点。
无论是调试超参数还是监控长时间训练,Runlog都能让您实时掌握模型动态,避免因崩溃或静默挂起而浪费算力。选择Runlog,让每次实验都清晰可控,加速模型迭代。










