Runlog logo

Runlog

轻量级训练监控,实时追踪指标,自动生成图表

Runlog是一款面向开发者的训练监控工具,支持三行代码集成,实时流式传输指标,自动检测图表,离线优先,团队协作与运行对比。

Sponsors

Become one
Featured
NotchNook
NotchNook

NotchNook

Access media, calendar, files, and more from the Mac's notch

Visit Website
Featured
NoFilterGPT
NoFilterGPT

NoFilterGPT

Unleash the Unrestricted Power of anonymous and unfiltered ChatGPT

Visit Website

Promote your product

Seen by 300K+ monthly visitors

Runlog - 轻量级训练监控,实时追踪指标,自动生成图表 | Product Screenshot
Runlog product screenshot

更多关于 Runlog 的信息

Runlog

Runlog是一款面向开发者的轻量级训练监控工具。通过三行代码即可从任何脚本发送指标,实时查看训练进度,并保留每次实验的完整历史记录。

  • 实时指标流式传输:每一步的指标值实时流式传输,图表即时更新,无需轮询,零延迟。
  • 离线优先SDK:即使断网或进程崩溃,指标和日志也不会丢失。数据本地缓冲,重连后自动同步,也支持手动CLI同步。
  • 自动终端日志捕获:自动捕获所有print语句、tqdm进度条和框架日志,与指标一同显示在仪表盘上,无需额外配置。
  • 工作区群组聊天:每个工作区内置群组聊天功能,可在仪表盘内讨论运行、分享观察结果,无需切换工具。
  • 跨用户运行对比:直接加载队友的运行到对比视图,即时叠加结果,无需导出。
  • 条件邮件告警:对任意指标设置阈值规则,当值超限、指标停滞或损失突增时立即发送通知。
  • 崩溃检测:自动检测训练崩溃(如Python异常、OOM、NaN损失),立即发送告警并附上最后已知状态。
  • 死运行检测:在可配置超时内无步骤记录时,将运行标记为死运行并立即告警。
  • 可中断训练:从仪表盘点击暂停,训练脚本会收到干净信号以保存检查点并停止,零状态丢失。
  • 动态指标记录:任意步骤记录任意键值对,图表自动创建,无需预定义模式或配置,甚至可在运行中途添加新指标。
  • 运行笔记与观察:直接在运行上编写Markdown笔记,可锚定到特定步骤,记录实验间的变化。
  • 团队空间与RBAC:邀请团队成员进入共享工作区,通过细粒度操作级角色控制每个成员的创建、编辑、删除和管理权限。
  • 并排运行对比:在相同图表轴上叠加多个运行,一目了然地评估训练方法、超参数搜索和架构变化。
  • 公开分享链接:生成任何运行的公开只读URL,分享给协作者或观众,无需账户即可查看,且可随时撤销。
  • 检查点账本:在仪表盘中标记检查点路径及其精确指标快照(如验证损失、困惑度、步数),无需翻查日志即可找到最佳检查点。

无论是调试超参数还是监控长时间训练,Runlog都能让您实时掌握模型动态,避免因崩溃或静默挂起而浪费算力。选择Runlog,让每次实验都清晰可控,加速模型迭代。