最低契约
一个 run 至少需要具备下面这些内容,才算 official run:RunSpec- benchmark 场景下的
ExperimentSpec - 标准
manifest.json、events.jsonl、steps.jsonl - 能被
qitareplay / export / compare - benchmark 场景下产出统一的
BenchmarkRunResult
为什么它重要
没有这层契约时,你经常会遇到这些问题:- 两次 run 的 parser 到底是不是同一个?
- tool surface 有没有悄悄变过?
- benchmark split 是否一致?
- 这个失败还能不能之后 replay?
- 两次 run 到底是配置不同,还是只是运气不同?
Best-effort replay
QitOS 当前提供的是 research-grade best-effort replay,不是严格字节级确定性重放。 它会尽量把复盘所需的关键条件记录完整:seedgit_shapackage_versionprompt_protocolparser_nametool_manifest- environment summary
- step / event traces
- 调试失败 run
- 比较 prompt / parser / tool 回归
- benchmark 复盘
- 向协作者分享 artifact
官方入口
benchmark 的官方入口是:examples/benchmarks/ 依然保留,但在 v0.3 中它们已经是这条官方路径上的薄包装,而不是另一套独立框架。
