跳转到主要内容
在 QitOS 里,official run 不等于“跑完且留下了 trace”。它指的是一类结构足够完整、可以被 replay、diff、export 和复盘的研究 artifact。

最低契约

一个 run 至少需要具备下面这些内容,才算 official run:
  • RunSpec
  • benchmark 场景下的 ExperimentSpec
  • 标准 manifest.jsonevents.jsonlsteps.jsonl
  • 能被 qita replay / export / compare
  • benchmark 场景下产出统一的 BenchmarkRunResult
也就是说,它必须把模型身份、prompt protocol、parser、tool manifest、环境摘要、seed、package version、git SHA 和 benchmark 元信息一起记录下来。

为什么它重要

没有这层契约时,你经常会遇到这些问题:
  • 两次 run 的 parser 到底是不是同一个?
  • tool surface 有没有悄悄变过?
  • benchmark split 是否一致?
  • 这个失败还能不能之后 replay?
  • 两次 run 到底是配置不同,还是只是运气不同?
QitOS 把这些问题视为 runtime 的一部分,而不是事后整理表格时再补。

Best-effort replay

QitOS 当前提供的是 research-grade best-effort replay,不是严格字节级确定性重放。 它会尽量把复盘所需的关键条件记录完整:
  • seed
  • git_sha
  • package_version
  • prompt_protocol
  • parser_name
  • tool_manifest
  • environment summary
  • step / event traces
但它不会承诺远程模型服务、网页内容、外部工具或挑战环境永远返回相同结果。 所以这套 replay 语义适合:
  • 调试失败 run
  • 比较 prompt / parser / tool 回归
  • benchmark 复盘
  • 向协作者分享 artifact
但不应被理解为“所有远程调用都能严格重现到 token 级别”。

官方入口

benchmark 的官方入口是:
qit bench run ...
qit bench eval ...
qit bench replay ...
qit bench export ...
examples/benchmarks/ 依然保留,但在 v0.3 中它们已经是这条官方路径上的薄包装,而不是另一套独立框架。

继续阅读