Official Runs

在 QitOS 里，官方运行不等于跑完且留下了追踪记录。它指的是一类结构足够完整、可以被回放、差异比较、导出和复盘的研究产物。

最低契约

一个运行至少需要具备下面这些内容，才算官方运行：

也就是说，它必须把模型身份、提示词协议、解析器、工具清单、环境摘要、随机种子、包版本、Git 提交哈希和基准测试元信息一起记录下来。

没有这层契约时，经常会遇到这些问题：

QitOS 把这些问题视为运行时的一部分，不是事后整理表格时再补。

QitOS 当前提供的是研究级尽力回放，不是严格字节级确定性重放。它会尽量把复盘所需的关键条件记录完整：

但它不会承诺远程模型服务、网页内容、外部工具或挑战环境永远返回相同结果。所以这套回放语义适合用于：

但不应被理解为所有远程调用都能严格重现到令牌级别。

基准测试的官方入口是：

qit bench run ...
qit bench eval ...
qit bench replay ...
qit bench export ...

examples/benchmarks/ 依然保留，但在 v0.3 中它们已经是这条官方路径上的薄包装，不是另一套独立框架。