在 QitOS 里,官方运行不等于跑完且留下了追踪记录。它指的是一类结构足够完整、可以被回放、差异比较、导出和复盘的研究产物。Documentation Index
Fetch the complete documentation index at: https://qitor.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
最低契约
一个运行至少需要具备下面这些内容,才算官方运行:RunSpec- 基准测试场景下的
ExperimentSpec - 标准
manifest.json、events.jsonl、steps.jsonl - 能被
qita回放/导出/比较 - 基准测试场景下产出统一的
BenchmarkRunResult
为什么它重要
没有这层契约时,经常会遇到这些问题:- 两次运行的解析器到底是不是同一个?
- 工具面有没有悄悄变过?
- 基准测试的数据划分是否一致?
- 这个失败还能不能之后回放?
- 两次运行到底是配置不同,还是只是运气不同?
尽力回放
QitOS 当前提供的是研究级尽力回放,不是严格字节级确定性重放。 它会尽量把复盘所需的关键条件记录完整:seedgit_shapackage_versionprompt_protocolparser_nametool_manifest- environment summary
- 步骤/事件追踪记录
- 调试失败运行
- 比较提示词/解析器/工具回归
- 基准测试复盘
- 向协作者分享产物
官方入口
基准测试的官方入口是:examples/benchmarks/ 依然保留,但在 v0.3 中它们已经是这条官方路径上的薄包装,不是另一套独立框架。
