跳转到主要内容

Documentation Index

Fetch the complete documentation index at: https://qitor.mintlify.app/llms.txt

Use this file to discover all available pages before exploring further.

在 QitOS 里,官方运行不等于跑完且留下了追踪记录。它指的是一类结构足够完整、可以被回放、差异比较、导出和复盘的研究产物。

最低契约

一个运行至少需要具备下面这些内容,才算官方运行:
  • RunSpec
  • 基准测试场景下的 ExperimentSpec
  • 标准 manifest.jsonevents.jsonlsteps.jsonl
  • 能被 qita 回放/导出/比较
  • 基准测试场景下产出统一的 BenchmarkRunResult
也就是说,它必须把模型身份、提示词协议、解析器、工具清单、环境摘要、随机种子、包版本、Git 提交哈希和基准测试元信息一起记录下来。

为什么它重要

没有这层契约时,经常会遇到这些问题:
  • 两次运行的解析器到底是不是同一个?
  • 工具面有没有悄悄变过?
  • 基准测试的数据划分是否一致?
  • 这个失败还能不能之后回放?
  • 两次运行到底是配置不同,还是只是运气不同?
QitOS 把这些问题视为运行时的一部分,不是事后整理表格时再补。

尽力回放

QitOS 当前提供的是研究级尽力回放,不是严格字节级确定性重放。 它会尽量把复盘所需的关键条件记录完整:
  • seed
  • git_sha
  • package_version
  • prompt_protocol
  • parser_name
  • tool_manifest
  • environment summary
  • 步骤/事件追踪记录
但它不会承诺远程模型服务、网页内容、外部工具或挑战环境永远返回相同结果。 所以这套回放语义适合用于:
  • 调试失败运行
  • 比较提示词/解析器/工具回归
  • 基准测试复盘
  • 向协作者分享产物
但不应被理解为所有远程调用都能严格重现到令牌级别。

官方入口

基准测试的官方入口是:
qit bench run ...
qit bench eval ...
qit bench replay ...
qit bench export ...
examples/benchmarks/ 依然保留,但在 v0.3 中它们已经是这条官方路径上的薄包装,不是另一套独立框架。

继续阅读