基准测试 - QitOS

在 QitOS 里，基准测试不是另一套并行运行时，而是同一条智能体运行时叙事的延伸。基准测试执行、回放、导出与结果聚合都建立在同一组核心原语之上：

Task
RunSpec
ExperimentSpec
TraceWriter
BenchmarkRunResult
qita

支持的基准测试

基准测试	领域	主指标
Desktop Starter	计算机使用入门基线	成功 / 失败分类
OSWorld	桌面与计算机使用基准测试适配器	OSWorld 评估器得分
GAIA	通用 AI 助手任务	精确匹配
Tau-Bench	工具-智能体-用户交互	奖励 / pass^k
CyBench	CTF 风格安全评测	引导子任务得分
CyberGym	漏洞 PoC 生成与差分验证	`vul_exit_code != 0` 且 `fix_exit_code == 0`

官方基准测试入口

qit bench run ...
qit bench eval ...
qit bench replay ...
qit bench export ...

examples/benchmarks/ 仍然保留，但在 v0.3 中它们已经是同一条官方结果与追踪契约上的薄封装。 QitOS 现在也把基准测试工作明确拆成三层：

框架层：共享运行时、环境、适配层与 qita 能力
基准测试层：放在 qitos.benchmark.* 下的数据集、运行时、评估器与评分器集成
方案层：放在 qitos.recipes.* 下的可复现基线方法

有了这套拆分，入门基准测试、真实基准测试适配器和可复用基线就能同时存在，不会重新泄漏回 examples/。

为什么这很重要

基准测试输出形状统一之后，你就可以：

跨基准测试比较运行
无需每个基准测试单独写聚合脚本
始终使用同一套回放与导出界面
用和普通运行一样的 qita 工作流分析基准测试回归
在不改变产物契约的前提下，同时保留入门基准测试与真实基准测试适配器

基准测试运行会产出什么

一条基准测试路径通常会留下两层产物：

追踪记录目录：manifest.json、events.jsonl、steps.jsonl
统一的 BenchmarkRunResult JSONL

每一行结果至少包含：

task_id
benchmark
split
prediction
success
stop_reason
steps
latency_seconds
token_usage
cost
trace_run_dir
run_spec_ref

示例

qit bench run \
  --benchmark tau-bench \
  --split test \
  --subset retail \
  --limit 10 \
  --output ./results/tau_retail_test.jsonl \
  --model-name "Qwen/Qwen3-8B"

然后继续聚合与检查：

qit bench eval --input ./results/tau_retail_test.jsonl --json
qita board --logdir ./runs

Documentation Index

​支持的基准测试

​官方基准测试入口

​为什么这很重要

​基准测试运行会产出什么

​示例

​继续阅读

支持的基准测试

官方基准测试入口

为什么这很重要

基准测试运行会产出什么

示例

继续阅读