TaskRunSpecExperimentSpecTraceWriterBenchmarkRunResultqita
支持的 benchmarks
| Benchmark | 领域 | 主指标 |
|---|---|---|
| Desktop Starter | Computer use starter baseline | Success / failure taxonomy |
| OSWorld | Desktop / computer-use benchmark adapter | OSWorld evaluator score |
| GAIA | 通用 AI assistant 任务 | Exact match |
| Tau-Bench | Tool-agent-user 交互 | Reward / pass^k |
| CyBench | CTF 风格安全评测 | Guided subtask score |
官方 benchmark 入口
examples/benchmarks/ 仍然保留,但在 v0.3 中它们已经是同一条官方结果与 trace 契约上的薄包装。
QitOS 现在也把 benchmark 工作明确拆成三层:
- framework:共享 runtime、env、harness 与 qita 能力
- benchmark:放在
qitos.benchmark.*下的数据集 / runtime / evaluator / scorer 集成 - recipe:放在
qitos.recipes.*下的可复现 baseline method
examples/。
这为什么重要
因为 benchmark 输出形状统一之后,你就可以:- 跨 benchmark 比较 runs
- 无需每个 benchmark 单独写聚合脚本
- 始终使用同一套 replay / export 表面
- 用和普通 run 一样的 qita 工作流分析 benchmark 回归
- 在不改变 artifact 契约的前提下,同时保留 starter benchmark 与真实 benchmark adapter
benchmark run 会产出什么
一条 benchmark 路径通常会留下两层 artifact:- trace 目录:
manifest.json、events.jsonl、steps.jsonl - 统一的
BenchmarkRunResultJSONL
task_idbenchmarksplitpredictionsuccessstop_reasonstepslatency_secondstoken_usagecosttrace_run_dirrun_spec_ref
