你会学到什么
- 为什么
qit bench是 benchmark 官方入口 RunSpec与ExperimentSpec如何自动附着到 run 上- 一次 benchmark run 结束后应该留下哪些文件
- 如何用
qita继续做 replay / export / compare
第一步:选择 benchmark
如果只是先熟悉流程,可以从 Tau-Bench 开始:--runner 指向 benchmark wrapper 或自定义 runner callback。
第二步:理解统一结果结构
输出文件中的每一行都遵循BenchmarkRunResult。你应该能看到:
task_idbenchmarksplitpredictionsuccessstop_reasonstepslatency_secondstoken_usagecosttrace_run_dirrun_spec_ref
第三步:聚合指标
第四步:检查 trace
如果 run 同时生成了 trace 目录,就继续用qita:
第五步:确认它是不是 official run
打开manifest.json 或 qita 的 run 概览,确认这些字段存在:
run_specexperiment_specofficial_rungit_shapackage_versionprompt_protocolparser_nametool_manifest
什么时候还应该使用 examples
当你需要:- benchmark 特定的 agent 构造方式
- 一篇论文风格的参考实现
- 官方 runner 之上的薄包装演示
examples/benchmarks。但不要把它们理解成另一套 benchmark 框架;在 v0.3 中,它们只是官方路径上的 wrapper。
