这节课的目标不是先拿一个分数,而是产出一个真正可以回放、差异对比、导出的官方 QitOS 基准测试运行。Documentation Index
Fetch the complete documentation index at: https://qitor.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
你会学到什么
- 为什么
qit bench是基准测试官方入口 RunSpec与ExperimentSpec如何自动附着到运行上- 一次基准测试运行结束后应该留下哪些文件
- 如何用
qita继续做回放、导出、对比
第一步:选择基准测试
如果只是先熟悉流程,可以从 Tau-Bench 开始:--runner 指向基准测试封装器或自定义运行器回调。
第二步:理解统一结果结构
输出文件中的每一行都遵循BenchmarkRunResult。你应该能看到:
task_idbenchmarksplitpredictionsuccessstop_reasonstepslatency_secondstoken_usagecosttrace_run_dirrun_spec_ref
第三步:聚合指标
第四步:检查追踪记录
如果运行同时生成了追踪记录目录,就继续用qita:
第五步:确认它是不是官方运行
打开manifest.json 或 qita 的运行概览,确认这些字段存在:
run_specexperiment_specofficial_rungit_shapackage_versionprompt_protocolparser_nametool_manifest
什么时候还应该使用示例
当你需要:- 基准测试特定的智能体构造方式
- 一篇论文风格的参考实现
- 官方运行器之上的薄包装演示
examples/benchmarks。但不要把它们理解成另一套基准测试框架;在 v0.3 中,它们只是官方路径上的封装器。
