在 QitOS 里,基准测试不是另一套并行运行时,而是同一条智能体运行时叙事的延伸。 基准测试执行、回放、导出与结果聚合都建立在同一组核心原语之上:Documentation Index
Fetch the complete documentation index at: https://qitor.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
TaskRunSpecExperimentSpecTraceWriterBenchmarkRunResultqita
支持的基准测试
官方基准测试入口
examples/benchmarks/ 仍然保留,但在 v0.3 中它们已经是同一条官方结果与追踪契约上的薄封装。
QitOS 现在也把基准测试工作明确拆成三层:
- 框架层:共享运行时、环境、适配层与 qita 能力
- 基准测试层:放在
qitos.benchmark.*下的数据集、运行时、评估器与评分器集成 - 方案层:放在
qitos.recipes.*下的可复现基线方法
examples/。
为什么这很重要
基准测试输出形状统一之后,你就可以:- 跨基准测试比较运行
- 无需每个基准测试单独写聚合脚本
- 始终使用同一套回放与导出界面
- 用和普通运行一样的 qita 工作流分析基准测试回归
- 在不改变产物契约的前提下,同时保留入门基准测试与真实基准测试适配器
基准测试运行会产出什么
一条基准测试路径通常会留下两层产物:- 追踪记录目录:
manifest.json、events.jsonl、steps.jsonl - 统一的
BenchmarkRunResultJSONL
task_idbenchmarksplitpredictionsuccessstop_reasonstepslatency_secondstoken_usagecosttrace_run_dirrun_spec_ref
