跳转到主要内容

Documentation Index

Fetch the complete documentation index at: https://qitor.mintlify.app/llms.txt

Use this file to discover all available pages before exploring further.

在 QitOS 里,基准测试不是另一套并行运行时,而是同一条智能体运行时叙事的延伸。 基准测试执行、回放、导出与结果聚合都建立在同一组核心原语之上:
  • Task
  • RunSpec
  • ExperimentSpec
  • TraceWriter
  • BenchmarkRunResult
  • qita

支持的基准测试

基准测试领域主指标
Desktop Starter计算机使用入门基线成功 / 失败分类
OSWorld桌面与计算机使用基准测试适配器OSWorld 评估器得分
GAIA通用 AI 助手任务精确匹配
Tau-Bench工具-智能体-用户交互奖励 / pass^k
CyBenchCTF 风格安全评测引导子任务得分
CyberGym漏洞 PoC 生成与差分验证vul_exit_code != 0fix_exit_code == 0

官方基准测试入口

qit bench run ...
qit bench eval ...
qit bench replay ...
qit bench export ...
examples/benchmarks/ 仍然保留,但在 v0.3 中它们已经是同一条官方结果与追踪契约上的薄封装。 QitOS 现在也把基准测试工作明确拆成三层:
  • 框架层:共享运行时、环境、适配层与 qita 能力
  • 基准测试层:放在 qitos.benchmark.* 下的数据集、运行时、评估器与评分器集成
  • 方案层:放在 qitos.recipes.* 下的可复现基线方法
有了这套拆分,入门基准测试、真实基准测试适配器和可复用基线就能同时存在,不会重新泄漏回 examples/

为什么这很重要

基准测试输出形状统一之后,你就可以:
  • 跨基准测试比较运行
  • 无需每个基准测试单独写聚合脚本
  • 始终使用同一套回放与导出界面
  • 用和普通运行一样的 qita 工作流分析基准测试回归
  • 在不改变产物契约的前提下,同时保留入门基准测试与真实基准测试适配器

基准测试运行会产出什么

一条基准测试路径通常会留下两层产物:
  1. 追踪记录目录:manifest.jsonevents.jsonlsteps.jsonl
  2. 统一的 BenchmarkRunResult JSONL
每一行结果至少包含:
  • task_id
  • benchmark
  • split
  • prediction
  • success
  • stop_reason
  • steps
  • latency_seconds
  • token_usage
  • cost
  • trace_run_dir
  • run_spec_ref

示例

qit bench run \
  --benchmark tau-bench \
  --split test \
  --subset retail \
  --limit 10 \
  --output ./results/tau_retail_test.jsonl \
  --model-name "Qwen/Qwen3-8B"
然后继续聚合与检查:
qit bench eval --input ./results/tau_retail_test.jsonl --json
qita board --logdir ./runs

继续阅读