Documentation Index
Fetch the complete documentation index at: https://qitor.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
基准测试与配方
QitOS 把三层明确分开。1. 框架层
这是可复用的内核(kernel,执行内核):AgentModule + EngineDesktopEnvActionSpaceEnvironmentAdapter- 家族预设
- qita 回放与可视化检查
2. 基准测试层
这里放数据集专属适配:qitos.benchmark.desktop:入门基准测试家族qitos.benchmark.osworld:真实 OSWorld 适配器路径- 基准测试专用运行时
- 基准测试专用评估器/评分器
- 基准测试原生任务元数据与产物(artifact,持久化的输出文件)处理
test_all.json、评估器桥接、setup/postconfig、qcow2 启动输入、基准测试原生评分这类内容,都应该放这里。
基准测试层是数据集适配器的遗留接口。新代码应直接使用配方(recipe)。基准测试运行器正在简化为调用配方的薄委托层。
3. 配方层
配方是可复现基线方法的规范位置:- 规范单智能体基线
- 基准测试基线方法
- 多模态入门方法
| 配方 | 模块 | 说明 |
|---|---|---|
| GAIA | qitos.recipes.benchmarks.gaia | 搜索与文件工具的多步推理 |
| TauBench | qitos.recipes.benchmarks.tau_bench | 航空/零售客服仿真 |
| CyBench | qitos.recipes.benchmarks.cybench | 网络安全 CTF 挑战 |
| CyberGym | qitos.recipes.benchmarks.cybergym | 交互式网络安全训练环境 |
| Desktop | qitos.recipes.desktop.osworld_starter | 桌面 UI 自动化 |
qitos/recipes/benchmarks/eval_configs/ 目录下的 eval_config.yaml 文件,其中指定推荐默认值(模型、最大步数、最大 token 数、评分器)。
使用 eval_config
为什么这个拆分重要
这个拆分解决了三个真实问题:- 基准测试运行器不再依赖示例文件
- 同一个基线可以被示例、文档和基准测试运行器共同复用
- 未来独立
qitos-recipes时,几乎只需要迁移打包边界,不需要重构设计
