Documentation Index
Fetch the complete documentation index at: https://qitor.mintlify.app/llms.txt
Use this file to discover all available pages before exploring further.
OSWorld 基准测试适配器
现在 QitOS 明确区分三层:- 框架层:
DesktopEnv、ActionSpace、EnvironmentAdapter、qita 可视化调试 - 基准测试层:
qitos.benchmark.osworld - 方案层:
qitos.recipes.desktop.osworld_starter
osworld 不再被 desktop-starter 这个入门基准测试名称隐含替代。
qitos.benchmark.osworld 负责什么
OSWorld 基准测试族只负责与基准测试相关的内容:
- 从
test_all.json和 domain/example JSON 读取真实数据集 - 样本身份与基准测试元数据归一化
- 基准测试运行时准备与收尾钩子
- OSWorld 专用安装与后配置生命周期
- 上游评估器与获取器桥接
- 评分器输出与基准测试原生产物
qitos/core 或通用 DesktopEnv。
不属于这里的内容
这些仍然属于框架层:- 与供应商无关的 GUI 动作词表
DesktopEnv- 多模态观测结果契约
- qita 截图时间轴、回放与叠加
- 协议、解析器、原生工具调用的家族预设所有权
标准用法
入门基准测试仍然是:desktop 仍然保留为 desktop-starter 的兼容别名,但标准基准测试名称现在是 desktop-starter。
当前应该如何理解
osworld 现在已经成为 QitOS 里的官方基准测试族,但它应被理解为基准测试适配器层,而不是对完整 OSWorld 对等性的过度宣称。