OSWorld 基准适配层
现在 QitOS 明确区分三层:- 框架层:
DesktopEnv、ActionSpace、EnvironmentAdapter、qita 可视化调试 - Benchmark 层:
qitos.benchmark.osworld - Recipe 层:
qitos.recipes.desktop.osworld_starter
osworld 不再被 desktop-starter 这个 starter benchmark 名称隐含替代。
qitos.benchmark.osworld 负责什么
OSWorld benchmark family 只负责 benchmark-relevant 的内容:
- 从
test_all.json和 domain/example JSON 读取真实数据集 - sample identity 与 benchmark 元数据归一化
- benchmark runtime prepare/finalize hook
- OSWorld 专用 setup / postconfig 生命周期
- upstream evaluator / getter bridge
- scorer 输出与 benchmark-native artifact
qitos/core 或通用 DesktopEnv。
不属于这里的内容
这些仍然属于框架层:- provider-neutral GUI action vocabulary
DesktopEnv- multimodal observation 契约
- qita screenshot timeline / replay / overlay
- protocol / parser / native tool calling 的 family preset 所有权
Canonical usage
starter benchmark 仍然是:desktop 仍然保留为 desktop-starter 的兼容 alias,但 canonical benchmark name 现在是 desktop-starter。
当前应该如何理解
osworld 现在已经成为 QitOS 里的官方 benchmark family,但它应被理解为 benchmark adapter 层,而不是对 full OSWorld parity 的夸大宣称。