跳转到主要内容

OSWorld 基准适配层

现在 QitOS 明确区分三层:
  • 框架层DesktopEnvActionSpaceEnvironmentAdapter、qita 可视化调试
  • Benchmark 层qitos.benchmark.osworld
  • Recipe 层qitos.recipes.desktop.osworld_starter
这意味着 osworld 不再被 desktop-starter 这个 starter benchmark 名称隐含替代。

qitos.benchmark.osworld 负责什么

OSWorld benchmark family 只负责 benchmark-relevant 的内容:
  • test_all.json 和 domain/example JSON 读取真实数据集
  • sample identity 与 benchmark 元数据归一化
  • benchmark runtime prepare/finalize hook
  • OSWorld 专用 setup / postconfig 生命周期
  • upstream evaluator / getter bridge
  • scorer 输出与 benchmark-native artifact
这些都不应该塞进 qitos/core 或通用 DesktopEnv

不属于这里的内容

这些仍然属于框架层:
  • provider-neutral GUI action vocabulary
  • DesktopEnv
  • multimodal observation 契约
  • qita screenshot timeline / replay / overlay
  • protocol / parser / native tool calling 的 family preset 所有权

Canonical usage

starter benchmark 仍然是:
qit bench run \
  --benchmark desktop-starter \
  --split starter \
  --strategy desktop_smoke \
  --output ./artifacts/desktop-starter.jsonl
真实 benchmark family 则是独立路径:
qit bench run \
  --benchmark osworld \
  --split test \
  --root /path/to/OSWorld/evaluation_examples \
  --strategy osworld_baseline \
  --model-family qwen \
  --model-name qwen-plus \
  --output ./artifacts/osworld.jsonl
desktop 仍然保留为 desktop-starter 的兼容 alias,但 canonical benchmark name 现在是 desktop-starter

当前应该如何理解

osworld 现在已经成为 QitOS 里的官方 benchmark family,但它应被理解为 benchmark adapter 层,而不是对 full OSWorld parity 的夸大宣称。