跳转到主要内容

Documentation Index

Fetch the complete documentation index at: https://qitor.mintlify.app/llms.txt

Use this file to discover all available pages before exploring further.

OSWorld 基准测试适配器

现在 QitOS 明确区分三层:
  • 框架层DesktopEnvActionSpaceEnvironmentAdapter、qita 可视化调试
  • 基准测试层qitos.benchmark.osworld
  • 方案层qitos.recipes.desktop.osworld_starter
osworld 不再被 desktop-starter 这个入门基准测试名称隐含替代。

qitos.benchmark.osworld 负责什么

OSWorld 基准测试族只负责与基准测试相关的内容:
  • test_all.json 和 domain/example JSON 读取真实数据集
  • 样本身份与基准测试元数据归一化
  • 基准测试运行时准备与收尾钩子
  • OSWorld 专用安装与后配置生命周期
  • 上游评估器与获取器桥接
  • 评分器输出与基准测试原生产物
这些都不应该塞进 qitos/core 或通用 DesktopEnv

不属于这里的内容

这些仍然属于框架层:
  • 与供应商无关的 GUI 动作词表
  • DesktopEnv
  • 多模态观测结果契约
  • qita 截图时间轴、回放与叠加
  • 协议、解析器、原生工具调用的家族预设所有权

标准用法

入门基准测试仍然是:
qit bench run \
  --benchmark desktop-starter \
  --split starter \
  --strategy desktop_smoke \
  --output ./artifacts/desktop-starter.jsonl
真实基准测试族则是独立路径:
qit bench run \
  --benchmark osworld \
  --split test \
  --root /path/to/OSWorld/evaluation_examples \
  --strategy osworld_baseline \
  --model-family qwen \
  --model-name qwen-plus \
  --output ./artifacts/osworld.jsonl
desktop 仍然保留为 desktop-starter 的兼容别名,但标准基准测试名称现在是 desktop-starter

当前应该如何理解

osworld 现在已经成为 QitOS 里的官方基准测试族,但它应被理解为基准测试适配器层,而不是对完整 OSWorld 对等性的过度宣称。