跳转到主要内容

Desktop Starter 基准

desktop-starter 是 QitOS 第一个官方多模态 starter benchmark family。 它被刻意定义成 OSWorld-compatible starter
  • desktop / computer-use 任务结构
  • screenshot + a11y + OCR + UI candidates
  • provider-neutral GUI actions
  • 统一的 BenchmarkRunResult
  • qita replay / export / visual inspection
不是对 full official OSWorld parity 的宣称。

运行 starter benchmark

qit bench run \
  --benchmark desktop-starter \
  --split starter \
  --strategy desktop_smoke \
  --output ./artifacts/desktop-starter-smoke.jsonl
真实模型路径:
qit bench run \
  --benchmark desktop-starter \
  --split starter \
  --strategy desktop_baseline \
  --model-family qwen \
  --model-name qwen-plus \
  --base-url https://dashscope.aliyuncs.com/compatible-mode/v1 \
  --output ./artifacts/desktop-starter.jsonl
真实 benchmark adapter 现在已经独立放到 osworld