跳转到主要内容

多模态内核与 Desktop Starter

QitOS v0.5 现在已经不是“只有多模态 foundation”。 它已经把这一条主线接完整了:
  • screenshot-first multimodal input
  • DesktopEnv
  • 官方 desktop benchmark family
  • openai_cua_agent.py baseline
  • qita visual inspection

qita 在 v0.5 里能看到什么

  • screenshot timeline
  • replay screenshot preview
  • basic action overlay
  • grounding metadata
  • critic retry 信息

当前边界

v0.5 仍然不承诺
  • full official OSWorld parity
  • v0.6 级别的完整 visual replay 深度
  • 所有 provider 的全面多模态对齐
它承诺的是更清晰的一件事: 一条完整可信的 desktop starter path