多模态内核与 Desktop Starter
QitOS v0.5 现在已经不是“只有多模态 foundation”。 它已经把这一条主线接完整了:- screenshot-first multimodal input
DesktopEnv- 官方
desktopbenchmark family openai_cua_agent.pybaseline- qita visual inspection
qita 在 v0.5 里能看到什么
- screenshot timeline
- replay screenshot preview
- basic action overlay
- grounding metadata
- critic retry 信息
当前边界
v0.5 仍然不承诺:- full official OSWorld parity
- v0.6 级别的完整 visual replay 深度
- 所有 provider 的全面多模态对齐
