qita:trace 检查与回放qit:demo、benchmark 与开发者工作流入口
qit demo
当你想最快拿到一次真正的模型驱动 QitOS run 时,使用qit demo。
qit demo minimal
- 从环境变量或 flags 读取 OpenAI-compatible 模型配置
- 先种一个最小 bug workspace
- 运行最小 coding agent 去修这个 bug
- 把 qita 可识别的 trace 写到
./runs
--workspace ./playground/minimal_coding_agent--logdir ./runs--model-name Qwen/Qwen3-8B--base-url https://api.siliconflow.cn/v1/--api-key sk-...--task "Fix the bug in buggy_module.py and make the verification command pass."--max-steps 8--render
qita
当你要检查 traced runs 时,使用qita。
qita board
- runs 列表与过滤
- compare 选择
- 进入 run detail
- replay
- raw / HTML export
qita replay
qita export
qit bench
qit bench 是 v0.3 中 benchmark 的官方 CLI。
qit bench run
- 加载 benchmark tasks
- 构造
RunSpec与ExperimentSpec - 输出统一的
BenchmarkRunResult
desktop-starter:canonical starter benchmark familyosworld:benchmark-specific OSWorld adapter pathgaia、tau-bench、cybench:已经迁入qitos.benchmark.*的 benchmark familiesdesktop:desktop-starter的兼容 alias
qitos.benchmark.*:benchmark adapter / evaluatorqitos.recipes.*:canonical baseline methodexamples/*:最薄的入口包装
qit bench eval
qit bench replay
qit bench export
qit skill
推荐流程
第一次跑通时,推荐:export OPENAI_API_KEY=...qit demo minimalqita board
qit bench runqit bench evalqita boardqit bench replayqit bench export
