跳转到主要内容
QitOS 提供两个顶层 CLI:
  • qita:trace 检查与回放
  • qit:demo、benchmark 与开发者工作流入口

qit demo

当你想最快拿到一次真正的模型驱动 QitOS run 时,使用 qit demo

qit demo minimal

qit demo minimal
这个命令会:
  • 从环境变量或 flags 读取 OpenAI-compatible 模型配置
  • 先种一个最小 bug workspace
  • 运行最小 coding agent 去修这个 bug
  • 把 qita 可识别的 trace 写到 ./runs
可选参数:
  • --workspace ./playground/minimal_coding_agent
  • --logdir ./runs
  • --model-name Qwen/Qwen3-8B
  • --base-url https://api.siliconflow.cn/v1/
  • --api-key sk-...
  • --task "Fix the bug in buggy_module.py and make the verification command pass."
  • --max-steps 8
  • --render

qita

当你要检查 traced runs 时,使用 qita

qita board

qita board --logdir ./runs
打开多 run board,支持:
  • runs 列表与过滤
  • compare 选择
  • 进入 run detail
  • replay
  • raw / HTML export

qita replay

qita replay --run ./runs/<run_id>
以时间轴方式打开一个 run。

qita export

qita export --run ./runs/<run_id> --html ./report.html
导出独立 HTML artifact。

qit bench

qit bench 是 v0.3 中 benchmark 的官方 CLI。

qit bench run

qit bench run \
  --benchmark tau-bench \
  --split test \
  --subset retail \
  --limit 10 \
  --output ./results/tau.jsonl
这个命令会:
  • 加载 benchmark tasks
  • 构造 RunSpecExperimentSpec
  • 输出统一的 BenchmarkRunResult
现在常见的 benchmark name 包括:
  • desktop-starter:canonical starter benchmark family
  • osworld:benchmark-specific OSWorld adapter path
  • gaiatau-benchcybench:已经迁入 qitos.benchmark.* 的 benchmark families
  • desktopdesktop-starter 的兼容 alias
当前 CLI 默认遵循三层结构:
  • qitos.benchmark.*:benchmark adapter / evaluator
  • qitos.recipes.*:canonical baseline method
  • examples/*:最薄的入口包装

qit bench eval

qit bench eval --input ./results/tau.jsonl --json
聚合统一 benchmark 结果。

qit bench replay

qit bench replay --run ./runs/<run_id>
把 benchmark run 直接桥接到 qita replay。

qit bench export

qit bench export --run ./runs/<run_id> --html ./report.html
把 benchmark run 导出成独立 HTML。

qit skill

qit skill <subcommand>
用于管理 QitOS 工作流中使用的第三方 skills。

推荐流程

第一次跑通时,推荐:
  1. export OPENAI_API_KEY=...
  2. qit demo minimal
  3. qita board
做 benchmark 工作时,推荐:
  1. qit bench run
  2. qit bench eval
  3. qita board
  4. qit bench replay
  5. qit bench export
如果你还想理解这条路径背后的设计,请继续阅读 Official runsTracing