CLI 参考 - QitOS

QitOS 提供两个顶层命令行工具：

qita：追踪记录检查与回放
qit：演示、基准测试与开发者工作流入口

qit demo

当你想最快拿到一次真正的模型驱动 QitOS 运行时，使用 qit demo。

`qit demo minimal`

qit demo minimal

这个命令会：

从环境变量或标志位读取 OpenAI 兼容模型配置
先创建一个最小缺陷工作区
运行最小编码智能体去修这个缺陷
把 qita 可识别的追踪记录写到 ./runs

可选参数：

--workspace ./playground/minimal_coding_agent
--logdir ./runs
--model-name Qwen/Qwen3-8B
--base-url https://api.siliconflow.cn/v1/
--api-key sk-...
--task "Fix the bug in buggy_module.py and make the verification command pass."
--max-steps 8
--render

qita

当你要检查已有追踪记录时，使用 qita。

`qita board`

qita board --logdir ./runs

打开多运行面板，支持：

运行列表与过滤
对比选择
进入运行详情
回放
原始或 HTML 导出

`qita replay`

qita replay --run ./runs/<run_id>

以时间轴方式打开一个运行。

`qita export`

qita export --run ./runs/<run_id> --html ./report.html

导出独立 HTML 产物。

qit bench

qit bench 是 v0.3 中基准测试的官方命令行。

`qit bench run`

qit bench run \
  --benchmark tau-bench \
  --split test \
  --subset retail \
  --limit 10 \
  --output ./results/tau.jsonl

这个命令会：

加载基准测试任务
构造 RunSpec 与 ExperimentSpec
输出统一的 BenchmarkRunResult

现在常见的基准测试名称包括：

desktop-starter：标准入门基准测试族
osworld：基准测试专用 OSWorld 适配器路径
gaia、tau-bench、cybench：已经迁入 qitos.benchmark.* 的基准测试族
desktop：desktop-starter 的兼容别名

当前命令行默认遵循三层结构：

qitos.benchmark.*：基准测试适配器与评估器
qitos.recipes.*：标准基线方法
examples/*：最薄的入口封装

`qit bench eval`

qit bench eval --input ./results/tau.jsonl --json

聚合统一基准测试结果。

`qit bench replay`

qit bench replay --run ./runs/<run_id>

把基准测试运行直接桥接到 qita 回放。

`qit bench export`

qit bench export --run ./runs/<run_id> --html ./report.html

把基准测试运行导出成独立 HTML。

qit skill

qit skill <subcommand>

用于管理 QitOS 工作流中使用的第三方技能。

Documentation Index

​qit demo

​qit demo minimal

​qita

​qita board

​qita replay

​qita export

​qit bench

​qit bench run

​qit bench eval

​qit bench replay

​qit bench export

​qit skill

​推荐流程