跳转到主要内容

Documentation Index

Fetch the complete documentation index at: https://qitor.mintlify.app/llms.txt

Use this file to discover all available pages before exploring further.

QitOS 提供两个顶层命令行工具:
  • qita:追踪记录检查与回放
  • qit:演示、基准测试与开发者工作流入口

qit demo

当你想最快拿到一次真正的模型驱动 QitOS 运行时,使用 qit demo

qit demo minimal

qit demo minimal
这个命令会:
  • 从环境变量或标志位读取 OpenAI 兼容模型配置
  • 先创建一个最小缺陷工作区
  • 运行最小编码智能体去修这个缺陷
  • 把 qita 可识别的追踪记录写到 ./runs
可选参数:
  • --workspace ./playground/minimal_coding_agent
  • --logdir ./runs
  • --model-name Qwen/Qwen3-8B
  • --base-url https://api.siliconflow.cn/v1/
  • --api-key sk-...
  • --task "Fix the bug in buggy_module.py and make the verification command pass."
  • --max-steps 8
  • --render

qita

当你要检查已有追踪记录时,使用 qita

qita board

qita board --logdir ./runs
打开多运行面板,支持:
  • 运行列表与过滤
  • 对比选择
  • 进入运行详情
  • 回放
  • 原始或 HTML 导出

qita replay

qita replay --run ./runs/<run_id>
以时间轴方式打开一个运行。

qita export

qita export --run ./runs/<run_id> --html ./report.html
导出独立 HTML 产物。

qit bench

qit bench 是 v0.3 中基准测试的官方命令行。

qit bench run

qit bench run \
  --benchmark tau-bench \
  --split test \
  --subset retail \
  --limit 10 \
  --output ./results/tau.jsonl
这个命令会:
  • 加载基准测试任务
  • 构造 RunSpecExperimentSpec
  • 输出统一的 BenchmarkRunResult
现在常见的基准测试名称包括:
  • desktop-starter:标准入门基准测试族
  • osworld:基准测试专用 OSWorld 适配器路径
  • gaiatau-benchcybench:已经迁入 qitos.benchmark.* 的基准测试族
  • desktopdesktop-starter 的兼容别名
当前命令行默认遵循三层结构:
  • qitos.benchmark.*:基准测试适配器与评估器
  • qitos.recipes.*:标准基线方法
  • examples/*:最薄的入口封装

qit bench eval

qit bench eval --input ./results/tau.jsonl --json
聚合统一基准测试结果。

qit bench replay

qit bench replay --run ./runs/<run_id>
把基准测试运行直接桥接到 qita 回放。

qit bench export

qit bench export --run ./runs/<run_id> --html ./report.html
把基准测试运行导出成独立 HTML。

qit skill

qit skill <subcommand>
用于管理 QitOS 工作流中使用的第三方技能。

推荐流程

第一次跑通时,推荐:
  1. export OPENAI_API_KEY=...
  2. qit demo minimal
  3. qita board
做基准测试工作时,推荐:
  1. qit bench run
  2. qit bench eval
  3. qita board
  4. qit bench replay
  5. qit bench export
如果你还想理解这条路径背后的设计,请继续阅读 官方运行追踪