- 为什么框架会这样设计
- 哪些方法在真实 runs 中有效
- 哪些 benchmark 或长时运行中的失败值得被总结
- prompt、parser、tools、memory 与 observability 在实践里如何相互作用
这里会写什么
我们希望后续博客主要围绕这些主题扩展:- 设计笔记:为什么框架采用现在的结构
- 实战复盘:长时 coding / audit agents 的经验与坑
- 基准测试观察:GAIA、Tau-Bench、CyBench 的实践结论
- Prompt 与 Parser:模型 harness 与协议选择的取舍
- 可观测性:
qita如何把 trace 变成研究 artifact
从这里开始
为什么 QitOS 坚持单一内核
从 AgentModule + Engine 划分出发,解释为什么我们避免隐藏的第二个 runtime。
为什么 reproducible runs 很重要
一篇关于 official run、统一 benchmark output 与 best-effort replay 的简短设计笔记。
教程课程
如果你更想先上手,可以先走四节课程式教程。
