为什么 QitOS 如此强调可复现运行 - QitOS

在 QitOS 的设计里，一次运行不会因为模型吐出了一段文本就算真正结束。真正有研究价值的运行，必须让后来的人还能继续回答这些问题：

用的到底是什么模型与解析器？
暴露了哪些工具？
这是不是同一个基准测试划分？
能不能回放？
能不能和上一版运行做差异对比？

因此 v0.3 补上了三件关键事：

官方运行契约
统一的基准测试结果结构
更完整的 qita 回放、差异对比与导出路径

这不是形式主义。它的价值在于：提示词、解析器、工具与基准测试的调整终于可以被稳定比较，而不是只能靠印象判断”好像更好了”。

为什么 QitOS 坚持单一内核

为什么黄金预设很重要