GaiaAdapter 将 GAIA 数据行转换为标准 Task。官方执行入口是 qit bench run,而 examples/benchmarks/gaia_eval.py 现在只是同一套官方结果契约上的薄包装。
准备工作
认证 HuggingFace
GAIA 是 gated dataset。先在 huggingface.co/datasets/gaia-benchmark/GAIA 申请访问,再设置:
加载任务
运行评测
优先使用官方 CLI:examples/benchmarks/gaia_eval.py。
运行单个任务:
agent 结构
评测脚本会构造一个 ReAct 风格的 web research agent,通常组合:- browser tools
- file reading
- command execution
ReActTextParser
Task,你也可以替换成自己的 AgentModule。
结果如何检查
GAIA 结果文件通常包含:task_idquestionreference_answerpredictionstop_reasonstepslatency_secondstrace_run_dir
qita 检查:
