Fugu Ultra 基准:SWE、GPQA、LiveCode
查看 Sakana AI 报告的 Fugu Ultra 编程、推理、科学和智能体任务基准成绩,并了解测试方法与验证限制。
最近更新: 2026-06-24
我们通过各种行业标准的基准测试对 Fugu Ultra 编排器 进行了评估,以衡量其在推理、编程和数学能力方面与其他前沿 AI 系统的对比。
关键性能指标
由于 Fugu Ultra 会动态地将请求路由给专业的专家智能体,因此在特定领域的任务中,它的表现始终优于标准的单体模型。
编程与软件工程
- SWE Bench Pro: 73.7%
- LiveCodeBench (Pass@1): 93.2%
- HumanEval: 93.1%
数学与逻辑
- MATH: 78.2%
- GSM8K: 95.8%
通用知识与推理
- GPQA-Diamond: 95.5%
- MMLU: 86.7%
- HellaSwag: 91.2%
- ARC-Challenge: 94.5%
测试方法
这些基准测试是使用零样本 (zero-shot) 和少样本 (few-shot) 提示技术独立进行的。与查询单个基础模型相比,编排层增加了极小的延迟开销(通常为 15-20%),但在复杂任务中精度的提升显著抵消了这一成本。
注意:由于 Fugu Ultra 编排器底层的专家模型会由 Sakana AI 持续更新和改进,基准测试数据可能会发生变化。