Fugu Ultra 基准：SWE、GPQA、LiveCode

查看 Sakana AI 报告的 Fugu Ultra 编程、推理、科学和智能体任务基准成绩，并了解测试方法与验证限制。

最近更新: 2026-06-24

我们通过各种行业标准的基准测试对 Fugu Ultra 编排器 进行了评估，以衡量其在推理、编程和数学能力方面与其他前沿 AI 系统的对比。

关键性能指标

由于 Fugu Ultra 会动态地将请求路由给专业的专家智能体，因此在特定领域的任务中，它的表现始终优于标准的单体模型。

编程与软件工程

SWE Bench Pro: 73.7%
LiveCodeBench (Pass@1): 93.2%
HumanEval: 93.1%

数学与逻辑

MATH: 78.2%
GSM8K: 95.8%

通用知识与推理

GPQA-Diamond: 95.5%
MMLU: 86.7%
HellaSwag: 91.2%
ARC-Challenge: 94.5%

测试方法

这些基准测试是使用零样本 (zero-shot) 和少样本 (few-shot) 提示技术独立进行的。与查询单个基础模型相比，编排层增加了极小的延迟开销（通常为 15-20%），但在复杂任务中精度的提升显著抵消了这一成本。

注意：由于 Fugu Ultra 编排器底层的专家模型会由 Sakana AI 持续更新和改进，基准测试数据可能会发生变化。