返回首页

Fugu Ultra 基准:SWE、GPQA、LiveCode

查看 Sakana AI 报告的 Fugu Ultra 编程、推理、科学和智能体任务基准成绩,并了解测试方法与验证限制。

最近更新: 2026-06-24

我们通过各种行业标准的基准测试对 Fugu Ultra 编排器 进行了评估,以衡量其在推理、编程和数学能力方面与其他前沿 AI 系统的对比。

关键性能指标

由于 Fugu Ultra 会动态地将请求路由给专业的专家智能体,因此在特定领域的任务中,它的表现始终优于标准的单体模型。

编程与软件工程

  • SWE Bench Pro: 73.7%
  • LiveCodeBench (Pass@1): 93.2%
  • HumanEval: 93.1%

数学与逻辑

  • MATH: 78.2%
  • GSM8K: 95.8%

通用知识与推理

  • GPQA-Diamond: 95.5%
  • MMLU: 86.7%
  • HellaSwag: 91.2%
  • ARC-Challenge: 94.5%

测试方法

这些基准测试是使用零样本 (zero-shot) 和少样本 (few-shot) 提示技术独立进行的。与查询单个基础模型相比,编排层增加了极小的延迟开销(通常为 15-20%),但在复杂任务中精度的提升显著抵消了这一成本。

注意:由于 Fugu Ultra 编排器底层的专家模型会由 Sakana AI 持续更新和改进,基准测试数据可能会发生变化。