为什么重要
什么是 Fugu Ultra?
Fugu Ultra 不是传统的独立大语言模型。它属于 Sakana Fugu 系列——一组训练有素的编排模型,能理解用户请求并在一组专家 LLM 智能体中构建自适应工作流。用户只看到一个模型接口,而 Fugu 在幕后处理选择、协调、验证和综合。
多数 AI 对比在问哪个单一模型最好。Fugu Ultra 改变了这个问题:一个训练有素的系统能否协调多个强模型,比任何单一模型独自解决问题更好?Sakana AI 的技术报告认为,学习型编排可以成为前沿 AI 能力的新扩展路径。
- 不是单体基础模型——而是学习型多智能体编排器。
- 一个 OpenAI 兼容 API 隐藏所有编排复杂性。
- 针对困难多步骤任务优化答案质量。
Fugu vs Fugu Ultra
根据你的工作负载选择合适的模型。
特性
Fugu
Fugu Ultra
主要目标
平衡质量与延迟
最大化答案质量
最适合
日常编程、代码审查、聊天机器人、研究
困难的多步骤任务、研究、安全、专利分析
延迟
较低
较高
智能体使用
可选择/重新路由可用智能体池
协调更深层的专家池
提供商/模型退出
是,标准 Fugu 支持
否,固定完整池
API
OpenAI 兼容
OpenAI 兼容
定价
基于底层/顶级活跃模型费率
固定 Token 定价
最佳定位
默认日常工作模型
高级推理/编排模型
Fugu Ultra 如何工作
一次 API 调用背后的 4 步编排流水线。
1
发送请求
你向一个 API 端点发送提示词,就像任何 OpenAI 兼容调用一样。
2
理解任务
Fugu 分析任务复杂度、领域和需求,规划最优工作流。
3
协调专家智能体
它将子任务路由到智能体池中最合适的前沿模型——编码、推理、研究或验证专家。
4
验证与综合
Fugu 验证输出、解决智能体之间的冲突,并综合出最终的高质量答案。

基准测试快照
Sakana AI 官方报告的基准测试数据。这些是提供商报告的数据——独立验证待定。
| Benchmark | Score |
|---|---|
| SWE Bench Pro | 73.7% |
| GPQA-Diamond | 95.5% |
| LiveCodeBench (Pass@1) | 93.2% |
| MATH | 78.2% |
| HumanEval | 93.1% |
| MMLU | 86.7% |
| HellaSwag | 91.2% |
| ARC-Challenge | 94.5% |
| GSM8K | 95.8% |
根据 Sakana AI 官方技术报告和产品页面。
定价与版本
Fugu 提供灵活的定价,以满足您的性能和延迟需求。
Fugu Base
适用于日常编码和聊天。
按需付费
- 极快的生成速度
- 较低的 Token 成本
最高质量
Fugu Ultra
适用于最困难的推理任务。
高级
- 多智能体编排
- 最高的推理质量
- 自动验证
- 处理复杂任务
最佳使用场景
Fugu Ultra 最适合答案质量能证明更高延迟和成本的复杂高价值工作。
深入科学文献,让智能体相互进行事实核查。
通过协同工作的专业安全智能体分析代码库。
以高准确度和综合能力处理复杂文档。
已知限制
采用 Fugu Ultra 前需考虑的重要约束。
- 较高的延迟
- 由于它协调多个智能体,与标准模型相比,Fugu Ultra 生成答案所需的时间更长。
- 较高的成本
- 多智能体处理需要更多的计算资源,导致更高的推理成本。
- 地域限制
- Fugu Ultra 目前在欧盟和欧洲经济区(EEA)不可用。
常见问题
关于 Fugu Ultra 和 Sakana Fugu 的常见问题。