Jalapeño 架构深读:减数据搬运、Tomahawk 网络与 LLM 推理利用率优化
2026-06-24 22:00:00
Jalapeño 技术架构
设计哲学
与 通用 GPU 不同,Jalapeño 专为 LLM 推理 定制:
- 基于 OpenAI 对 模型内核、Serving 系统、产品需求 的深度理解
- 减少数据搬运(data movement)
- 平衡 计算、内存、网络资源
- 目标:实际利用率 ≈ 理论峰值
网络与系统集成
| 层级 | 技术 |
|---|---|
| 芯片 | OpenAI 架构 + Broadcom 硅实现 |
| 网络 | Tomahawk 交换芯片 |
| 系统 | Celestica 板卡/机架/散热 |
兼容性与样片
- 设计 灵活兼容全行业 LLM(不仅 OpenAI 模型)
- 工程样片以 生产目标频率/功耗 运行
- 已验证负载:GPT-5.3-Codex-Spark
开发加速
- OpenAI 模型 参与设计/优化环节
- 9 个月 设计到 tape-out——OpenAI 称 高性能 ASIC 最快周期
对比 GPU 推理
结合领先 AI 加速器的 吞吐/算力 与专用推理系统的 低延迟——适合 大规模交互式 LLM 产品。