算苗 Tile-Native 3D TokenPU:大模型 Token 推理的软硬件协同设计
2026-06-19 11:30:00
算苗 Tile-Native 3D TokenPU 架构解读
Tile-Native 是什么
Tile 是矩阵运算的基本块。Tile-Native 意味着:
- 硬件 原生支持 Tile 级数据调度
- 多精度动态切换(INT8/FP16/BF16 等按层选择)
- 软件 编译器(LLVM/Triton)与硬件 协同优化
3D 混合堆叠
- 垂直堆叠 计算层与存储层
- 提升 带宽 与 算力密度
- 国产供应链 全流程(流片里程碑意义)
Token 推理优化
大模型推理瓶颈在 Token 序列的重复搬运:
「一次搬运、多次复用」 —— 减少 DRAM 访问,降低 算力损耗与 TCO
软件生态
- 适配 LLVM、Triton 等开源编译生态
- 降低 PyTorch/vLLM 等框架 移植成本(需后续公开 Benchmark)
对比
| 类型 | 代表 | 特点 |
|---|---|---|
| GPU 通用 | NVIDIA H100 | 生态成熟 |
| 国产通用 | 昇腾 910 | 信创适配 |
| Token 专用 | 算苗 TokenPU | 推理 TCO 优化 |
评估建议
关注 量产时间、框架适配列表、DeepSeek/Qwen 实测 TPS/$ 后再做采购决策。