算苗 Tile-Native 3D TokenPU：大模型 Token 推理的软硬件协同设计

2026-06-19 11:30:00

标签人工智能数字化转型软件行业编程工具

算苗 Tile-Native 3D TokenPU 架构解读

Tile-Native 是什么

Tile 是矩阵运算的基本块。Tile-Native 意味着：

硬件原生支持 Tile 级数据调度
多精度动态切换（INT8/FP16/BF16 等按层选择）
软件编译器（LLVM/Triton）与硬件 协同优化

3D 混合堆叠

垂直堆叠 计算层与存储层
提升带宽与 算力密度
国产供应链 全流程（流片里程碑意义）

Token 推理优化

大模型推理瓶颈在 Token 序列的重复搬运：

「一次搬运、多次复用」 —— 减少 DRAM 访问，降低 算力损耗与 TCO

软件生态

适配 LLVM、Triton 等开源编译生态
降低 PyTorch/vLLM 等框架 移植成本（需后续公开 Benchmark）

对比

类型	代表	特点
GPU 通用	NVIDIA H100	生态成熟
国产通用	昇腾 910	信创适配
Token 专用	算苗 TokenPU	推理 TCO 优化

评估建议

关注 量产时间、框架适配列表、DeepSeek/Qwen 实测 TPS/$ 后再做采购决策。