Subquadratic Sparse Attention 架构解读:为何 1200 万 Token 可行

2026-06-19 21:00:00

Subquadratic Sparse Attention (SSA) 技术解读

问题

标准 Transformer Self-Attention 复杂度 O(n²)——上下文越长,训练与推理成本爆炸

SSA 方案

  • 学习型稀疏 注意力:模型 动态决定 关注哪些 Token
  • 复杂度随长度 线性增长
  • 非固定稀疏模式(优于早期静态稀疏)

SubQ 1.1 Small 数据

指标 数值
NIAH(针找草) 近完美至 12M Token
1M Token vs dense 64.5× 更少算力
vs FlashAttention-2 56× 更快
GPQA Diamond 85.4%
LiveCodeBench pass@4 89.7%
AutomationBench Finance 13%(该基准全行业偏低)

产品映射

产品 场景
SubQ Code 全仓库 单次 pass 代码推理
SubQ Search 百万文档 Deep Research
SubQ API 企业长上下文 pipeline

局限

  • 通用推理 略低于 绝对 frontier(但 LiveCodeBench 接近)
  • 外部复现少——需等待 broader access

架构师视角

长上下文 workload 选型:dense frontier API vs 稀疏专用模型TCO 分水岭 正在形成。