Devstral 2 技术解读:256K 上下文下的 SWE-bench 72.2% 如何实现

2026-06-17 17:00:00

Devstral 2 的技术价值在于:用 123B 密集模型 + 256K 上下文SWE-bench Verified 达到 72.2%,接近闭源 Claude Sonnet 4 水平。

SWE-bench Verified 含义

该基准要求模型 修复真实 GitHub Issue,涉及 多文件读写、测试验证、工具调用——比 HumanEval 更接近生产 Agent 场景。

架构要点

  • 123B 密集 Transformer(非 MoE),256K 上下文
  • Devstral Small 2(24B):单卡可跑,仍达 68.0%
  • Small 2 额外支持 图像输入

与竞品对比(官方数据)

模型 SWE-bench Verified
Devstral 2 72.2%
Devstral Small 2 68.0%
Claude Sonnet 4.5 ~78%*
DeepSeek V3.2 人类评估落后 Devstral 2

*独立评测仍偏好 Claude,但开源差距显著缩小。

Vibe CLI 工程集成

  • config.toml 配置本地模型与 Provider
  • 工具权限显式可控,支持 auto-approval 开关
  • Agent Communication Protocol 对接 IDE

部署建议

  • 123B:至少 4× H100 级集群
  • 24B:单卡消费级 GPU + CPU fallback
  • 企业可先 API 试用,再评估私有化