OpenAI 研究:少量「有益特质」RL 训练可跨域提升模型安全
2026-06-19 22:00:00
OpenAI 于 6 月 19 日 发布 Beneficial Trait Training 对齐研究——验证 「好行为能否像坏行为一样跨域泛化」。
方法
- 在 RL 后训练 中混入少量 有益特质 对话数据
- 特质包括:真实、认识论谦逊、可纠正、推理透明、公平、关怀人类福祉
- 场景覆盖医疗、教育、科学、法律、工程
结果
- 44/53 独立基准 改善
- 涵盖:欺骗、诚实、谄媚、奖励黑客、健康/心理健康 等维度
与 Anthropic 对比
| 维度 | OpenAI | Anthropic |
|---|---|---|
| 方法 | RL + 可测行为特质 | Claude 宪法 + 原则推理 |
| 评估 | 大量 Benchmark 量化 | 原则驱动 + 抗攻击叙事 |
| 直接对比 | 尚无 公开 head-to-head |
行业意义
- 对齐路线分化: measurable traits vs constitutional AI
- 企业选型需关注 安全评估方法论 差异
- 与 Fable 5 出口管制(安全漏洞争议)形成 政策+技术 双线讨论