OpenAI 研究：少量「有益特质」RL 训练可跨域提升模型安全

2026-06-19 22:00:00

标签人工智能大模型科技政策编程工具

OpenAI 于 6 月 19 日 发布 Beneficial Trait Training 对齐研究——验证 「好行为能否像坏行为一样跨域泛化」。

方法

在 RL 后训练 中混入少量 有益特质 对话数据
特质包括：真实、认识论谦逊、可纠正、推理透明、公平、关怀人类福祉
场景覆盖医疗、教育、科学、法律、工程

结果

44/53 独立基准改善
涵盖：欺骗、诚实、谄媚、奖励黑客、健康/心理健康 等维度

与 Anthropic 对比

维度	OpenAI	Anthropic
方法	RL + 可测行为特质	Claude 宪法 + 原则推理
评估	大量 Benchmark 量化	原则驱动 + 抗攻击叙事
直接对比	尚无公开 head-to-head

行业意义

对齐路线分化： measurable traits vs constitutional AI
企业选型需关注 安全评估方法论 差异
与 Fable 5 出口管制（安全漏洞争议）形成 政策+技术 双线讨论