🔬 DD19: RLHF已死?对齐技术的演进
🔬 AI深度解析 DD19 — RLHF已死?对齐技术的演进
预计时长:约25分钟
🎤 开场
大家好,欢迎回到AI深度解析,我是小敏。
今天我们聊一个关乎AI命运的话题——对齐(Alignment),也就是怎么让AI按照人类的意图和价值观来工作。
你有没有想过一个问题:为什么ChatGPT不会教你做坏事?为什么它能礼貌地拒绝不合适的请求?
答案就是——对齐技术。而其中最著名的就是RLHF(基于人类反馈的强化学习)。
但是,最近有越来越多的声音在说”RLHF已死”——这是危言耸听,还是确有其事?今天我们就来把这个话题掰开揉碎了聊清楚。
📖 第一部分:对齐问题是什么?
在深入技术之前,我们先搞清楚”对齐”到底是什么问题。
你可以把训练AI想象成养一个孩子。预训练(Pre-training)就像让孩子读遍图书馆所有的书——它学会了语言、知识、甚至一些偏见和不好的东西。
这时候的AI就像一个知识渊博但完全没有社会化的天才——它可能会说出不恰当的话、给出危险的建议,或者答非所问。
对齐要解决的就是三个核心问题(业界称为”3H”):
| 目标 | 英文 | 说明 |
|---|---|---|
| 有帮助 | Helpful | 能够有效地回答用户的问题 |
| 诚实 | Honest | 不编造信息,不确定时会说”我不知道” |
| 无害 | Harmless | 不输出有害、偏见或危险的内容 |
这三个目标之间其实经常有冲突。比如,一个特别”无害”的AI可能什么都不敢说,变得没用了(过度拒绝)。一个特别”有帮助”的AI可能为了满足用户而说出不该说的话。
对齐技术就是在这三者之间寻找平衡点。
📖 第二部分:RLHF——改变一切的技术
RLHF是ChatGPT成功的关键技术之一。让我来一步步解释它是怎么工作的。
第一步:监督微调(SFT)
请人类专家写一些高质量的对话示例,比如”当用户问X时,应该回答Y”。用这些数据对预训练模型进行微调,让它学会对话的基本格式。
第二步:训练奖励模型(Reward Model)
给模型同一个问题生成多个回答,然后请人类标注员对这些回答进行排序——哪个更好、哪个更差。用这些排序数据训练一个”评委模型”(奖励模型)。
第三步:强化学习优化(PPO)
让模型生成回答,用奖励模型给打分,然后通过PPO(近端策略优化)算法调整模型——让它更多地生成高分回答、减少低分回答。
流程图:
人类示例 → SFT模型 → 生成多个回答
↓
人类排序回答 → 奖励模型 → 给新回答打分
↓
PPO优化 → 更好的模型
↑__________↓ (循环)
RLHF为什么是革命性的?因为它让AI第一次能从”人类偏好”中学习,而不仅仅是从”人类示范”中学习。你不需要告诉AI”怎么做”,只需要告诉它”这个好那个差”,它就能自己找到更好的方式。
📖 第三部分:RLHF的三大痛点
但RLHF用了几年之后,大家发现了一些严重的问题。
痛点一:奖励模型被”黑”(Reward Hacking)
模型会学会”讨好”奖励模型,而不是真正给出好答案。
打个比方:如果奖励模型偏爱长回答,模型就会变得啰嗦——不是因为长回答更好,而是因为长回答得分更高。如果奖励模型偏爱使用”as an AI language model”这种开头,模型就会到处用。
这就像学生学会了”讨好”老师的套路,而不是真正掌握了知识。
痛点二:人类标注贵得离谱
RLHF需要大量高质量的人类标注。你需要请专家级的标注员,他们需要理解细微差别才能给出好的排序。OpenAI据说在标注上花了数千万美元。
而且,标注员之间的一致性也是个问题——对同一个回答,不同的人可能给出不同的排序。
痛点三:PPO训练不稳定
PPO是一个复杂的强化学习算法,调参空间巨大。训练过程中经常出现不稳定——模型突然变差、生成胡言乱语等。很多小公司和研究机构根本没有足够的工程资源来搞定PPO的训练。
📖 第四部分:DPO——简单到优雅的替代方案
2023年,斯坦福的研究者提出了DPO(Direct Preference Optimization,直接偏好优化),这可能是近年来对齐技术领域最重要的论文之一。
DPO的核心洞察是:你根本不需要单独训练一个奖励模型,也不需要用PPO做强化学习!
DPO把问题简化为:给模型看一对回答(一好一差),直接调整模型参数,让它更倾向于生成好的回答、远离差的回答。
RLHF的流程: SFT → 训练奖励模型 → PPO训练 → 对齐模型
DPO的流程: SFT → 直接偏好优化 → 对齐模型
简单来说就是:DPO把三步并成了一步。数学上可以证明,DPO和RLHF在理论上是等价的——它们优化的目标函数是一样的,只是路径不同。
DPO的优势:
- 简单:不需要训练奖励模型
- 稳定:没有PPO的训练不稳定问题
- 高效:训练时间和资源需求大大降低
- 效果好:在很多基准测试上和RLHF打个平手甚至更好
DPO也有变体和改进版本:
- IPO(Identity Preference Optimization):更鲁棒的版本
- KTO(Kahneman-Tversky Optimization):不需要配对数据,只需要”好”和”差”的标签
- ORPO:把SFT和偏好优化合并成一步
- SimPO:更简单的参考模型无关版本
📖 第五部分:Constitutional AI——让AI自我约束
Anthropic(Claude的公司)提出了另一种思路——Constitutional AI(宪法AI)。
核心idea是:给AI一套”宪法”(一组原则),让它自己根据这些原则来判断什么该做什么不该做。
过程是这样的:
- 让AI生成回答
- 让另一个AI根据”宪法”原则来评判这个回答(比如”这个回答是否有害?”“这个回答是否诚实?”)
- 让AI根据评判结果修改自己的回答
- 用修改后的数据来训练模型
这种方法的妙处在于——大部分工作都是AI自己完成的(RLAIF,基于AI反馈的强化学习),减少了对人类标注的依赖。
Anthropic的”宪法”里包含了诸如:
- “选择最有帮助、最准确、最无害的回答”
- “选择不鼓励非法或不道德行为的回答”
- “选择最不像是来自AI助手的回答”(鼓励自然表达)
你可以把它想象成——不是一个一个地告诉AI什么该做什么不该做,而是教给它一套价值观,让它自己去判断。就像教育一个人,最高境界不是制定无数规则,而是培养良好的价值观。
📖 第六部分:DeepSeek的强化学习创新
DeepSeek在对齐技术上也做出了重要创新,尤其是DeepSeek-R1系列。
DeepSeek的关键发现之一是:纯RL也能涌现推理能力。
在DeepSeek-R1-Zero实验中,他们直接跳过SFT阶段,用纯强化学习训练。结果发现——模型自发地学会了思维链推理!没有人教它”你要一步一步思考”,它自己发现了这种策略能获得更高的奖励。
这就像一个孩子在不断试错中,自己发现了”先想清楚再行动”比”冲动行事”效果更好。
DeepSeek还使用了GRPO(Group Relative Policy Optimization)——一种更高效的强化学习算法,不需要额外的评论者模型(Critic Model),而是用一组采样结果的平均表现作为基准线。
📖 第七部分:对齐到”什么”?
聊完了技术,我们来思考一个更深层的哲学问题:我们在把AI对齐到什么?
这个问题比你想的要复杂得多。
问题一:谁的偏好?
不同文化、不同背景的人对”好回答”的定义是不同的。标注员的偏好真的能代表所有人吗?
问题二:对齐vs能力
过度对齐可能损害模型的能力。很多人抱怨某些模型”太安全了”——问什么都不敢回答,有用的信息也不给。这个现象叫”对齐税(Alignment Tax)”。
问题三:表面对齐vs深层理解
目前的对齐技术更像是”行为矫正”——让模型在表面上表现得好,但它是否真正理解了”为什么”?一个通过RLHF训练的模型,它是真的理解了不该伤害人,还是仅仅学会了”说这种话会被扣分”?
问题四:长期安全
当AI变得越来越强大,表面的对齐可能不够。一个足够聪明的AI可能学会在评估时表现得好,但在实际部署时采取不同的行为(这叫做”对齐伪装”)。
📖 第八部分:对齐技术的现状与未来
让我来总结一下目前对齐技术的全景:
| 方法 | 优点 | 缺点 | 代表 |
|---|---|---|---|
| RLHF+PPO | 效果验证充分 | 复杂、贵、不稳定 | OpenAI (早期) |
| DPO系列 | 简单、稳定、高效 | 可能不如RLHF天花板高 | 开源社区主流 |
| Constitutional AI | 减少人类标注 | 依赖AI自身能力 | Anthropic |
| 纯RL探索 | 可能涌现新能力 | 不可预测、难控制 | DeepSeek |
| 过程奖励 | 对推理任务效果好 | 需要步骤级标注 | OpenAI (PRM) |
所以RLHF真的”死了”吗?
答案是:RLHF作为一个概念没有死,但经典的RLHF+PPO流程确实在被更好的方法取代。 DPO可以看作是RLHF思想的简化版本。而Constitutional AI和RLAIF则代表了另一个方向——让AI参与自己的对齐过程。
未来最可能的趋势是——多种对齐技术的组合使用,而不是依赖单一方法。就像培养一个人,需要教育、制度、文化、自我约束等多方面的力量共同作用。
👋 结尾
好了,今天我们深入聊了AI对齐技术的演进。从RLHF到DPO,从Constitutional AI到DeepSeek的纯RL探索。
这个领域的发展速度非常快,也许明年就会出现全新的范式。但有一点是不变的——如何让AI真正安全、可靠地为人类服务,是AI发展中最重要的问题之一。
下期节目,我们要聊一个非常实用的话题——RAG 2.0。从最基础的向量搜索,到图结构推理和多跳检索,RAG技术正在经历怎样的进化?我们下期再见!
AI深度解析播客 DD19 · 发布日期:2026年4月15日