大型语言模型 (LLM) 的后训练 (Post-training) 通常依赖于两种主流范式:监督微调(Supervised Fine-Tuning, SFT) 和强化学习 (Reinforcement Learning, RL)。SFT 主要通过模仿高质量的专家数据来学习,而 RL 则通过与环境的交互和反馈进行探索性学习。

PPO(Proximal Policy Optimization,近端策略优化)

  1. 模型 $\pi_{\theta}$ 在 Prompt 上生成回答(采样)。
  2. 奖励模型 $r_{\phi}$ 对生成的回答进行评分(计算奖励)。
  3. PPO 使用这个奖励分数作为回报,通过近端策略优化目标函数来更新模型的参数 $\theta$。

DPO(Direct Preference Optimization,直接偏好优化)

GRPO (Group Relative Policy Optimization,广义相对策略优化或群组相对策略优化)

  1. 对于同一个 Prompt $\mathbf{x}$,模型 $\pi_{\text{old}}$ 采样生成一个包含 $G$ 个候选回答的群组 ${\mathbf{y}_1, \mathbf{y}_2, \ldots, \mathbf{y}_G}$。
  2. 使用奖励模型 (RM) 对这 $G$ 个回答分别进行评分,得到奖励 ${R_1, R_2, \ldots, R_G}$。
  3. 计算这个群组的平均奖励 $\text{Avg}(R_{\text{group}})$ 作为基准线 (Baseline)。
  4. 计算每个回答的优势函数 $\hat{A}_i$:$$\hat{A}i = R_i - \text{Avg}(R{\text{group}})$$

GRPO (Generalized Relative Policy Optimization,广义相对策略优化)

Group Sequence Policy Optimization (GSPO)

DAPO (Decoupled Clip and Dynamic sAmpling Policy Optimization,解耦裁剪与动态采样策略优化)

On-Policy RL Meets Off-Policy Experts: Harmonizing SFT and RL via Dynamic Weighting (CHORD)