摘要:DeepSeek-V3/R1 背后的 GRPO 算法虽然高效,但在“全对”或“全错”的采样场景下会陷入零优势(Zero advantage)的困境,导致严重的样本浪费和难以学会解决hard query的问题。本文提出 WDB-GRPO (Weighted Dynamic Baseline GRPO),通过引入动态基线与概率加权,强制模型在全错时“纠错”、全对时“巩固”,大幅提升RL在数学推理指令写作等任务上的训练效率和效果。


1. GRPO 的“阿喀琉斯之踵”

GRPO (Group Relative Policy Optimization) [1] 的核心思想是“组内相对竞争”。它移除了 PPO 中的 Critic 模型,转而通过计算组内奖励的均值(\mu)和标准差(\sigma)来标准化优势:

A_i = \frac{r_i - \mu}{\sigma + \epsilon}

这个公式在“有对有错”的混合场景下表现完美,能够自动降低方差。但在数学、代码生成等**二元奖励(Binary Reward, 0/1)**任务中,它有一个致命的逻辑盲区:当样本同质化(Homogeneous)时,陷入零优势困境,学习信号会消失。

❌ 盲区一:全错时的“无效纠错”

在训练初期(Cold Start),模型很可能 G 个采样结果全错(r \equiv 0)。 此时 \mu=0, \sigma=0。 A_i \approx \frac{0 - 0}{\epsilon} \approx 0 后果:梯度趋近于 0。模型明明犯了错,但优化器却没有任何反馈。这导致模型必须等到偶然“蒙对”一次(产生非零方差)才能开始学习,这在处理困难任务(Hard Tasks)时极大地浪费了计算资源。

❌ 盲区二:全对时的“停止巩固”

在训练后期,模型可能 G 个采样结果全对(r \equiv 1)。 此时 \mu=1, \sigma=0。 A_i \approx \frac{1 - 1}{\epsilon} \approx 0 后果:梯度趋近于 0。模型虽然做对了,但无法进一步巩固这些正确路径。根据 Rewarding the Unlikely [2] 的观点,此时模型应当去巩固那些“侥幸做对”的低概率样本,但标准 GRPO 忽略了这一点。


2. 破局之道:WDB-GRPO

针对这一痛点,我们提出了 WDB-GRPO (Weighted Dynamic Baseline GRPO)

核心理念是:当组内失去方差(对比)时,必须切换到“绝对参考系”。

我们构建了一个包含 优化方向 (Direction)概率权重分配 (Allocation)综合调度 (Scheduling) 的统一目标函数:

J_{WDB} = \frac{1}{G} \sum_{i=1}^G \underbrace{\mathcal{S}g}{\text{综合调度}} \cdot \underbrace{w_i}{\text{概率权重分配}} \cdot \underbrace{\hat{A}i}{\text{优势}} \cdot \underbrace{\mathcal{C}(\rho_i)}{\text{PPO核心}}


3. 核心改进详解

核心思想:group内有对有错时可以相互对比,全对或者全错时则与虚拟正例或负例对比,为GRPO引入动态基线,实现”全对巩固、全错打压、有对有错时根据相对优势打压或提升“的训练方向。

① 动态优势 (Dynamic Advantage) —— 拒绝零梯度