WDB-GRPO | Notion

摘要：DeepSeek-V3/R1 背后的 GRPO 算法虽然高效，但在“全对”或“全错”的采样场景下会陷入零优势（Zero advantage）的困境，导致严重的样本浪费和难以学会解决hard query的问题。本文提出 WDB-GRPO (Weighted Dynamic Baseline GRPO)，通过引入动态基线与概率加权，强制模型在全错时“纠错”、全对时“巩固”，大幅提升RL在数学推理指令写作等任务上的训练效率和效果。

1. GRPO 的“阿喀琉斯之踵”

GRPO (Group Relative Policy Optimization) [1] 的核心思想是“组内相对竞争”。它移除了 PPO 中的 Critic 模型，转而通过计算组内奖励的均值（\mu）和标准差（\sigma）来标准化优势：

A_i = \frac{r_i - \mu}{\sigma + \epsilon}

这个公式在“有对有错”的混合场景下表现完美，能够自动降低方差。但在数学、代码生成等**二元奖励（Binary Reward, 0/1）**任务中，它有一个致命的逻辑盲区：当样本同质化（Homogeneous）时，陷入零优势困境，学习信号会消失。

❌ 盲区一：全错时的“无效纠错”

在训练初期（Cold Start），模型很可能 G 个采样结果全错（r \equiv 0）。此时 \mu=0, \sigma=0。 A_i \approx \frac{0 - 0}{\epsilon} \approx 0 后果：梯度趋近于 0。模型明明犯了错，但优化器却没有任何反馈。这导致模型必须等到偶然“蒙对”一次（产生非零方差）才能开始学习，这在处理困难任务（Hard Tasks）时极大地浪费了计算资源。

❌ 盲区二：全对时的“停止巩固”

在训练后期，模型可能 G 个采样结果全对（r \equiv 1）。此时 \mu=1, \sigma=0。 A_i \approx \frac{1 - 1}{\epsilon} \approx 0 后果：梯度趋近于 0。模型虽然做对了，但无法进一步巩固这些正确路径。根据 Rewarding the Unlikely [2] 的观点，此时模型应当去巩固那些“侥幸做对”的低概率样本，但标准 GRPO 忽略了这一点。

2. 破局之道：WDB-GRPO

针对这一痛点，我们提出了 WDB-GRPO (Weighted Dynamic Baseline GRPO)。

核心理念是：当组内失去方差（对比）时，必须切换到“绝对参考系”。

我们构建了一个包含 优化方向 (Direction)、概率权重分配 (Allocation)、综合调度 (Scheduling) 的统一目标函数：

J_{WDB} = \frac{1}{G} \sum_{i=1}^G \underbrace{\mathcal{S}g}{\text{综合调度}} \cdot \underbrace{w_i}{\text{概率权重分配}} \cdot \underbrace{\hat{A}i}{\text{优势}} \cdot \underbrace{\mathcal{C}(\rho_i)}{\text{PPO核心}}

3. 核心改进详解

核心思想：group内有对有错时可以相互对比，全对或者全错时则与虚拟正例或负例对比，为GRPO引入动态基线，实现”全对巩固、全错打压、有对有错时根据相对优势打压或提升“的训练方向。

1. GRPO 的“阿喀琉斯之踵”

❌ 盲区一：全错时的“无效纠错”

❌ 盲区二：全对时的“停止巩固”

2. 破局之道：WDB-GRPO

3. 核心改进详解

① 动态优势 (Dynamic Advantage) —— 拒绝零梯度