生成式奖励模型的几种方法
生成式奖励模型的几种方法
简要讨论link
列出的这几篇论文是2024年最新的生成式奖励模型(Generative Reward Models, GRM)方向的重要工作。下面我会逐条为你展开讲解每一篇的核心思路、方法结构、创新点和关键词,
🧠 生成式奖励模型(GRM)背景介绍
传统奖励模型(如 InstructGPT 使用的)大多是:
在 LLM 后面加一个 MLP(value head)
输出一个 scalar 值作为 reward
通常使用 pairwise 偏好数据 + ranking loss 或 DPO 来训练
但这些模型有几个问题:
不可解释(只是一个分数,没有理由)
结构封闭(需要改模型结构)
鲁棒性差(容易受样本偏差影响)
于是最近兴起了一类新的范式:生成式奖励模型(Generative Reward Model),即:
利用 LLM 原有的生成能力,输出语言化的评价(评语、判断、Yes/No、分数等),作为奖励模型。
1️⃣ Beyond Scalar Reward Model: Learning Generative Judge from Pr ...
Let’s Verify Step by Step
Let’s Verify Step by Step
更多细节
Problem:数学问题。
Solution:解题的过程/步骤。
Answer:数学答案。
Generator:在复杂任务场景中,需要一系列的推导步骤才能得到答案。为每个复杂问题Problem生成一系列解题步骤Solution和最终答案Answer。每个Solution之间按照换行符进行分隔。
Reward Model:奖励模型(也可以视为验证器verifier),对生成的内容进行评判,分为以下两种结果奖励监督模型ORM和过程奖励监督模型PRM。
ORMs:结果监督奖励模型(Outcome-supervised),只对完整答案进行评分。
PRMs:过程监督奖励模型 ( process-supervised),可以对每个解题步骤进行评分。
Generator和Reward Model关系:
训练阶段:作为RLHF中的reward模型,提升LLM(Generator)对齐效果。
推理阶段:作为Verification验证模型,对Generator生成的多个候选进行重排序,确保LLM输出更高的一致性和准确性,eg :re ...
Generative Verifiers, Reward Modeling as Next-Token Prediction
Generative Verifiers: Reward Modeling as Next-Token Prediction
过去的几种奖励模型
Background
这篇文章是Generative RM的一个变种,目标用微调过的RM预测客观问题答案的对错。对于数学、逻辑推理等领域的问题,通常存在一套客观的标准或规则判断答案的正确性,但准确判断的成本不一定低;比如有多种解法的几何证明题,或者一些结果正确过程错误的解答等,故也可以用RM去做这类客观问题的批量回答评分。
Step 1
这里我们对原始llm利用标记的数据做sft,帮助其更好地对齐输出。
Step 2
更进一步,我们可以认为LLM的生成能力和判别能力是相互促进的;模型本身有能力生成正确答案的话,对于答案判别的准确度也会更高。因此我们可以直接把y+y^+y+拿来训练模型,提高模型的生成能力;
为什么还要分成两个 loss 项,LSFT(θ,Dverify)\mathcal{L}_{\text{SFT}}(\theta, D_{\text{verify}})LSFT(θ,Dverify) 和 λLSFT(θ,Dcor ...
LoRA
LoRA
背景
神经网络包含很多全连接层,其借助于矩阵乘法得以实现,然而,很多全连接层的权重矩阵都是满秩的。当针对特定任务进行微调后,模型中权重矩阵其实具有很低的本征秩(intrinsic rank)。
因此,论文的作者认为权重更新的那部分参数矩阵尽管随机投影到较小的子空间,仍然可以有效的学习,可以理解为针对特定的下游任务这些权重矩阵就不要求满秩。
技术原理
LoRA 论文,该方法的核心思想就是通过低秩分解来模拟参数的改变量,从而以极小的参数量来实现大模型的间接训练。
在涉及到矩阵相乘的模块,在原始的 PLM 旁边增加一个新的通路,通过前后两个矩阵 A,B 相乘,第一个矩阵 A 负责降维,第二个矩阵 B 负责升维,中间层维度为 r,从而来模拟所谓的本征秩(intrinsic rank)。
可训练层维度和预训练模型层维度一致为 d,先将维度 d 通过全连接层降维至 r,再从 r 通过全连接层映射回 d 维度,其中,r<<dr<<dr<<d,r 是矩阵的秩,这样矩阵计算就从 dxdd x ddxd 变为 dxr+rxdd x r + r x ddx ...
GRPO
GRPO
传统PPO方法:
这里的AtA_tAt是GAE。
GAE 介绍
在PPO(Proximal Policy Optimization)算法中,GAE(Generalized Advantage Estimation) 是一个用于估计 优势函数(advantage function) 的技术,它的目的是在偏差和方差之间找到一个好的折中,以获得更稳定和高效的策略梯度估计。
在策略梯度方法中,策略更新的方向取决于 Advantage,它表示“当前动作比平均水平好多少”。
形式上,优势函数为:
At=Q(st,at)−V(st)A_t = Q(s_t, a_t) - V(s_t)
At=Q(st,at)−V(st)
但直接估计 QQQ 或 AAA 会有高方差,影响训练稳定性,于是引入 GAE 来更好地估算 AtA_tAt。
GAE 提供了一种通过时间差分(TD)来估计 advantage 的方式。它引入一个超参数 λ∈[0,1]\lambda \in [0, 1]λ∈[0,1],来平衡偏差与方差。
定义 TD 残差(Temporal Difference Residu ...
Approximating KL Divergence
Approximating KL Divergence
主要介绍使用MC方法来近似KL散度的技巧。
参考link
KL公式:
KL[q,p]=∑xq(x)logq(x)p(x)=Ex∼qlogq(x)p(x)KL[q,p]=\sum_xq(x)\log{\frac{q(x)}{p(x)}}=\mathbb{E}_{x\sim q}\log\frac{q(x)}{p(x)}
KL[q,p]=x∑q(x)logp(x)q(x)=Ex∼qlogp(x)q(x)
前置假设:
我们知道概率密度计算,但是没法做遍历x做求和或者积分。
已知x1,x2,...∼qx_1,x_2,... \sim qx1,x2,...∼q,即从真实分布中采样的样本。
一般在机器里,我们的模型可以表示ppp的函数。
K1
一个straightforward的做法是直接使用k1=logq(x)p(x)=−logrk_1 =\log\frac{q(x)}{p(x)}=-\log rk1=logp(x)q(x)=−logr,这里定义r=p(x)q(x)r=\frac{p(x)}{q(x)}r=q ...
Iterated Denoising Energy Matching for Sampling from Boltzmann Densities
Iterated Denoising Energy Matching for Sampling from Boltzmann Densities
Background
采样的核心挑战:
从高维复杂分布采样是困难的,主要面临以下挑战:
多模态问题(Multi-modality):目标分布可能存在多个模式,导致简单的采样方法难以探索所有模式。
高能量屏障(Energy Barriers):Boltzmann分布中的不同模态可能被高能量屏障隔开,使得采样器难以在模式之间跳跃。
计算开销大(Computational Cost):传统的马尔可夫链蒙特卡洛(MCMC)方法,如Langevin Dynamics,需要大量迭代才能收敛。
现有方法
Langevin MCMC:使用梯度信息来更新样本,但在高能量屏障情况下可能难以有效探索。
Contrastive Divergence (CD):用于训练能量基模型,但依赖于短步Langevin采样,可能导致模型分布与目标分布不匹配。
Score Matching:学习目标分布的对数梯度,但通常要求明确的概率密度函数。
方法
目标
主要 ...
Offline Transition Modeling via Contrastive Energy Learning
Offline Transition Modeling via Contrastive Energy Learning
建议看之前的这篇 paper: Implicit Behavioral Cloning blog,这篇是基于IBC的一个延伸,IBC用implicit的能量模型做behavior cloning,这篇文章用explicit的能量模型做offline transition modeling,这两篇文章都是用contrastive learning来训练模型。
基本就是按照IBC论文,输入是(s,a),以前的transition model是一个简单的神经网络,直接给出s’或者gaussian distribution,这里则用能量模型,是一个Eθ(s,a,s′)E_{\theta}(s,a,s')Eθ(s,a,s′),我们去做argmin,使得Eθ(s,a,s′)E_{\theta}(s,a,s')Eθ(s,a,s′)在s’上最小,这样就能得到一个s’,这个s’就是我们的transition model的输出。
注意这里的argmin在实践中 ...
Implicit Behavioral Cloning
Implicit Behavioral Cloning
Abstract:
On robotic policy learning tasks we show that implicit behavioral cloning policies with energy-based models (EBM) often outperform common explicit (Mean Square Error, or Mixture Density) behavioral cloning policies, including on tasks with high-dimensional action spaces and visual image inputs.
Method:
很多时候,我们直接用a^=Fθ(o)\hat{a} = F_\theta(o)a^=Fθ(o),作为agent动作的输出,这是常见的explicit behavioral cloning。
最近随着能量模型的火爆,我们可以用能量模型来做implicit behavioral cloning。这里的能量模型是指E ...
RLHF and DPO
RLHF and DPO
detect0530@gmail.com
RLHF
我们回顾一下 Ziegler 等人提出的 RLHF 管道(后续工作)通常包括三个阶段:
1.监督微调(SFT);2. 偏好采样和奖励学习;3. 强化学习优化。
(2)式就是把负对数似然函数作为loss function,用了点恒等变形如下:
DPO
一个很好的 博客link
虽然大规模无监督语言模型(LMs)能够学习广泛的世界知识和一定的推理技能,但由于其训练过程完全无监督,要实现对其行为的精确控制是非常困难的。现有的方法通过收集模型生成的相对质量的人类标注,微调无监督LM以符合这些偏好,通常采用从人类反馈中进行的强化学习(RLHF)。然而,RLHF是一种复杂且通常不稳定的过程,首先需要拟合反映人类偏好的奖励模型,然后使用强化学习来微调无监督LM以最大化这一估计的奖励,同时避免与原始模型偏离过远。本文提出了一种新的奖励模型参数化方法,使得可以通过封闭形式提取相应的最优策略,从而仅需通过一个简单的分类损失来解决标准的RLHF问题。所提出的算法称为“直接偏好优化”(Direct Preference ...