任丘市奥力斯涂料厂

山东泡沫板专用胶厂 当SFT遇上RL:基于样本学习阶段的动态策略优化机制

发布日期:2026-05-14 17:19点击次数:108

保温护角专用胶

过去段时间里山东泡沫板专用胶厂,在围绕大模型理能力增强的研究中,SFT 和 RL 是两类核心后训练范式 —— 前者稳定收敛快,能吸收质量理数据;后者具探索,有望动模型实现复杂理和分布外泛化。

但在实际训练中,这两种信号却难以有融,现有工作大多仅停留在 "把两个 loss 混在起" 的层面。

为应对这挑战,研究团队提出了DYPO(Dynamic Policy Optimization) 动态策略优化法。

核心思考在于:既然 SFT 和 RL 的学习信号统计质不同,统优化要如何做,才能既保留监督学习的稳定,又不牺牲强化学习的探索能力?

△ 图 1:DYPO 的整体框架

如图 1,模型会先根据组 rollout 的结果判断样本所处的学习阶段,再决定它应该走监督路径、强化学习路径,还是暂时跳过。

SFT 和 RL 为什么很难真正协同

如果把大模型后训练比作"教学生做题",SFT 和 RL 的特差异便目了然。

SFT像老师直接讲标准答案。它的优点是学得快、过程稳、收敛也容易控制,但问题在于,学生很容易学成"会按套路做题",旦题目稍微变形,就可能缺乏泛化能力。

RL像让学生自己反复尝试,再根据得分不断修正策略。它的优点是有探索,可能逼着模型从"记住解法"走向"学会理",但缺点同样明显:训练过程中波动大,励旦稀疏,模型就很容易学偏,甚至不稳定。

从理论层面看,这背后对应着典型的偏差—差矛盾:

SFT:低差,但偏差。SFT 的梯度来自静态质量数据,新稳定、噪声小,却偏向拟示范分布,压缩模型探索空间;

RL:低偏差,但差。RL 通过励驱动试错,接近 "有策略优化",但受采样随机和励稀疏影响,梯度差、训练易波动。

问题也正出在这里。很多统训练法虽然同时用了 SFT 和 RL,但默认所有样本都值得用同种式去处理。

但实际情况中,不同样本的学习信号存在显著差异:有些问题模型已经会了,多次 rollout 都能答对,这类样本继续训练,收益往往很有限;有些问题模型当前不会,多次 rollout 全部失败,这时直接做 RL 通常也拿不到什么有励;

真正值得优化的,反而是那些"已经会点,但还不稳定"的样本。它们既说明模型已经摸到了门槛,又保留了区分正确轨迹和错误轨迹的空间。

因此,这项工作想解决的,并不是"要不要把 SFT 和 RL 放在起",而是进步:不同学习阶段的样本,到底应该怎样被优化,才能在稳定和探索之间找到理的平衡。

△ 图 2:SFT 与 RL 的偏差—差矛盾

SFT 稳,但偏差大;RL 偏差低,但训练波动明显强。

DYPO 如何同时处理偏差和差问题山东泡沫板专用胶厂

基于上述思考,本文提出了Dynamic Policy Optimization ( DYPO )  。它的核心思想并不是再堆个复杂的训练流程,而是先根据 rollout 结果判断样本所处的学习阶段,再去匹配适的优化路径。

具体而言,DYPO 会让当前策略为每个问题生成组 rollout,然后根据这些 rollout 的成败情况,把样本划分成三类:

Easy 样本:组 rollout 全部成功,说明模型已掌握这类问题,直接跳过以减少新;

Hard 样本:组 rollout 全部失败,说明模型缺乏足够知识基础,直接做 RL 难获稳定正向信号。对此采用多教师蒸馏(Multi-Teacher Distillation),引入多个 teacher 让 student 学习多种理理轨迹的共通部分,减少单 teacher 的特定偏差,先建立可靠先验,再去谈后续探索;

Mid 样本:组 rollout 有成功也有失败,是有价值的"学习前沿"。这类样本适 RL 优化。但为解决标准 RL 的差问题,团队在 GRPO 的基础上引入了Group Alignment Loss,也就是GAL,来对齐损失。

GAL 的核心思路是利用同组 rollout 中的成败轨迹差异,显式将模型拉向正确轨迹、离错误轨迹。这让 RL 新不再仅依赖噪声励信号,而是额外获得了层稳定的相对对齐约束。

换句话说,GAL 的作用并不是简单"再加个 loss ",而是在 RL 新过程中充当个动态的差抑制项。

如果从理论上总结 DYPO 的设计逻辑,它其实是在分别处理 SFT 和 RL 的两个核心缺陷:

多教师蒸馏针对Hard 样本,缓解 SFT 的偏差问题。多个 teacher 的组可抵消个体偏差,使整体监督偏差随 teacher 数量增加而下降;

GAL 针对Mid 样本,解决 RL 的差问题。混目标的梯度差严格小于纯 GRPO,且随模型区分轨迹能力的提升,PVC管道管件粘结胶GAL 本身的差还会进步自然衰减。

由此可见,DYPO 并不是简单把 SFT 和 RL 拼起来,而是在结构上把"偏差监督"和"差强化学习"分别放到适的样本上处理。也正因为如此,它像是种重新组织后训练过程的式,而不仅仅是个新的训练技巧。

△ 图 3:GAL 的直观机制

如图 3,它利用同组 rollout 中已经出现的正负样本,把模型往正确轨迹向拉近,同时把错误轨迹往外开。

实验结果

研究团队在数学和逻辑理场景开展实验,基础模型包括Qwen2.5-Math-7B 和 Qwen3-4B-Base,评测任务覆盖 AIME 2024/2025、AMC、MATH-500、Minerva,以及偏分布外泛化的 ARC-c 和 GPQA-Diamond。

对这类工作来说,分数当然重要,但如果只看终结果,很容易把 DYPO 理解成"又个做得的训练技巧"。真正值得看的,其实是它到底赢在什么地。

在Qwen2.5-Math-7B上,和传统SFT → RL顺序 pipeline 相比,DYPO:

五个复杂理 benchmark 上的平均分从47.7提升到52.5,对应4.8个点的提升

在 OOD 任务上,平均分从48.3提升到61.6,对应13.3个点的提升

这提升并非依赖单任务冲,而是整体表现稳定。尤其是在GPQA-Diamond这种看重迁移理能力的任务上,DYPO 取得了表中好的结果,这说明它学到的并不只是贴近训练分布的模板。

△ 图 4:Qwen2.5-Math-7B 上的整体结果对比

如图显示,DYPO 在复杂理和分布外任务上都表现出较强的综优势。

在Qwen3-4B-Base上,类似的趋势依然存在。DYPO:

在 ID 任务上的平均分达到66.9,明显于SFT → RL的56.1;

在 OOD 任务上,平均分达到68.5,也于后者的 52.6。

这说明它的收益并不只依赖某个特定 backbone,而像来自这套动态分流机制本身。

此外,消融实验进步验证了法有。

很多时候,个法看起来强,未是因为法本身,也可能只是 teacher 强、数据好。

但在这项工作里,即便把二个 teacher 换成比原教师 deepseek-R1 弱的 Qwen3-8B 模型,DYPO 依然能把AIME 25从22.0提升到27.8,把GPQA-Diamond从30.8提升到39.4。

这意味着它的提升并不只是来自"多喂了些强 teacher 的数据",而是后面这套动态路由与低差优化本身确实发挥了作用。

除了终结果,研究还验证了 DYPO 的训练稳定。

作者分析了训练过程中离线数据占比、reward 和策略熵的变化。

个很有意思的现象是,DYPO 并不是上来就把模型向强的探索,而是随着能力提升,逐步降低对监督信号的依赖,让训练自然从"靠 teacher 扶着走"过渡到"依赖策略自己探索"。

这个过程有点像种自适应课程学习:先把基础稳住,再把探索空间慢慢放出来。

△ 图 5:训练动态分析

如图,随着训练进,DYPO 会逐步减少对离线监督的依赖,同时保持相对健康的策略多样。

再看梯度范数。

标准 GRPO 的梯度曲线会有比较明显的剧烈震荡,而 DYPO 的曲线要平滑得多。这种差异看起来像是训练细节,但背后对应的其实是个很实际的问题:如果梯度直在大幅摆动,训练就容易发散,也难把学习率和优化策略设得积。

DYPO 在这里表现出的稳定,正好说明它对 RL 那部分差新做了有约束。

△ 图 6:梯度范数对比

如图 6, 和标准 GRPO 相比,DYPO 的新轨迹平滑,也容易保持可控。

奥力斯    万能胶生产厂家    联系人:王经理    手机:13903175735(微信同号)    地址:河北省任丘市北辛庄乡南代河工业区

总结

DYPO 不是在证明 SFT 和 RL 可以起用,而是在回答它们到底应该怎样起用。它提供的,是种像"训练组织式"的思路。

过往研究已意识到,单纯依赖监督或者单纯依赖强化学习,都不足以把大模型理能力往前再大步。但核心难点并非设计目标函数,而是不同阶段、不同样本暴露出来的学习信号本身就不样。

DYPO 的核心贡献,是将优化逻辑前移:先判断样本学习阶段,再匹配优化路径。这样来,SFT 负责把模型扶稳,RL 负责让模型继续往外探索,而非差别地混两种信号。

当然,这项工作也有其实验边界。

目前主要验证的是数学与逻辑理场景,对开放式对话、创作类任务是否同样有,还需要进步观察;同时,为了稳定估计样本难度,训练时每个 prompt 需要生成 8 条 rollout,这也意味着额外力开销。

对于大模型理能力增强来说,这也许不是终点,但 DYPO 疑提供了个值得持续进的新向。

Arxiv Link: https://arxiv.org/pdf/2604.08926

Github Link:   https://github.com/Tocci-Zhu/DYPO

键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法!

—  完  —

我们正在招聘名眼疾手快、关注 AI 的学术编辑实习生  � �

感兴趣的小伙伴欢迎关注 � �  了解详情

� � 点亮星标 � �

科技前沿进展每日见

相关词条:罐体保温     塑料挤出设备     钢绞线    超细玻璃棉板    万能胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定,并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方,并积极配合修改。
3.凡用户访问本网页,均表示默认详情页的描述山东泡沫板专用胶厂,不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》,以此来变相勒索商家索要赔偿的违法恶意行为。

推荐资讯