你的位置：任丘市奥力斯涂料厂 > 新闻资讯 >

山东泡沫板专用胶厂当SFT遇上RL：基于样本学习阶段的动态策略优化机制

发布日期：2026-05-14 17:19点击次数：108

过去段时间里山东泡沫板专用胶厂，在围绕大模型理能力增强的研究中，SFT 和 RL 是两类核心后训练范式 —— 前者稳定收敛快，能吸收质量理数据；后者具探索，有望动模型实现复杂理和分布外泛化。

但在实际训练中，这两种信号却难以有融，现有工作大多仅停留在 "把两个 loss 混在起" 的层面。

为应对这挑战，研究团队提出了DYPO（Dynamic Policy Optimization）动态策略优化法。

核心思考在于：既然 SFT 和 RL 的学习信号统计质不同，统优化要如何做，才能既保留监督学习的稳定，又不牺牲强化学习的探索能力？

△ 图 1：DYPO 的整体框架

如图 1，模型会先根据组 rollout 的结果判断样本所处的学习阶段，再决定它应该走监督路径、强化学习路径，还是暂时跳过。

SFT 和 RL 为什么很难真正协同

如果把大模型后训练比作"教学生做题"，SFT 和 RL 的特差异便目了然。

SFT像老师直接讲标准答案。它的优点是学得快、过程稳、收敛也容易控制，但问题在于，学生很容易学成"会按套路做题"，旦题目稍微变形，就可能缺乏泛化能力。

RL像让学生自己反复尝试，再根据得分不断修正策略。它的优点是有探索，可能逼着模型从"记住解法"走向"学会理"，但缺点同样明显：训练过程中波动大，励旦稀疏，模型就很容易学偏，甚至不稳定。

从理论层面看，这背后对应着典型的偏差—差矛盾：

SFT：低差，但偏差。SFT 的梯度来自静态质量数据，新稳定、噪声小，却偏向拟示范分布，压缩模型探索空间；

RL：低偏差，但差。RL 通过励驱动试错，接近 "有策略优化"，但受采样随机和励稀疏影响，梯度差、训练易波动。

问题也正出在这里。很多统训练法虽然同时用了 SFT 和 RL，但默认所有样本都值得用同种式去处理。

但实际情况中，不同样本的学习信号存在显著差异：有些问题模型已经会了，多次 rollout 都能答对，这类样本继续训练，收益往往很有限；有些问题模型当前不会，多次 rollout 全部失败，这时直接做 RL 通常也拿不到什么有励；

真正值得优化的，反而是那些"已经会点，但还不稳定"的样本。它们既说明模型已经摸到了门槛，又保留了区分正确轨迹和错误轨迹的空间。

因此，这项工作想解决的，并不是"要不要把 SFT 和 RL 放在起"，而是进步：不同学习阶段的样本，到底应该怎样被优化，才能在稳定和探索之间找到理的平衡。

△ 图 2：SFT 与 RL 的偏差—差矛盾

SFT 稳，但偏差大；RL 偏差低，但训练波动明显强。

DYPO 如何同时处理偏差和差问题山东泡沫板专用胶厂

基于上述思考，本文提出了Dynamic Policy Optimization ( DYPO ) 。它的核心思想并不是再堆个复杂的训练流程，而是先根据 rollout 结果判断样本所处的学习阶段，再去匹配适的优化路径。

具体而言，DYPO 会让当前策略为每个问题生成组 rollout，然后根据这些 rollout 的成败情况，把样本划分成三类：

Easy 样本：组 rollout 全部成功，说明模型已掌握这类问题，直接跳过以减少新；

Hard 样本：组 rollout 全部失败，说明模型缺乏足够知识基础，直接做 RL 难获稳定正向信号。对此采用多教师蒸馏（Multi-Teacher Distillation），引入多个 teacher 让 student 学习多种理理轨迹的共通部分，减少单 teacher 的特定偏差，先建立可靠先验，再去谈后续探索；

Mid 样本：组 rollout 有成功也有失败，是有价值的"学习前沿"。这类样本适 RL 优化。但为解决标准 RL 的差问题，团队在 GRPO 的基础上引入了Group Alignment Loss，也就是GAL，来对齐损失。

GAL 的核心思路是利用同组 rollout 中的成败轨迹差异，显式将模型拉向正确轨迹、离错误轨迹。这让 RL 新不再仅依赖噪声励信号，而是额外获得了层稳定的相对对齐约束。

换句话说，GAL 的作用并不是简单"再加个 loss "，而是在 RL 新过程中充当个动态的差抑制项。

如果从理论上总结 DYPO 的设计逻辑，它其实是在分别处理 SFT 和 RL 的两个核心缺陷：

多教师蒸馏针对Hard 样本，缓解 SFT 的偏差问题。多个 teacher 的组可抵消个体偏差，使整体监督偏差随 teacher 数量增加而下降；

GAL 针对Mid 样本，解决 RL 的差问题。混目标的梯度差严格小于纯 GRPO，且随模型区分轨迹能力的提升，PVC管道管件粘结胶GAL 本身的差还会进步自然衰减。

由此可见，DYPO 并不是简单把 SFT 和 RL 拼起来，而是在结构上把"偏差监督"和"差强化学习"分别放到适的样本上处理。也正因为如此，它像是种重新组织后训练过程的式，而不仅仅是个新的训练技巧。

△ 图 3：GAL 的直观机制

如图 3，它利用同组 rollout 中已经出现的正负样本，把模型往正确轨迹向拉近，同时把错误轨迹往外开。

实验结果

研究团队在数学和逻辑理场景开展实验，基础模型包括Qwen2.5-Math-7B 和 Qwen3-4B-Base，评测任务覆盖 AIME 2024/2025、AMC、MATH-500、Minerva，以及偏分布外泛化的 ARC-c 和 GPQA-Diamond。

对这类工作来说，分数当然重要，但如果只看终结果，很容易把 DYPO 理解成"又个做得的训练技巧"。真正值得看的，其实是它到底赢在什么地。

在Qwen2.5-Math-7B上，和传统SFT → RL顺序 pipeline 相比，DYPO：

五个复杂理 benchmark 上的平均分从47.7提升到52.5，对应4.8个点的提升

在 OOD 任务上，平均分从48.3提升到61.6，对应13.3个点的提升

这提升并非依赖单任务冲，而是整体表现稳定。尤其是在GPQA-Diamond这种看重迁移理能力的任务上，DYPO 取得了表中好的结果，这说明它学到的并不只是贴近训练分布的模板。

△ 图 4：Qwen2.5-Math-7B 上的整体结果对比

如图显示，DYPO 在复杂理和分布外任务上都表现出较强的综优势。

在Qwen3-4B-Base上，类似的趋势依然存在。DYPO：

在 ID 任务上的平均分达到66.9，明显于SFT → RL的56.1；

在 OOD 任务上，平均分达到68.5，也于后者的 52.6。

这说明它的收益并不只依赖某个特定 backbone，而像来自这套动态分流机制本身。

此外，消融实验进步验证了法有。

很多时候，个法看起来强，未是因为法本身，也可能只是 teacher 强、数据好。

但在这项工作里，即便把二个 teacher 换成比原教师 deepseek-R1 弱的 Qwen3-8B 模型，DYPO 依然能把AIME 25从22.0提升到27.8，把GPQA-Diamond从30.8提升到39.4。

这意味着它的提升并不只是来自"多喂了些强 teacher 的数据"，而是后面这套动态路由与低差优化本身确实发挥了作用。

除了终结果，研究还验证了 DYPO 的训练稳定。

作者分析了训练过程中离线数据占比、reward 和策略熵的变化。

个很有意思的现象是，DYPO 并不是上来就把模型向强的探索，而是随着能力提升，逐步降低对监督信号的依赖，让训练自然从"靠 teacher 扶着走"过渡到"依赖策略自己探索"。

这个过程有点像种自适应课程学习：先把基础稳住，再把探索空间慢慢放出来。

△ 图 5：训练动态分析

如图，随着训练进，DYPO 会逐步减少对离线监督的依赖，同时保持相对健康的策略多样。

再看梯度范数。

标准 GRPO 的梯度曲线会有比较明显的剧烈震荡，而 DYPO 的曲线要平滑得多。这种差异看起来像是训练细节，但背后对应的其实是个很实际的问题：如果梯度直在大幅摆动，训练就容易发散，也难把学习率和优化策略设得积。

DYPO 在这里表现出的稳定，正好说明它对 RL 那部分差新做了有约束。

△ 图 6：梯度范数对比

如图 6，和标准 GRPO 相比，DYPO 的新轨迹平滑，也容易保持可控。

奥力斯万能胶生产厂家联系人：王经理手机：13903175735（微信同号）地址：河北省任丘市北辛庄乡南代河工业区

总结

DYPO 不是在证明 SFT 和 RL 可以起用，而是在回答它们到底应该怎样起用。它提供的，是种像"训练组织式"的思路。

过往研究已意识到，单纯依赖监督或者单纯依赖强化学习，都不足以把大模型理能力往前再大步。但核心难点并非设计目标函数，而是不同阶段、不同样本暴露出来的学习信号本身就不样。

DYPO 的核心贡献，是将优化逻辑前移：先判断样本学习阶段，再匹配优化路径。这样来，SFT 负责把模型扶稳，RL 负责让模型继续往外探索，而非差别地混两种信号。

当然，这项工作也有其实验边界。

目前主要验证的是数学与逻辑理场景，对开放式对话、创作类任务是否同样有，还需要进步观察；同时，为了稳定估计样本难度，训练时每个 prompt 需要生成 8 条 rollout，这也意味着额外力开销。

对于大模型理能力增强来说，这也许不是终点，但 DYPO 疑提供了个值得持续进的新向。

Arxiv Link: https://arxiv.org/pdf/2604.08926

Github Link: https://github.com/Tocci-Zhu/DYPO

键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

— 完 —

我们正在招聘名眼疾手快、关注 AI 的学术编辑实习生 � �

感兴趣的小伙伴欢迎关注 � � 了解详情

� � 点亮星标 � �

科技前沿进展每日见

相关词条:罐体保温塑料挤出设备钢绞线超细玻璃棉板万能胶

1.本网站以及本平台支持关于《新广告法》实施的“极限词“用语属“违词”的规定，并在网站的各个栏目、产品主图、详情页等描述中规避“违禁词”。
2.本店欢迎所有用户指出有“违禁词”“广告法”出现的地方，并积极配合修改。
3.凡用户访问本网页，均表示默认详情页的描述山东泡沫板专用胶厂，不支持任何以极限化“违禁词”“广告法”为借口理由投诉违反《新广告法》，以此来变相勒索商家索要赔偿的违法恶意行为。

遇上基于 RL SFT

上一篇：曲靖防火门专用胶厂家黄仁勋罕见发长文：传统的软件和APP形态或将消失

下一篇：常德pvc管道管件胶捷豹定义未来的电动GT正式定名：Type 01

山东泡沫板专用胶厂当SFT遇上RL：基于样本学习阶段的动态策略优化机制

推荐资讯

热点资讯

最新资讯

友情链接：

山东泡沫板专用胶厂 当SFT遇上RL：基于样本学习阶段的动态策略优化机制

推荐资讯

热点资讯

最新资讯

友情链接：

山东泡沫板专用胶厂当SFT遇上RL：基于样本学习阶段的动态策略优化机制