2025-12 大模型微调总结

大模型快速微调

鉴于小作坊难以实现大规模系统化大模型垂域微调，借鉴Deepseek的经验路径，通过轻量化SFT+重度RL方法来实现大模型的高质量策略回答
可以这么做的原因一方面是我们关注的问题并不通用，回答模式上较为狭窄；另一方面是reward可以根据策略回答通过程序的方式，非常明确的计算出来，即“可靠、自动、低噪声的 reward”
其中SFT阶段不追求输出策略上的极高准确性，通过少量数据，确保模型能稳定输出可执行 / 可验证的东西
马上进入RL微调阶段，通过大量数据以及长时间的RL微调（结合相对较快的off-policy和相对而言慢的on-policy），来不断提升模型性能

RL微调

GRPO方法通过在每一轮训练中，比较针对同一prompt的多个输出的相对得分，来引导模型的训练
每一轮需要多次调用仿真工具得到奖励分数，运行时间较慢
本质上在计算πθ(y∣x)，其中θ是模型的参数，πθ是在该参数下的模型（算子），x是输入prompt，y是输出，可以是response中每个token的输出概率，也可以是整个response输出的联合概率分布
GRPO在训练过程中，由于每一组生成回答间相对的不稳定性等原因，reward趋势也呈现较强的不稳定性，导致较差的训练效果
采用Decoupled Clip and Dynamic sAmpling Policy Optimization (DAPO)来增强GRPO训练过程中的稳定性
在DAPO中采用动态采样、非对称裁剪和token级损失函数来一定程度上提升训练稳定性

思维链微调

思维链一方面可以提升输出结果的可靠性和可解释性，另一方面在结果有问题，也可以通过思维链来溯源，并针对性的调整模型训练策略