大模型快速微调

RL微调

思维链微调