Instruction Tuning for Large Language Models: A Survey
Paper
•
2308.10792
•
Published
•
1
Note Instruction Tuning 综述
Note Reinforced Fine-tuning- bytedance.2024
Note 后训练SFT的数据组合-Qwen 1. 双阶段混合微调(Dual-stage Mixed Fine-tuning,DMT),多任务学习中灾难性遗忘和性能冲突问题的策略 2. 实验结论: a. 混合比例的选择:DMT的第二阶段需要合理控制专门能力数据和一般能力数据的混合比例。实验中,论文通过调整不同的混合比例(如1/2, 1/4, 1/16等)来探索哪种比例能够最有效地保持模型的专门能力,同时不会对一般能力造成太大影响。 b. 数据量的影响:实验发现,在低资源环境下(即数据量较少时),将不同任务的数据混合在一起进行微调,能够有效地提高多项能力的表现。而在高资源条件下,单独微调效果更佳。因此,DMT策略特别适合解决低资源条件下的多任务微调问题。
Note OpenAI,使用 RLHF来训练CriticGPT 在代码方面评估模型的输出质量比人评估更好
Note OpenAI: ChatGPT-RLHF
Note https://github.com/Tebmer/Awesome-Knowledge-Distillation-of-LLMs