Rethinking RL Scaling for Vision Language Models: A Transparent, From-Scratch Framework and Comprehensive Evaluation Scheme
Paper
•
2504.02587
•
Published
•
30
大模型 RL 相关论文
Note RL,框架,学习 从零搭建了一个用于VLM的RL训练框架,后续可以学习
Note PRM 将过程奖励模型从预测一个标量值,转换为推理过程