PM-pair - a RLHFlow Collection

RLHFlow 's Collections

RLHFlow MATH Process Reward Model

Standard-format-preference-dataset

Mixture-of-preference-reward-modeling

RM-Bradley-Terry

PM-pair

RLHFLow Reward Models

PM-pair

updated May 10

This is a collection of materials for training pairwise preference model.

RLHFlow/pair-preference-dataset-mix1

Viewer • Updated May 6 • 548k • 38 • 3
RLHFlow/pair-preference-model-LLaMA3-8B

Text Generation • Updated Oct 14 • 4.22k • 37
RLHFlow/pair_preference_model_dataset

Viewer • Updated Apr 20 • 699k • 74 • 5