RLHFlow

university

RLHFlow

RLHFlow

AI & ML interests

Workflow of Reinforcement Learning from Human Feedback (RLHF). Blog: https://rlhflow.github.io/

Recent Activity

weqweasdas updated a dataset 10 days ago

RLHFlow/self_rewarding_turn2_example

weqweasdas published a dataset 10 days ago

RLHFlow/self_rewarding_turn2_example

weqweasdas updated a dataset 10 days ago

RLHFlow/self_rewarding_turn1_with_rewards_example

View all activity

Collections 10

models 27

RLHFlow/Qwen2.5-7B-SFT

Updated 24 days ago • 19

RLHFlow/Qwen2.5-7B-RAFT-Zero

Updated 24 days ago • 50

RLHFlow/Qwen2.5-7B-DPO-NLL-Zero

Updated 24 days ago • 44

RLHFlow/Qwen2.5-7B-DPO-Zero

Updated 24 days ago • 60

RLHFlow/Qwen2.5-7B-DPO

Updated 24 days ago • 37

RLHFlow/Qwen2.5-7B-PPO-Zero

Updated 24 days ago • 155 • 2

RLHFlow/Decision-Tree-Reward-Gemma-2-27B

Text Classification • Updated Jan 24 • 92 • 4

RLHFlow/Decision-Tree-Reward-Llama-3.1-8B

Text Classification • Updated Jan 24 • 301 • 5

RLHFlow/Llama3.1-8B-PRM-Mistral-Data

Text Generation • Updated Nov 9, 2024 • 242 • 8

RLHFlow/Llama3.1-8B-PRM-Deepseek-Data

Text Generation • Updated Nov 9, 2024 • 18.4k • 32

datasets 83

RLHFlow/self_rewarding_turn2_example

Updated 10 days ago • 41

RLHFlow/self_rewarding_turn1_with_rewards_example

Updated 10 days ago • 36

RLHFlow/self_rewarding_rl_prompt

Updated 10 days ago • 33

RLHFlow/self_rewarding_sft_prompt

Viewer • Updated 10 days ago • 40k • 56

RLHFlow/self_rewarding_ift_example_raw_data1

Viewer • Updated 15 days ago • 16.3k • 45

RLHFlow/self_rewarding_ift_example

Viewer • Updated 15 days ago • 32k • 105

RLHFlow/qwq_gen_sft_15k

Viewer • Updated 24 days ago • 15k • 96

RLHFlow/numia_prompt_ppo

Viewer • Updated 27 days ago • 404k • 236 • 1

RLHFlow/numia_prompt_dpo_test

Viewer • Updated 30 days ago • 1.02k • 80

RLHFlow/numia_prompt_dpo9

Viewer • Updated 30 days ago • 20k • 81