2 140 71

Raja Biswas

rbiswasfc

AI & ML interests

NLP, Generative AI

Recent Activity

updated a dataset 6 days ago

rbiswasfc/r1-7b

published a dataset 6 days ago

rbiswasfc/r1-7b

upvoted an article 15 days ago

DeepSeek-R1 Dissection: Understanding PPO & GRPO Without Any Prior Reinforcement Learning Knowledge

View all activity

Organizations

rbiswasfc's activity

updated a dataset 6 days ago

rbiswasfc/r1-7b

Viewer • Updated 6 days ago • 40 • 21

published a dataset 6 days ago

rbiswasfc/r1-7b

Viewer • Updated 6 days ago • 40 • 21

upvoted 2 articles 15 days ago

Article

DeepSeek-R1 Dissection: Understanding PPO & GRPO Without Any Prior Reinforcement Learning Knowledge

•

about 1 month ago

• 63

Article

Illustrating Reinforcement Learning from Human Feedback (RLHF)

Dec 9, 2022

• 192

liked a model 15 days ago

deepseek-ai/DeepSeek-R1-Distill-Qwen-7B

Text Generation • Updated 14 days ago • 1.11M • 534

liked a Space 17 days ago

2.15k

The Ultra-Scale Playbook

🌌

The ultimate guide to training LLM on large GPU Clusters

published a model 17 days ago

rbiswasfc/mistral-rp-v2

Updated 17 days ago • 10

updated a model 17 days ago

rbiswasfc/mistral-rp-v2

Updated 17 days ago • 10

published a model 17 days ago

rbiswasfc/mistral-rp

Updated 17 days ago • 31

updated a model 17 days ago

rbiswasfc/mistral-rp

Updated 17 days ago • 31

liked 2 datasets 18 days ago

PygmalionAI/PIPPA

Updated Sep 7, 2023 • 174 • 211

lmarena-ai/arena-human-preference-100k

Viewer • Updated 26 days ago • 106k • 1.19k • 35

liked a dataset 19 days ago

DigitalLearningGmbH/MATH-lighteval

Viewer • Updated Jan 15 • 25k • 18.4k • 25

upvoted 2 collections 19 days ago

SimpleRL

Collection

The collection for the Project "Simple Reinforcement Learning for Reasoning" • 2 items • Updated 19 days ago • 5

CodeI/O

Collection

Collection for CodeI/O @ https://codei-o.github.io/ • 15 items • Updated 25 days ago • 6

upvoted a paper 22 days ago

Learn Your Reference Model for Real Good Alignment

Paper • 2404.09656 • Published Apr 15, 2024 • 84

liked a model 22 days ago

deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B

Text Generation • Updated 14 days ago • 1.49M • • 1.01k

upvoted an article 22 days ago

Article

How NuminaMath Won the 1st AIMO Progress Prize

Jul 11, 2024

• 118

upvoted a collection 22 days ago

NuminaMath

Collection

Datasets and models for training SOTA math LLMs. See our GitHub for training & inference code: https://github.com/project-numina/aimo-progress-prize • 7 items • Updated 28 days ago • 76

upvoted an article 25 days ago

Article

1 Billion Classifications

25 days ago

• 42