Dongwei
/

DeepSeek-R1-Distill-Qwen-7B-GRPO

Text Generation

Generated from Trainer

text-generation-inference

Inference Endpoints

Model card Files Files and versions Community

DeepSeek-R1-Distill-Qwen-7B-GRPO / training_args.bin

Commit History

Model save

385d039
verified

Dongwei commited on 8 days ago

Model save

521ec25
verified

Dongwei commited on 8 days ago

Model save

71a6027
verified

Dongwei commited on 8 days ago