yueliu1999
/

GuardReasoner-3B

Text Classification

Generated from Trainer

Inference Endpoints

Model card Files Files and versions Community

Add paper link, correct pipeline tag

#1

by nielsr HF staff - opened 4 days ago

base: refs/heads/main

←

from: refs/pr/1

Discussion Files changed

Files changed (1) hide show

README.md +2 -4

README.md CHANGED Viewed

@@ -9,11 +9,9 @@ tags:
 model-index:
 - name: GuardReasoner 3B
   results: []
 ---
 # GuardReasoner 3B
-This model is a fine-tuned version of [meta-llama/Llama-3.2-3B](https://huggingface.co/meta-llama/Llama-3.2-3B) via R-SFT and HS-DPO.

 model-index:
 - name: GuardReasoner 3B
   results: []
+pipeline_tag: text-generation
 ---
 # GuardReasoner 3B
+This model is a fine-tuned version of [meta-llama/Llama-3.2-3B](https://huggingface.co/meta-llama/Llama-3.2-3B) via R-SFT and HS-DPO, as described in [GuardReasoner: Towards Reasoning-based LLM Safeguards](https://huggingface.co/papers/2501.18492).