rl-llm-agent
/

Llama-3.2-3B-Instruct-online-dpo-alfworld-iter2

Model card Files Files and versions Community

Llama-3.2-3B-Instruct-online-dpo-alfworld-iter2 / generation_config.json

Commit History

upload checkpoint

5b84a80
verified

sc2582 commited on 19 days ago