|
|
|
--- |
|
license: apache-2.0 |
|
--- |
|
|
|
## 模型介绍 |
|
这个版本是基于mistral-large-instruct-2407模型,经过特殊处理的中文sft版。与原始的instruct版类似,模型对中文内容和emoji表情的处理更加亲和,确保问答性能与用户体验的优化。 |
|
|
|
特点: 优化了对中文和emoji表情的处理能力,不影响原有instruct版模型的能力。实测表明,这个中文sft版在问答性能上领先于llama3_1-405B 中文模型 |
|
![demo](./images/demo.png) |
|
![demo1](./images/demo1.png) |
|
|
|
## 训练细节 |
|
- Lora rank128, alpha256 |
|
![detail](./images/detail.png) |
|
|
|
## 模型下载 |
|
|
|
通过Git LFS克隆模型: |
|
|
|
```shell |
|
git lfs install |
|
git clone https://huggingface.co./opencsg/CSG-Wukong-Chinese-Mistral-Large2-123B |
|
``` |
|
|
|
## Lora参数合并指南 |
|
|
|
实现lora参数的合并,需要使用以下python代码: |
|
|
|
```python |
|
from transformers import AutoModelForCausalLM |
|
from peft import PeftModel |
|
|
|
base_model = AutoModelForCausalLM.from_pretrained("mistralai/Mistral-Large-Instruct-2407") |
|
peft_model_id = "opencsg/CSG-Wukong-Chinese-Mistral-Large2-123B" |
|
model = PeftModel.from_pretrained(base_model, peft_model_id) |
|
model.merge_and_unload() |
|
``` |
|
|