fnlp
/

moss-moon-003-sft-plugin-int8

@@ -16,6 +16,7 @@
 - [本地部署](#本地部署)
   - [下载安装](#下载安装)
   - [使用示例](#使用示例)
 - [友情链接](#友情链接)
 - [开源协议](#开源协议)
@@ -29,6 +30,7 @@
 - [**moss-moon-003-sft-int4**](https://huggingface.co/fnlp/moss-moon-003-sft-int4/tree/main): 4bit量化版本的`moss-moon-003-sft`模型，约占用12GB显存即可进行推理。
 - [**moss-moon-003-sft-int8**](https://huggingface.co/fnlp/moss-moon-003-sft-int8): 8bit量化版本的`moss-moon-003-sft`模型，约占用24GB显存即可进行推理。
 - [**moss-moon-003-sft-plugin-int4**](https://huggingface.co/fnlp/moss-moon-003-sft-plugin-int4): 4bit量化版本的`moss-moon-003-sft-plugin`模型，约占用12GB显存即可进行推理。
 - **moss-moon-003-pm**: 在基于`moss-moon-003-sft`收集到的偏好反馈数据上训练得到的偏好模型，将在近期开源。
 - **moss-moon-003**: 在`moss-moon-003-sft`基础上经过偏好模型`moss-moon-003-pm`训练得到的最终模型，具备更好的事实性和安全性以及更稳定的回复质量，将在近期开源。
 - **moss-moon-003-plugin**: 在`moss-moon-003-sft-plugin`基础上经过偏好模型`moss-moon-003-pm`训练得到的最终模型，具备更强的意图理解能力和插件使用能力，将在近期开源。
@@ -256,6 +258,70 @@ python moss_gui_demo.py
 如您不具备本地部署条件或希望快速将MOSS部署到您的服务环境，请联系我们获取推理服务IP地址以及专用API KEY，我们将根据当前服务压力考虑通过API接口形式向您提供服务，接口格式请参考[这里](https://github.com/OpenLMLab/MOSS/blob/main/moss_api.pdf)。
 ## :link: 友情链接
 - [VideoChat with MOSS](https://github.com/OpenGVLab/Ask-Anything/tree/main/video_chat_with_MOSS) - 将MOSS接入视频问答

 - [本地部署](#本地部署)
   - [下载安装](#下载安装)
   - [使用示例](#使用示例)
+  - [硬件要求](#硬件要求)
 - [友情链接](#友情链接)
 - [开源协议](#开源协议)
 - [**moss-moon-003-sft-int4**](https://huggingface.co/fnlp/moss-moon-003-sft-int4/tree/main): 4bit量化版本的`moss-moon-003-sft`模型，约占用12GB显存即可进行推理。
 - [**moss-moon-003-sft-int8**](https://huggingface.co/fnlp/moss-moon-003-sft-int8): 8bit量化版本的`moss-moon-003-sft`模型，约占用24GB显存即可进行推理。
 - [**moss-moon-003-sft-plugin-int4**](https://huggingface.co/fnlp/moss-moon-003-sft-plugin-int4): 4bit量化版本的`moss-moon-003-sft-plugin`模型，约占用12GB显存即可进行推理。
+- [**moss-moon-003-sft-plugin-int8**](https://huggingface.co/fnlp/moss-moon-003-sft-plugin-int8): 8bit量化版本的`moss-moon-003-sft-plugin`模型，约占用24GB显存即可进行推理。
 - **moss-moon-003-pm**: 在基于`moss-moon-003-sft`收集到的偏好反馈数据上训练得到的偏好模型，将在近期开源。
 - **moss-moon-003**: 在`moss-moon-003-sft`基础上经过偏好模型`moss-moon-003-pm`训练得到的最终模型，具备更好的事实性和安全性以及更稳定的回复质量，将在近期开源。
 - **moss-moon-003-plugin**: 在`moss-moon-003-sft-plugin`基础上经过偏好模型`moss-moon-003-pm`训练得到的最终模型，具备更强的意图理解能力和插件使用能力，将在近期开源。
 如您不具备本地部署条件或希望快速将MOSS部署到您的服务环境，请联系我们获取推理服务IP地址以及专用API KEY，我们将根据当前服务压力考虑通过API接口形式向您提供服务，接口格式请参考[这里](https://github.com/OpenLMLab/MOSS/blob/main/moss_api.pdf)。
+### 硬件要求
+下表提供了一个batch size=1时本地部署MOSS进行推理所需的显存大小。**量化模型暂时不支持模型并行。**
+| 量化等级 | 加载模型 | 完成一轮对话（估计值） | 达到最大对话长度2048 |
+| -------- | -------- | ---------------------- | -------------------- |
+| FP16     | 31GB     | 42GB                   | 81GB                 |
+| Int8     | 16GB     | 24GB                   | 46GB                 |
+| Int4     | 7.8GB    | 12GB                   | 26GB                 |
+## 微调
+本仓库提供了基于 MOSS 基座模型进行 SFT 训练的微调代码 [finetune_moss.py](https://github.com/OpenLMLab/MOSS/blob/main/finetune_moss.py).下面以微调不带 plugins 的对话数据为例介绍代码的使用方法（带 plugins 的数据与此一致）。
+### 软件依赖
+```bash
+accelerate==0.17.1
+numpy==1.24.2
+regex==2022.10.31
+torch==1.13.1+cu117
+tqdm==4.64.1
+transformers==4.25.1
+```
+### 使用方法
+将数据集按照 [conversation_without_plugins](https://github.com/OpenLMLab/MOSS/tree/main/SFT_data/conversations/conversation_without_plugins) 格式处理并放到 `sft_data` 目录中。将 [configs](https://github.com/OpenLMLab/MOSS/tree/main/configs) 文件夹下载到本地（可根据自己的计算配置更改相关信息，详细请参考 [accelerate](https://huggingface.co/docs/accelerate/usage_guides/deepspeed) 官方文档。
+创建 `run.sh` 文件并将以下内容复制到该文件中：
+```bash
+num_machines=4
+num_processes=$((num_machines * 8))
+machine_rank=0
+accelerate launch \
+	--config_file ./configs/sft.yaml \
+	--num_processes $num_processes \
+	--num_machines $num_machines \
+	--machine_rank $machine_rank \
+	--deepspeed_multinode_launcher standard finetune_moss.py \
+	--model_name_or_path fnlp/moss-moon-003-base \
+	--data_dir ./sft_data \
+	--output_dir ./ckpts/moss-moon-003-sft \
+	--log_dir ./train_logs/moss-moon-003-sft \
+	--n_epochs 2 \
+	--train_bsz_per_gpu 4 \
+	--eval_bsz_per_gpu 4 \
+	--learning_rate 0.000015 \
+	--eval_step 200 \
+	--save_step 2000"
+```
+然后，运行以下指令进行训练:
+```bash
+bash run.sh
+```
+多节点运行需每台机器都运行一次，且需要正确指定每台机器的 `machine_rank`.
+如果你想要从本地加载模型，可以将 run.sh 中的 fnlp/moss-moon-003-base 改为你本地的模型路径。
+在使用的时候注意 `moss-moon-003-base` 模型的 tokenizer 中，`eos token` 为 `<|endoftext|>`，在训练SFT模型时需要将该 token 指定为 `<eom>` token.
 ## :link: 友情链接
 - [VideoChat with MOSS](https://github.com/OpenGVLab/Ask-Anything/tree/main/video_chat_with_MOSS) - 将MOSS接入视频问答