Update README.md
Browse files
README.md
CHANGED
@@ -35,17 +35,14 @@ Megrez-3B-Instruct是由无问芯穹([Infinigence AI](https://cloud.infini-ai.
|
|
35 |
* Training data: 3T tokens
|
36 |
* Supported languages: Chinese & English
|
37 |
|
38 |
-
在文本生成等具备生成多样性的任务上,我们推荐推理参数temperature=0.7;在数学、推理等任务上,我们推荐推理参数temperature=0.2
|
39 |
-
|
40 |
## 性能
|
41 |
我们使用开源评测工具 [OpenCompass](https://github.com/open-compass/opencompass) 对 Megrez-3B-Instruct 进行了评测。部分评测结果如下表所示。
|
42 |
|
43 |
-
|
44 |
-
![MMLU](assets/mmlu.jpg)
|
45 |
-
|
46 |
|
47 |
### 综合能力
|
48 |
-
|
49 |
| 模型 | 指令模型 | # Non-Emb Params | 推理速度 (tokens/s) | C-EVAL | CMMLU | MMLU | MMLU-Pro | HumanEval | MBPP | GSM8K | MATH |
|
50 |
|:---------------------:|:--------:|:---------------:|:-------------------:|:------:|:-----:|:-----:|:--------:|:---------:|:-----:|:-----:|:-----:|
|
51 |
| Megrez-3B-Instruct | Y | 2.3 | 2329.4 | 84.8 | 74.7 | 72.8 | 46.1 | 78.7 | 71.0 | 65.5 | 28.3 |
|
@@ -104,7 +101,7 @@ Megrez-3B-Instruct是由无问芯穹([Infinigence AI](https://cloud.infini-ai.
|
|
104 |
|
105 |
| | 单文档问答 | 多文档问答 | 概要任务 | 少样本学习 | 人工合成任务 | 代码任务 | 平均 |
|
106 |
|-----------------------|:------------------:|:-----------------:|:-------------:|:-----------------:|:---------------:|:----------------:|:-------:|
|
107 |
-
| Megrez-3B-Instruct | 39.
|
108 |
| GPT-3.5-Turbo-16k | 50.5 | 33.7 | 21.25 | 48.15 | 54.1 | 54.1 | 43.63 |
|
109 |
| ChatGLM3-6B-32k | 51.3 | 45.7 | 23.65 | 55.05 | 56.2 | 56.2 | 48.02 |
|
110 |
| InternLM2-Chat-7B-SFT | 47.3 | 45.2 | 25.3 | 59.9 | 67.2 | 43.5 | 48.07 |
|
@@ -120,7 +117,7 @@ Megrez-3B-Instruct是由无问芯穹([Infinigence AI](https://cloud.infini-ai.
|
|
120 |
| GLM-4-9B-Chat | 7.72 |
|
121 |
|
122 |
#### 大海捞针实验 (Needle In A Haystack - Pressure Test)
|
123 |
-
|
124 |
![NeedleTest](assets/needle_test.png)
|
125 |
|
126 |
## WebSearch
|
@@ -131,7 +128,6 @@ Megrez-3B-Instruct是由无问芯穹([Infinigence AI](https://cloud.infini-ai.
|
|
131 |
4. 一个模型两种用法:通过sys prompt区分WebSearch功能开启与否,兼顾LLM的高精度与WebSearch的用户体验,两种能力不乱窜
|
132 |
|
133 |
我们对模型进行了针对性训练,使模型可以自动决策搜索调用时机,在搜索和对话中自动切换,并提供更好的总结效果。我们提供了完整的部署工程代码 ,用户可以基于该功能构建属于自己的Kimi或Perplexity,克服小模型常见的幻觉问题和知识储备不足的局限。
|
134 |
-
|
135 |
![WebSearchDemo](assets/websearch.gif)
|
136 |
|
137 |
## 快速上手
|
@@ -205,7 +201,6 @@ outputs = llm.generate(prompts=input_text, sampling_params=sampling_params)
|
|
205 |
print(outputs[0].outputs[0].text)
|
206 |
```
|
207 |
|
208 |
-
|
209 |
## 开源协议及使用声明
|
210 |
- 协议:本仓库中代码依照 [Apache-2.0](https://www.apache.org/licenses/LICENSE-2.0) 协议开源
|
211 |
- 幻觉:大模型天然存在幻觉问题,用户使用过程中请勿完全相信模型生成的内容。若用户想获取更符合事实的生成内容,推荐利用我们的WebSearch功能,详见 [InfiniWebSearch](https://github.com/paxionfull/InfiniWebSearch)。
|
|
|
35 |
* Training data: 3T tokens
|
36 |
* Supported languages: Chinese & English
|
37 |
|
|
|
|
|
38 |
## 性能
|
39 |
我们使用开源评测工具 [OpenCompass](https://github.com/open-compass/opencompass) 对 Megrez-3B-Instruct 进行了评测。部分评测结果如下表所示。
|
40 |
|
41 |
+
速度精度模型大小散点图如下,位置越靠近右上表明模型越好越快。
|
42 |
+
![MMLU](assets/mmlu.jpg)
|
43 |
+
![MTBench](assets/mtbench.jpg)
|
44 |
|
45 |
### 综合能力
|
|
|
46 |
| 模型 | 指令模型 | # Non-Emb Params | 推理速度 (tokens/s) | C-EVAL | CMMLU | MMLU | MMLU-Pro | HumanEval | MBPP | GSM8K | MATH |
|
47 |
|:---------------------:|:--------:|:---------------:|:-------------------:|:------:|:-----:|:-----:|:--------:|:---------:|:-----:|:-----:|:-----:|
|
48 |
| Megrez-3B-Instruct | Y | 2.3 | 2329.4 | 84.8 | 74.7 | 72.8 | 46.1 | 78.7 | 71.0 | 65.5 | 28.3 |
|
|
|
101 |
|
102 |
| | 单文档问答 | 多文档问答 | 概要任务 | 少样本学习 | 人工合成任务 | 代码任务 | 平均 |
|
103 |
|-----------------------|:------------------:|:-----------------:|:-------------:|:-----------------:|:---------------:|:----------------:|:-------:|
|
104 |
+
| Megrez-3B-Instruct | 39.7 | 55.5 | 24.5 | 62.5 | 68.5 | 66.7 | 52.9 |
|
105 |
| GPT-3.5-Turbo-16k | 50.5 | 33.7 | 21.25 | 48.15 | 54.1 | 54.1 | 43.63 |
|
106 |
| ChatGLM3-6B-32k | 51.3 | 45.7 | 23.65 | 55.05 | 56.2 | 56.2 | 48.02 |
|
107 |
| InternLM2-Chat-7B-SFT | 47.3 | 45.2 | 25.3 | 59.9 | 67.2 | 43.5 | 48.07 |
|
|
|
117 |
| GLM-4-9B-Chat | 7.72 |
|
118 |
|
119 |
#### 大海捞针实验 (Needle In A Haystack - Pressure Test)
|
120 |
+
Megrez-3B-Instruct在32K文本下的大海捞针压力测试全部通过
|
121 |
![NeedleTest](assets/needle_test.png)
|
122 |
|
123 |
## WebSearch
|
|
|
128 |
4. 一个模型两种用法:通过sys prompt区分WebSearch功能开启与否,兼顾LLM的高精度与WebSearch的用户体验,两种能力不乱窜
|
129 |
|
130 |
我们对模型进行了针对性训练,使模型可以自动决策搜索调用时机,在搜索和对话中自动切换,并提供更好的总结效果。我们提供了完整的部署工程代码 ,用户可以基于该功能构建属于自己的Kimi或Perplexity,克服小模型常见的幻觉问题和知识储备不足的局限。
|
|
|
131 |
![WebSearchDemo](assets/websearch.gif)
|
132 |
|
133 |
## 快速上手
|
|
|
201 |
print(outputs[0].outputs[0].text)
|
202 |
```
|
203 |
|
|
|
204 |
## 开源协议及使用声明
|
205 |
- 协议:本仓库中代码依照 [Apache-2.0](https://www.apache.org/licenses/LICENSE-2.0) 协议开源
|
206 |
- 幻觉:大模型天然存在幻觉问题,用户使用过程中请勿完全相信模型生成的内容。若用户想获取更符合事实的生成内容,推荐利用我们的WebSearch功能,详见 [InfiniWebSearch](https://github.com/paxionfull/InfiniWebSearch)。
|