dpxlbx commited on
Commit
2742582
1 Parent(s): 2f3d2a9

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +5 -10
README.md CHANGED
@@ -35,17 +35,14 @@ Megrez-3B-Instruct是由无问芯穹([Infinigence AI](https://cloud.infini-ai.
35
  * Training data: 3T tokens
36
  * Supported languages: Chinese & English
37
 
38
- 在文本生成等具备生成多样性的任务上,我们推荐推理参数temperature=0.7;在数学、推理等任务上,我们推荐推理参数temperature=0.2
39
-
40
  ## 性能
41
  我们使用开源评测工具 [OpenCompass](https://github.com/open-compass/opencompass) 对 Megrez-3B-Instruct 进行了评测。部分评测结果如下表所示。
42
 
43
- 速度精度模型大小散点图如下,位置越靠近右上表明模型越好越快
44
- ![MMLU](assets/mmlu.jpg) ![MTBench](assets/mtbench.jpg)
45
-
46
 
47
  ### 综合能力
48
-
49
  | 模型 | 指令模型 | # Non-Emb Params | 推理速度 (tokens/s) | C-EVAL | CMMLU | MMLU | MMLU-Pro | HumanEval | MBPP | GSM8K | MATH |
50
  |:---------------------:|:--------:|:---------------:|:-------------------:|:------:|:-----:|:-----:|:--------:|:---------:|:-----:|:-----:|:-----:|
51
  | Megrez-3B-Instruct | Y | 2.3 | 2329.4 | 84.8 | 74.7 | 72.8 | 46.1 | 78.7 | 71.0 | 65.5 | 28.3 |
@@ -104,7 +101,7 @@ Megrez-3B-Instruct是由无问芯穹([Infinigence AI](https://cloud.infini-ai.
104
 
105
  | | 单文档问答 | 多文档问答 | 概要任务 | 少样本学习 | 人工合成任务 | 代码任务 | 平均 |
106
  |-----------------------|:------------------:|:-----------------:|:-------------:|:-----------------:|:---------------:|:----------------:|:-------:|
107
- | Megrez-3B-Instruct | 39.67 | 55.53 | 24.51 | 62.52 | 68.5 | 66.73 | 52.91 |
108
  | GPT-3.5-Turbo-16k | 50.5 | 33.7 | 21.25 | 48.15 | 54.1 | 54.1 | 43.63 |
109
  | ChatGLM3-6B-32k | 51.3 | 45.7 | 23.65 | 55.05 | 56.2 | 56.2 | 48.02 |
110
  | InternLM2-Chat-7B-SFT | 47.3 | 45.2 | 25.3 | 59.9 | 67.2 | 43.5 | 48.07 |
@@ -120,7 +117,7 @@ Megrez-3B-Instruct是由无问芯穹([Infinigence AI](https://cloud.infini-ai.
120
  | GLM-4-9B-Chat | 7.72 |
121
 
122
  #### 大海捞针实验 (Needle In A Haystack - Pressure Test)
123
- 关于Megrez-3B-Instruct在32K文本下的大海捞针压力测试结果
124
  ![NeedleTest](assets/needle_test.png)
125
 
126
  ## WebSearch
@@ -131,7 +128,6 @@ Megrez-3B-Instruct是由无问芯穹([Infinigence AI](https://cloud.infini-ai.
131
  4. 一个模型两种用法:通过sys prompt区分WebSearch功能开启与否,兼顾LLM的高精度与WebSearch的用户体验,两种能力不乱窜
132
 
133
  我们对模型进行了针对性训练,使模型可以自动决策搜索调用时机,在搜索和对话中自动切换,并提供更好的总结效果。我们提供了完整的部署工程代码 ,用户可以基于该功能构建属于自己的Kimi或Perplexity,克服小模型常见的幻觉问题和知识储备不足的局限。
134
-
135
  ![WebSearchDemo](assets/websearch.gif)
136
 
137
  ## 快速上手
@@ -205,7 +201,6 @@ outputs = llm.generate(prompts=input_text, sampling_params=sampling_params)
205
  print(outputs[0].outputs[0].text)
206
  ```
207
 
208
-
209
  ## 开源协议及使用声明
210
  - 协议:本仓库中代码依照 [Apache-2.0](https://www.apache.org/licenses/LICENSE-2.0) 协议开源
211
  - 幻觉:大模型天然存在幻觉问题,用户使用过程中请勿完全相信模型生成的内容。若用户想获取更符合事实的生成内容,推荐利用我们的WebSearch功能,详见 [InfiniWebSearch](https://github.com/paxionfull/InfiniWebSearch)。
 
35
  * Training data: 3T tokens
36
  * Supported languages: Chinese & English
37
 
 
 
38
  ## 性能
39
  我们使用开源评测工具 [OpenCompass](https://github.com/open-compass/opencompass) 对 Megrez-3B-Instruct 进行了评测。部分评测结果如下表所示。
40
 
41
+ 速度精度模型大小散点图如下,位置越靠近右上表明模型越好越快。
42
+ ![MMLU](assets/mmlu.jpg)
43
+ ![MTBench](assets/mtbench.jpg)
44
 
45
  ### 综合能力
 
46
  | 模型 | 指令模型 | # Non-Emb Params | 推理速度 (tokens/s) | C-EVAL | CMMLU | MMLU | MMLU-Pro | HumanEval | MBPP | GSM8K | MATH |
47
  |:---------------------:|:--------:|:---------------:|:-------------------:|:------:|:-----:|:-----:|:--------:|:---------:|:-----:|:-----:|:-----:|
48
  | Megrez-3B-Instruct | Y | 2.3 | 2329.4 | 84.8 | 74.7 | 72.8 | 46.1 | 78.7 | 71.0 | 65.5 | 28.3 |
 
101
 
102
  | | 单文档问答 | 多文档问答 | 概要任务 | 少样本学习 | 人工合成任务 | 代码任务 | 平均 |
103
  |-----------------------|:------------------:|:-----------------:|:-------------:|:-----------------:|:---------------:|:----------------:|:-------:|
104
+ | Megrez-3B-Instruct | 39.7 | 55.5 | 24.5 | 62.5 | 68.5 | 66.7 | 52.9 |
105
  | GPT-3.5-Turbo-16k | 50.5 | 33.7 | 21.25 | 48.15 | 54.1 | 54.1 | 43.63 |
106
  | ChatGLM3-6B-32k | 51.3 | 45.7 | 23.65 | 55.05 | 56.2 | 56.2 | 48.02 |
107
  | InternLM2-Chat-7B-SFT | 47.3 | 45.2 | 25.3 | 59.9 | 67.2 | 43.5 | 48.07 |
 
117
  | GLM-4-9B-Chat | 7.72 |
118
 
119
  #### 大海捞针实验 (Needle In A Haystack - Pressure Test)
120
+ Megrez-3B-Instruct在32K文本下的大海捞针压力测试全部通过
121
  ![NeedleTest](assets/needle_test.png)
122
 
123
  ## WebSearch
 
128
  4. 一个模型两种用法:通过sys prompt区分WebSearch功能开启与否,兼顾LLM的高精度与WebSearch的用户体验,两种能力不乱窜
129
 
130
  我们对模型进行了针对性训练,使模型可以自动决策搜索调用时机,在搜索和对话中自动切换,并提供更好的总结效果。我们提供了完整的部署工程代码 ,用户可以基于该功能构建属于自己的Kimi或Perplexity,克服小模型常见的幻觉问题和知识储备不足的局限。
 
131
  ![WebSearchDemo](assets/websearch.gif)
132
 
133
  ## 快速上手
 
201
  print(outputs[0].outputs[0].text)
202
  ```
203
 
 
204
  ## 开源协议及使用声明
205
  - 协议:本仓库中代码依照 [Apache-2.0](https://www.apache.org/licenses/LICENSE-2.0) 协议开源
206
  - 幻觉:大模型天然存在幻觉问题,用户使用过程中请勿完全相信模型生成的内容。若用户想获取更符合事实的生成内容,推荐利用我们的WebSearch功能,详见 [InfiniWebSearch](https://github.com/paxionfull/InfiniWebSearch)。