Update README.md
Browse files
README.md
CHANGED
@@ -2,7 +2,6 @@
|
|
2 |
license: cc
|
3 |
datasets:
|
4 |
- adam89/TinyStoriesChinese
|
5 |
-
- fzmnm/TinyStoriesChinese-110M
|
6 |
- fzmnm/tiny-books-zh
|
7 |
language:
|
8 |
- zh
|
@@ -21,7 +20,7 @@ widget:
|
|
21 |
|
22 |
### 思考
|
23 |
|
24 |
-
1. 数据集太小,多样化程度太窄。其实100M
|
25 |
|
26 |
2. 要求chatgpt强行把一些过于复杂的文本、如资治通鉴、罪与罚、官场现形记给改编成"适合幼儿园小朋友阅读的故事"过于强人所难,会导致chatgpt会丢三落四、语焉不详、胡言乱语。导致数据集的逻辑一致性和comprehensive(前面文本有足够信息帮助模型推断下一句话)性不足。我的解决方案是使用机器对生成的训练数据进行粗筛。
|
27 |
|
|
|
2 |
license: cc
|
3 |
datasets:
|
4 |
- adam89/TinyStoriesChinese
|
|
|
5 |
- fzmnm/tiny-books-zh
|
6 |
language:
|
7 |
- zh
|
|
|
20 |
|
21 |
### 思考
|
22 |
|
23 |
+
1. 数据集太小,多样化程度太窄。其实100M级别的模型已经可以拥有多模态的智能了([mobileLLM](https://arxiv.org/abs/2402.14905))。我可以考虑加入一些理科的元素,尤其是十万个为什么之类的常识性说明到培训数据里,不要只局限于文科名著。之前我是考虑到模型的大小故意避免了任何数学和理科的训练资料。
|
24 |
|
25 |
2. 要求chatgpt强行把一些过于复杂的文本、如资治通鉴、罪与罚、官场现形记给改编成"适合幼儿园小朋友阅读的故事"过于强人所难,会导致chatgpt会丢三落四、语焉不详、胡言乱语。导致数据集的逻辑一致性和comprehensive(前面文本有足够信息帮助模型推断下一句话)性不足。我的解决方案是使用机器对生成的训练数据进行粗筛。
|
26 |
|