Edit model card

Live Example

https://fzmnm-tinystoriesadv.hf.space

TinyStoriesAdv_v2_92M

alt text

keywords: grade school level, large language model, small language model, tiny language model, super tiny language model, 小学生知识水平,大语言模型,小语言模型,迷你语言模型, llm, slm.

超迷你的玩具模型,只能讲中文,可以回答一些小学生的常识问题。幻觉严重。但是很有趣。 受到TinyStoriesPhi2等论文的启发,使用了自己制作的全合成的数据库 https://huggingface.co./datasets/fzmnm/TinyStoriesAdv-zh

版本v2更新: 根据PhysicsOfLLM 3.1,3.2,3.3,的建议,优化了百科词条部分的训练数据,使得模型能够较好地掌握小学生百科全书里的知识。也根据PhysicsOfLLM 2.1,2.2 加入了一些推理能力的训练。在92M的参数下达到了之前215M版本的水平,知识的掌握也更好了。

采用了类似Qwen的Llama架构,包括了RoPE和GatedMLP。具体的超参数如下:

vocab_size=6000
dim=640;n_layers=20;n_heads=10;n_kv_heads=2;max_seq_len=1024;embedding_weight_tying=True;
tokens_per_iteration=524288
dropout=0.1
warmup_iters=1000;stable_iters=9000

A100上10小时即可训练完毕。 这个是预训练版本,没有进行偏好微调。

用法:

from transformers import pipeline

generator = pipeline('text-generation', model='fzmnm/TinyStoriesAdv_92M')
story_prompt = "问:什么是鹦鹉?"
generated_story = generator(story_prompt, max_length=256, truncation=True)

print(generated_story[0]['generated_text'])

试玩:

问:什么是鹦鹉?

答:鹦鹉是一种非常聪明的鸟类,它们能够学会很多事情,比如如何飞翔和说话。

问:什么是大象?

答:大象是一种大型的动物,它们的身体很大,有长长的鼻子,非常灵活。

问:谁是李白?

答:李白是唐代的著名诗人,他的诗作《静夜思》也是他的代表作之一。

问:什么是黑洞?

答:黑洞是宇宙中非常神秘的现象,它们不断地吸收周围的物质,甚至连光也无法逃脱。

问:如果一只狗掉到了黑洞里,会怎么样?

答:如果狗掉到黑洞里,会被吸进去,然后再被黑洞吸进去,最后可能会永远消失。

问:肚子疼怎么办

答:肚子疼可能是因为吃了太多的食物,或者吃了太多不健康的食物,或者吃了太多糖果和油炸食品。

问:晚上睡不着怎么办?

答:晚上睡不着,可以试试做一些简单的睡眠,比如睡前喝一杯温水,醒来后再去睡觉。

从前有个胖鹦鹉,胖得飞不动。

有一天,胖鹦鹉在森林里散步。它看到一个小女孩在哭。“怎么了?”胖鹦鹉问。“我丢了我的玩具,”小女孩说。“别担心,我会帮你找到它的。”胖鹦鹉说。小女孩和胖鹦鹉一起寻找玩具。他们找遍了树下、灌木丛后面,还在上寻找。最后,他们在一个大箱子下找到了玩具。小女孩非常高兴,感谢了胖鹦鹉。“你是个好朋友,胖鹦鹉”她说。“我会永远记住你的。”从那天起,胖鹦鹉和小女孩成为了最好的朋友,每天一起玩耍。

从前有个小姑娘从来不洗脸。孔子说:“我每天都要洗脸,这样可以保持皮肤健康。”有一天,姑娘问孔子:“你为什么每天都洗脸?”孔子回答:“我每天都要洗脸。”姑娘问:“你为什么要洗脸?”孔子说:“我每天都要洗,我不会让你们的皮肤受苦。”姑娘生气地说:“你这样做不对,我不会帮你!”孔子只好把她关进屋子里,告诉她:“别再洗了!”姑娘生气地说:“我不会让你们的皮肤受苦!”孔子说:“你们应该听我的。你们要学会照顾自己的皮肤,不要让它受苦。”姑娘生气地说:“我不会!我不会!”

Downloads last month
70
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Datasets used to train fzmnm/TinyStoriesAdv_v2_92M

Space using fzmnm/TinyStoriesAdv_v2_92M 1