tokenizer的vocab_size是39408, 而 config.json 里面的 vocab_size 是 39424, 哪里有问题呢?
#5
by
tanguofu
- opened
求指导
https://huggingface.co./IDEA-CCNL/Ziya-LLaMA-13B-v1/discussions/22
请看这个讨论。训练框架为了模型并行(要切vocab embedding成mp整数倍)会补 dummy token 成 39424。