gptq 4bit

#1
by myx0 - opened

А есть квантованая модель 4-5 бит, чтобы помещалась в 10 гигов video RAM?

Привет

https://huggingface.co./IlyaGusev/saiga_llama3_8b_gguf же. GPTQ версии нет, но её должно быть несложно сварить самостоятельно.

@myx0 Если есть желание использовать exllama то вот - https://huggingface.co./Slvcxc/saiga_llama3_8b-V4-8.0bpw-h8-exl2, правда в качестве особо не уверен, ибо ранее никогда не квантовал модели для русского языка.

IlyaGusev changed discussion status to closed

Sign up or log in to comment