Una pequeña sugerencia

#1
by Rei-chan - opened

El modelo "FuseChat Cretive 1B" de Bunnycore es superior a la version ChatML, entonces mi sugerencia sería que usases ese modelo con Datasets de Erotica u otros como sueles hacerlo 😁 si lo haces porfavor que sea un GGUF con q8_0 ya que los q8_0 son los que mejor razonamiento tienen de entre los modelos 1B 👍 Me gusta lo que haces

Gracias por proponerme eso, además del halago... pero por desgracia y al menos de momento ...a no ser que sea una conversión nativa de un modelo PyTorch o Transformers a formato GGUF ...si deseo agregar un nuevo dataset me encuentro limitado a una cuantización máxima de 5 (q0_5).

En cuanto a la cuantización 8 ...te doy la razón respecto a eso pero recordá tambien que representa más gastos computacionales en cuanto a recursos. La pregunta que me gustaría hacerte es en que tipo de dispositivo te gustaría correrlo ¿un celular? ¿una computadora? y de ser lo primero, sería bueno que me dijeses cuanta RAM tenés. De esa manera podría tener un mejor panorama sobre lo que buscas.

De momento, si lo deseas, puedo recomendarte mi ultima versión: https://huggingface.co./Novaciano/ESP-NSFW-GRPO-1B-Sin_Censura-GGUF

Si bien no es un q8_0 ...es bastante rápido y eficiente ya que se ha utilizado la misma ...digamos ...practica de entrenamiento que con DeepSeek cosa que los anteriores modelos mencionados no. Aprovecharé el envión y subiré una versión q5_0.

Hola 👋 los modelos gguf los ejecuto en la aplicación ChatterUI (Version 0.8.2) en android, es incluso mas comodo de usar que el famoso Layla 😊 tengo 6gb de Ram, con 6 de ram los modelos q4_0 me corren de maravilla incluso con los de tamaño 2B como son los de arquitectura Gemma Mini.

La formula que uso para calcular cuanta ram necesito para correr un modelo es el siguiente:

-Si es un modelo 2B entonces hago esto
2 x 2 +2 = 6gb de ram
-Si es un modelo 1B entonces
1 x 2 + 2 = 4gb de ram

No se si estoy en lo correcto pero funciona 😃


El modelo que mas usaba era el "Gemma 2B ArliAiRPMax" pero me percaté que los Gemma tienen un pequeño fallo al interpretar el "Yo", "Tu", etc. 😆 los modelos de arquitectura Llama3.2 son mas ingeniosos en ese apartado, es por eso que ahora utilizo modelos Llama3.2.

El modelo Llama mas "inteligente" que probé es el del usuario Bartowski "Llama 3B Instruct uncensored" en q4_0 con mis 6gb de Ram corre un poco lento pero aceptable (incomodo para largas charlas) dejé de usarlo.

Asi que decidí mejor usar modelos 1B Llama3.2, son mas rápidos pero se alucinan mucho, estuve probando muchos modelos 1B de arquitectura Llama3.2, el más coherente y menos alucinativo que encontré actualmente fue el "FuseChat Creative" del usuario "Bunnycore" aunque este no suele decir palabrotas ni ser tan vulgar, entonces pensé que podrias meterle datasets para añadirle mas personalidad y corromperlo para que no sea tan formal.
Por cierto no se si Gemmasutra tenga datasets pero las respuestas que proporciona son bastante buenas pero como dije Gemma2B tiene un pequeño problema. ✌

Menudo análisis que me diste. Me sorprendiste. Pero si, están bien los calculos. Layla lo tengo instalado, pero nunca lo uso... se me hace mejor Koboldcpp debido al hecho de que... bueno, descubrí que habían instrucciones internas en ingles que daban problemas al intentar escribir instrucciones en español. A veces ocurrían esas... alucinaciones raras, por lo que intuí que Layla tendría el mismo problema a pesar de ser vistosamente bonito. Por otro lado siempre trato de equilibrar la calidad con el rendimiento... y al ser un apk Layla tambien podría consumirte mas RAM... y hacerte calentar el celular. Sobre todo si a eso le sumamos un modelo Gemma... es como decis, no es muy bueno... y por otra parte pide muchos requisitos computacionales... por lo que... bueno... aparte de ir lento, puede desde recalentarte el celular ...a ser un "matabatería"; ignoro si seas de Argentina... pero de serlo, imagina eso con las altas temperaturas que hacen actualmente. Llama es lo mejor en cuanto a velocidad y rendimiento... pero, ya sabes... está el problema de la censura. Y como alternativa tendrías QWEN 2.5... pero en lo personal no lo uso porque no suele dar respuestas del todo... precisas. Por mi parte voy a probar ChatterUI... y ver si puedo preparar el modelo de Bunnycore mencionado; de momento no pude hacerlo porque tuve unos inconvenientes técnicos pero ni bien se solucione lo tendré cocinado.

Por lo pronto, 6 Gb de RAM es un cañón. Yo una vez cometí la locura de intentar correr uno e iba a paso de tortuga, pero teniendo vos el doble que yo... todos los 3b de Llama 3.2 deberían de irte bien... y es más, me confundí y creé una vez un modelo 3b que aún mantengo en mi perfil. Cualquier cosa dale un vistazo y me generas un informe contandome que tal te fue.

Gemmasutra... es The Drummer; le conozco... indirectamente. Es muy activo dentro de la comunidad de Koboldcpp... pero solo tiene 3 datasets, de los cuales dos son de un peso irrisorio y el que queda no está al publico que parece ser mas pesado. Lo mejor siempre es ...inyectar los datasets mas pesados que hayan para poder... doblegar la mentalidad de la IA.

Cualquier cosa escribime de nuevo; estaré a tu disposición.

Sign up or log in to comment