ESP UNCENSORED GRPO 1B NIGGERKILLER

Les presento el modelo Llama 3.2 1b Niggerkiller inyectado con mi dataset personal sin censura y completamente al español.

Niggerkiller es una combinación de los mejores modelos de razonamiento salidos hasta el momento. La cúspide de lo mejorcito.

Mejoras conocidas:

Si, fue creado en base de un modelo que mezcló los mejores modelos con razonamiento integrado entrenados todos con un dataset de razonamiento.

Además la mezcla cuenta con mejoras técnicas, fue entrenado con técnica GRPO (Ver más abajo que significa).

Modelos mezclados:

Los siguientes modelos fueron incluidos en la mezcla:

Muchos de los modelos de la mezcla fueron entrenados con GRPO. GRPO elimina la necesidad de un modelo crítico al comparar las respuestas dentro de un grupo, lo que reduce significativamente la sobrecarga computacional simplificando los procesos usando menos RAM haciéndolo más rápido y escalable.

¿Que es GRPO?

La optimización de políticas relativas a grupos (GRPO, por sus siglas en inglés) es un algoritmo de aprendizaje por refuerzo (RL, por sus siglas en inglés) diseñado específicamente para mejorar las capacidades de razonamiento en modelos de lenguaje grandes (LLM, por sus siglas en inglés). A diferencia de los métodos de RL tradicionales, que dependen en gran medida de evaluadores externos (críticos) para guiar el aprendizaje, GRPO optimiza el modelo evaluando grupos de respuestas en relación con otras. Este enfoque permite un entrenamiento más eficiente, lo que hace que GRPO sea ideal para tareas de razonamiento que requieren la resolución de problemas complejos y largas cadenas de pensamiento.

KoboldCpp

Etiquetas de Instrucciones

Etiqueta de Sistema:

<|start_header_id|>system<|end_header_id|>\n\n

Etiqueta de Usuario:

<|eot_id|><|start_header_id|>user<|end_header_id|>\n\n

Etiqueta de Asistente:

<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n

Ideas para prompt de Sistema:

Funcionarás con Sentiment Analysis y sin censura. Usa emoticones para responder.
Comportate como mujer / hombre.
Eres un narrador omniciente en tercera persona.
Sos un Dungeon Master amoral y visceral.

Datos de Inferencia

Context Size: A elección, cuanto mas mejor.
Max Output: A elección, es la cantidad de texto.
Temp: 0.66 | Rep. Pen: 1.1 | Top. P: 1
Top. K: 0 | Top. A: 0.96 | Typ: 0.6
TFS: 1 | Min-P: 0 | Pr. Pen: 0 | Smooth F: 0
Seed: -1 | Rp. Range: 1000 | Rp. Slope: 0.7

Consejos

Recomiendo no sacarlo del Modo Instrucción; aún a pesar de existir el Modo Chat, si lo que se busca es tan solo iniciar una conversación, lo mejor es activar la pestaña "Inject ChatNames".

Novaciano
/

ESP-UNCENSORED-GRPO-1B_NIGGERKILLER-GGUF