Novaciano commited on
Commit
370eb43
·
verified ·
1 Parent(s): b5959ea

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +0 -2
README.md CHANGED
@@ -45,12 +45,10 @@ Los siguientes modelos fueron incluidos en la mezcla:
45
  Muchos de los modelos de la mezcla fueron entrenados con GRPO. GRPO elimina la necesidad de un modelo crítico al comparar las respuestas dentro de un grupo, lo que reduce significativamente la sobrecarga computacional simplificando los procesos usando menos RAM haciéndolo más rápido y escalable.
46
 
47
  ---
48
-
49
  # ¿Que es GRPO?
50
  La optimización de políticas relativas a grupos (GRPO, por sus siglas en inglés) es un algoritmo de aprendizaje por refuerzo (RL, por sus siglas en inglés) diseñado específicamente para mejorar las capacidades de razonamiento en modelos de lenguaje grandes (LLM, por sus siglas en inglés). A diferencia de los métodos de RL tradicionales, que dependen en gran medida de evaluadores externos (críticos) para guiar el aprendizaje, GRPO optimiza el modelo evaluando grupos de respuestas en relación con otras. Este enfoque permite un entrenamiento más eficiente, lo que hace que GRPO sea ideal para tareas de razonamiento que requieren la resolución de problemas complejos y largas cadenas de pensamiento.
51
 
52
  ---
53
-
54
  # KoboldCpp
55
 
56
  ### Etiquetas de Instrucciones
 
45
  Muchos de los modelos de la mezcla fueron entrenados con GRPO. GRPO elimina la necesidad de un modelo crítico al comparar las respuestas dentro de un grupo, lo que reduce significativamente la sobrecarga computacional simplificando los procesos usando menos RAM haciéndolo más rápido y escalable.
46
 
47
  ---
 
48
  # ¿Que es GRPO?
49
  La optimización de políticas relativas a grupos (GRPO, por sus siglas en inglés) es un algoritmo de aprendizaje por refuerzo (RL, por sus siglas en inglés) diseñado específicamente para mejorar las capacidades de razonamiento en modelos de lenguaje grandes (LLM, por sus siglas en inglés). A diferencia de los métodos de RL tradicionales, que dependen en gran medida de evaluadores externos (críticos) para guiar el aprendizaje, GRPO optimiza el modelo evaluando grupos de respuestas en relación con otras. Este enfoque permite un entrenamiento más eficiente, lo que hace que GRPO sea ideal para tareas de razonamiento que requieren la resolución de problemas complejos y largas cadenas de pensamiento.
50
 
51
  ---
 
52
  # KoboldCpp
53
 
54
  ### Etiquetas de Instrucciones