AmberYifan commited on 17 days ago

Commit

e20153d

verified ·

1 Parent(s): 2bf52e9

Training in progress, epoch 3, checkpoint

Browse files

Files changed (19) hide show

last-checkpoint/global_step939/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step939/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00004.safetensors +1 -1
last-checkpoint/model-00002-of-00004.safetensors +1 -1
last-checkpoint/model-00003-of-00004.safetensors +1 -1
last-checkpoint/model-00004-of-00004.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +484 -3

last-checkpoint/global_step939/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a11f1403b332f58c3d2a4028a0a86a6fa76fe1c647a0ea782ef9b098a68ffb0e
+size 15231238316

last-checkpoint/global_step939/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d824c4ae7468af7714640db6cf5f82534614c70911aac97d360678eb8080e67a
+size 15231238316

last-checkpoint/global_step939/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d5f70b0d2e38e3f8ec64e08c681d472c39f44f126943fc1c37bcaf0b17aed09f
+size 15231238316

last-checkpoint/global_step939/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:43bd014b802d91f26d070f4d55084d5866c120ce765c95c35f197bcba0754d24
+size 15231238316

last-checkpoint/global_step939/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:99b1a3922c793b0c24d306251b0c1441e9f7a9cce14ecb23e7f75bc3c63f9af2
+size 167957

last-checkpoint/global_step939/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f71281b19ec81ffaa3d5f8398270ac4941b2ac635fe676ef886a45e5c46042cf
+size 167957

last-checkpoint/global_step939/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1cbc34819d4db93c1a1169bbdce31406e3960e5dbe9738e8f1fc22a9e244180d
+size 167957

last-checkpoint/global_step939/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:38e1230e3716503c60f04ce18fba282c382f9e189ddab60f41472b12e0e7d9c7
+size 167957

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step626~~


1	+ global_step939

last-checkpoint/model-00001-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f521cfb1a3d12dac27c68b3f364cd7fc364f61ec8fea51c5fa275466c3c072c
 size 4877660776

 version https://git-lfs.github.com/spec/v1
+oid sha256:549c8ec21c36d7c5e4e3b5f8f407398d73cb0fb4c05e867bdd77cb66e0326a8e
 size 4877660776

last-checkpoint/model-00002-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c368d6500409c6f82d6a137ccb9e8324703407a2009f1912a1e1d98d45bebd3
 size 4932751008

 version https://git-lfs.github.com/spec/v1
+oid sha256:4100a513f2460f978c6b6c96723793f85b47c21ccd3092b9beeb7594659b9ede
 size 4932751008

last-checkpoint/model-00003-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:728b4d6d3c3f8159d1753e07faf769abe56c0bbf3364a7f8bcb789986bffa270
 size 4330865200

 version https://git-lfs.github.com/spec/v1
+oid sha256:a2402024f2dec0393497a13dd6068ea78c6ceeb06200ef08b848876cb743a437
 size 4330865200

last-checkpoint/model-00004-of-00004.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21c1c8663a39315455ddb34c1ad6e00d0990dce9df89a673a7db9ed89bcc492f
 size 1089994880

 version https://git-lfs.github.com/spec/v1
+oid sha256:1f39ec9d3dddbef3024f9067c21ec0008a371c516addd59b178fb21ff7e1ab16
 size 1089994880

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2307c03867cef25b5028feb9a23f80e784b9af9a615de13ddca560a6a90fb593
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ab7cf0d34d60dfda516cf9661904550e2e294e723edd07c25c738f05e8ba92d1
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:50218cfaecdd818354e567b7167c13899e3b42297e7d8f58bd7e732cfa547800
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f7b183324e8227a51a9556d86b2ad893a8c4c52205ed4a737356c6611dac7353
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9814a66b49861f5495b06dae3be12ddf7185b88e2cae1fb808ca9efd99d5807f
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:ac69e994090f4818cb1fa6f6cefa363178552c3c731c6507ff195bcb07fd5bef
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a7be93040a65e0a29975f6c70b94418e1fdf88423a50c58aa572141d3c92fbfc
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f68e61b63402f8afb1f69c960f7944965655dac11e3ccf29919c282f23931f86
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f7725b44c69725321786f1e58dccd7ea4d3ae5794ea47bd49c0d4a139aec266d
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe7d17fbcfa5bee1bf6cb5aedab3ff5a70436912c200d7301d173be443809d63
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 2.0,
   "eval_steps": 500,
-  "global_step": 626,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -984,6 +984,487 @@
       "eval_samples_per_second": 17.828,
       "eval_steps_per_second": 0.624,
       "step": 626
     }
   ],
   "logging_steps": 10,
@@ -998,7 +1479,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 939,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 17.828,
       "eval_steps_per_second": 0.624,
       "step": 626
+    },
+    {
+      "epoch": 2.012779552715655,
+      "grad_norm": 9.008859978395401,
+      "learning_rate": 1.8284023668639053e-07,
+      "logits/chosen": -1.5234375,
+      "logits/rejected": -1.40625,
+      "logps/chosen": -246.0,
+      "logps/rejected": -288.0,
+      "loss": 0.089,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -0.3359375,
+      "rewards/margins": 4.25,
+      "rewards/rejected": -4.59375,
+      "step": 630
+    },
+    {
+      "epoch": 2.0447284345047922,
+      "grad_norm": 6.394226306430514,
+      "learning_rate": 1.7692307692307693e-07,
+      "logits/chosen": -1.53125,
+      "logits/rejected": -1.4765625,
+      "logps/chosen": -248.0,
+      "logps/rejected": -312.0,
+      "loss": 0.0568,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.6015625,
+      "rewards/margins": 5.5,
+      "rewards/rejected": -6.125,
+      "step": 640
+    },
+    {
+      "epoch": 2.07667731629393,
+      "grad_norm": 3.079234171886653,
+      "learning_rate": 1.710059171597633e-07,
+      "logits/chosen": -1.453125,
+      "logits/rejected": -1.4140625,
+      "logps/chosen": -252.0,
+      "logps/rejected": -310.0,
+      "loss": 0.0519,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -0.71875,
+      "rewards/margins": 4.9375,
+      "rewards/rejected": -5.6875,
+      "step": 650
+    },
+    {
+      "epoch": 2.108626198083067,
+      "grad_norm": 6.272950983225102,
+      "learning_rate": 1.650887573964497e-07,
+      "logits/chosen": -1.4453125,
+      "logits/rejected": -1.421875,
+      "logps/chosen": -248.0,
+      "logps/rejected": -304.0,
+      "loss": 0.0804,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -0.8125,
+      "rewards/margins": 4.59375,
+      "rewards/rejected": -5.40625,
+      "step": 660
+    },
+    {
+      "epoch": 2.1405750798722045,
+      "grad_norm": 8.988487131576974,
+      "learning_rate": 1.591715976331361e-07,
+      "logits/chosen": -1.3984375,
+      "logits/rejected": -1.34375,
+      "logps/chosen": -245.0,
+      "logps/rejected": -304.0,
+      "loss": 0.0496,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.49609375,
+      "rewards/margins": 4.75,
+      "rewards/rejected": -5.25,
+      "step": 670
+    },
+    {
+      "epoch": 2.1725239616613417,
+      "grad_norm": 8.159838760463082,
+      "learning_rate": 1.5325443786982248e-07,
+      "logits/chosen": -1.40625,
+      "logits/rejected": -1.359375,
+      "logps/chosen": -250.0,
+      "logps/rejected": -304.0,
+      "loss": 0.0578,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -0.87109375,
+      "rewards/margins": 4.96875,
+      "rewards/rejected": -5.84375,
+      "step": 680
+    },
+    {
+      "epoch": 2.2044728434504792,
+      "grad_norm": 17.597694183277287,
+      "learning_rate": 1.4733727810650885e-07,
+      "logits/chosen": -1.4609375,
+      "logits/rejected": -1.3984375,
+      "logps/chosen": -235.0,
+      "logps/rejected": -304.0,
+      "loss": 0.0673,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -0.07421875,
+      "rewards/margins": 5.875,
+      "rewards/rejected": -5.9375,
+      "step": 690
+    },
+    {
+      "epoch": 2.236421725239617,
+      "grad_norm": 19.792820570766843,
+      "learning_rate": 1.4142011834319526e-07,
+      "logits/chosen": -1.375,
+      "logits/rejected": -1.4296875,
+      "logps/chosen": -251.0,
+      "logps/rejected": -308.0,
+      "loss": 0.0702,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.7421875,
+      "rewards/margins": 5.15625,
+      "rewards/rejected": -5.90625,
+      "step": 700
+    },
+    {
+      "epoch": 2.268370607028754,
+      "grad_norm": 8.600381448035137,
+      "learning_rate": 1.3550295857988164e-07,
+      "logits/chosen": -1.4921875,
+      "logits/rejected": -1.359375,
+      "logps/chosen": -240.0,
+      "logps/rejected": -306.0,
+      "loss": 0.0539,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -0.1923828125,
+      "rewards/margins": 5.75,
+      "rewards/rejected": -5.96875,
+      "step": 710
+    },
+    {
+      "epoch": 2.3003194888178915,
+      "grad_norm": 17.41941039012227,
+      "learning_rate": 1.2958579881656802e-07,
+      "logits/chosen": -1.4453125,
+      "logits/rejected": -1.4140625,
+      "logps/chosen": -243.0,
+      "logps/rejected": -308.0,
+      "loss": 0.069,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -0.61328125,
+      "rewards/margins": 5.3125,
+      "rewards/rejected": -5.9375,
+      "step": 720
+    },
+    {
+      "epoch": 2.3322683706070286,
+      "grad_norm": 25.037192351858263,
+      "learning_rate": 1.2366863905325443e-07,
+      "logits/chosen": -1.4609375,
+      "logits/rejected": -1.3984375,
+      "logps/chosen": -244.0,
+      "logps/rejected": -308.0,
+      "loss": 0.0497,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.8125,
+      "rewards/margins": 5.34375,
+      "rewards/rejected": -6.15625,
+      "step": 730
+    },
+    {
+      "epoch": 2.364217252396166,
+      "grad_norm": 6.1257474979571045,
+      "learning_rate": 1.1775147928994082e-07,
+      "logits/chosen": -1.4375,
+      "logits/rejected": -1.40625,
+      "logps/chosen": -245.0,
+      "logps/rejected": -314.0,
+      "loss": 0.0463,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.59375,
+      "rewards/margins": 5.78125,
+      "rewards/rejected": -6.375,
+      "step": 740
+    },
+    {
+      "epoch": 2.3961661341853033,
+      "grad_norm": 9.957701932091602,
+      "learning_rate": 1.1183431952662721e-07,
+      "logits/chosen": -1.484375,
+      "logits/rejected": -1.421875,
+      "logps/chosen": -250.0,
+      "logps/rejected": -308.0,
+      "loss": 0.0614,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.1171875,
+      "rewards/margins": 5.28125,
+      "rewards/rejected": -6.40625,
+      "step": 750
+    },
+    {
+      "epoch": 2.428115015974441,
+      "grad_norm": 8.151894348408907,
+      "learning_rate": 1.059171597633136e-07,
+      "logits/chosen": -1.390625,
+      "logits/rejected": -1.375,
+      "logps/chosen": -246.0,
+      "logps/rejected": -308.0,
+      "loss": 0.0503,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.078125,
+      "rewards/margins": 5.15625,
+      "rewards/rejected": -6.25,
+      "step": 760
+    },
+    {
+      "epoch": 2.460063897763578,
+      "grad_norm": 7.245862853607653,
+      "learning_rate": 1e-07,
+      "logits/chosen": -1.4765625,
+      "logits/rejected": -1.4296875,
+      "logps/chosen": -252.0,
+      "logps/rejected": -312.0,
+      "loss": 0.0485,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.1640625,
+      "rewards/margins": 5.0,
+      "rewards/rejected": -6.1875,
+      "step": 770
+    },
+    {
+      "epoch": 2.4920127795527156,
+      "grad_norm": 18.973643902153352,
+      "learning_rate": 9.408284023668639e-08,
+      "logits/chosen": -1.40625,
+      "logits/rejected": -1.3359375,
+      "logps/chosen": -246.0,
+      "logps/rejected": -310.0,
+      "loss": 0.0523,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -0.640625,
+      "rewards/margins": 5.59375,
+      "rewards/rejected": -6.25,
+      "step": 780
+    },
+    {
+      "epoch": 2.523961661341853,
+      "grad_norm": 15.56196898970075,
+      "learning_rate": 8.816568047337278e-08,
+      "logits/chosen": -1.46875,
+      "logits/rejected": -1.46875,
+      "logps/chosen": -246.0,
+      "logps/rejected": -296.0,
+      "loss": 0.0726,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -0.392578125,
+      "rewards/margins": 5.0625,
+      "rewards/rejected": -5.46875,
+      "step": 790
+    },
+    {
+      "epoch": 2.5559105431309903,
+      "grad_norm": 7.434354083474048,
+      "learning_rate": 8.224852071005916e-08,
+      "logits/chosen": -1.4453125,
+      "logits/rejected": -1.3671875,
+      "logps/chosen": -252.0,
+      "logps/rejected": -314.0,
+      "loss": 0.0518,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.7578125,
+      "rewards/margins": 5.53125,
+      "rewards/rejected": -6.28125,
+      "step": 800
+    },
+    {
+      "epoch": 2.587859424920128,
+      "grad_norm": 6.043379670574249,
+      "learning_rate": 7.633136094674555e-08,
+      "logits/chosen": -1.4375,
+      "logits/rejected": -1.40625,
+      "logps/chosen": -242.0,
+      "logps/rejected": -304.0,
+      "loss": 0.0828,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -0.453125,
+      "rewards/margins": 5.09375,
+      "rewards/rejected": -5.53125,
+      "step": 810
+    },
+    {
+      "epoch": 2.619808306709265,
+      "grad_norm": 9.788784681363204,
+      "learning_rate": 7.041420118343195e-08,
+      "logits/chosen": -1.40625,
+      "logits/rejected": -1.3671875,
+      "logps/chosen": -250.0,
+      "logps/rejected": -306.0,
+      "loss": 0.0491,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.6875,
+      "rewards/margins": 5.25,
+      "rewards/rejected": -5.9375,
+      "step": 820
+    },
+    {
+      "epoch": 2.6517571884984026,
+      "grad_norm": 21.30703661009818,
+      "learning_rate": 6.449704142011835e-08,
+      "logits/chosen": -1.453125,
+      "logits/rejected": -1.375,
+      "logps/chosen": -255.0,
+      "logps/rejected": -310.0,
+      "loss": 0.0517,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -1.3515625,
+      "rewards/margins": 4.71875,
+      "rewards/rejected": -6.09375,
+      "step": 830
+    },
+    {
+      "epoch": 2.68370607028754,
+      "grad_norm": 9.373420801368813,
+      "learning_rate": 5.857988165680473e-08,
+      "logits/chosen": -1.4921875,
+      "logits/rejected": -1.375,
+      "logps/chosen": -250.0,
+      "logps/rejected": -308.0,
+      "loss": 0.059,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.03125,
+      "rewards/margins": 5.21875,
+      "rewards/rejected": -6.25,
+      "step": 840
+    },
+    {
+      "epoch": 2.7156549520766773,
+      "grad_norm": 13.613909483856304,
+      "learning_rate": 5.266272189349112e-08,
+      "logits/chosen": -1.5078125,
+      "logits/rejected": -1.421875,
+      "logps/chosen": -245.0,
+      "logps/rejected": -310.0,
+      "loss": 0.0567,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.75390625,
+      "rewards/margins": 6.0,
+      "rewards/rejected": -6.75,
+      "step": 850
+    },
+    {
+      "epoch": 2.747603833865815,
+      "grad_norm": 15.430662024682558,
+      "learning_rate": 4.674556213017751e-08,
+      "logits/chosen": -1.390625,
+      "logits/rejected": -1.2734375,
+      "logps/chosen": -252.0,
+      "logps/rejected": -316.0,
+      "loss": 0.0413,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -1.0390625,
+      "rewards/margins": 5.71875,
+      "rewards/rejected": -6.75,
+      "step": 860
+    },
+    {
+      "epoch": 2.779552715654952,
+      "grad_norm": 15.722766184638564,
+      "learning_rate": 4.082840236686391e-08,
+      "logits/chosen": -1.453125,
+      "logits/rejected": -1.375,
+      "logps/chosen": -248.0,
+      "logps/rejected": -308.0,
+      "loss": 0.0437,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.875,
+      "rewards/margins": 5.0,
+      "rewards/rejected": -5.875,
+      "step": 870
+    },
+    {
+      "epoch": 2.8115015974440896,
+      "grad_norm": 14.977181098784836,
+      "learning_rate": 3.4911242603550294e-08,
+      "logits/chosen": -1.484375,
+      "logits/rejected": -1.40625,
+      "logps/chosen": -238.0,
+      "logps/rejected": -298.0,
+      "loss": 0.046,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.384765625,
+      "rewards/margins": 5.1875,
+      "rewards/rejected": -5.59375,
+      "step": 880
+    },
+    {
+      "epoch": 2.8434504792332267,
+      "grad_norm": 26.584208659094074,
+      "learning_rate": 2.8994082840236687e-08,
+      "logits/chosen": -1.4765625,
+      "logits/rejected": -1.421875,
+      "logps/chosen": -246.0,
+      "logps/rejected": -308.0,
+      "loss": 0.0499,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.546875,
+      "rewards/margins": 5.5625,
+      "rewards/rejected": -6.09375,
+      "step": 890
+    },
+    {
+      "epoch": 2.8753993610223643,
+      "grad_norm": 7.397188016373842,
+      "learning_rate": 2.3076923076923076e-08,
+      "logits/chosen": -1.515625,
+      "logits/rejected": -1.375,
+      "logps/chosen": -246.0,
+      "logps/rejected": -312.0,
+      "loss": 0.0416,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.015625,
+      "rewards/margins": 5.5,
+      "rewards/rejected": -6.5,
+      "step": 900
+    },
+    {
+      "epoch": 2.9073482428115014,
+      "grad_norm": 4.16555751994792,
+      "learning_rate": 1.7159763313609465e-08,
+      "logits/chosen": -1.46875,
+      "logits/rejected": -1.3828125,
+      "logps/chosen": -245.0,
+      "logps/rejected": -316.0,
+      "loss": 0.0393,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -0.85546875,
+      "rewards/margins": 6.0625,
+      "rewards/rejected": -6.90625,
+      "step": 910
+    },
+    {
+      "epoch": 2.939297124600639,
+      "grad_norm": 18.370934081127842,
+      "learning_rate": 1.1242603550295858e-08,
+      "logits/chosen": -1.421875,
+      "logits/rejected": -1.4296875,
+      "logps/chosen": -251.0,
+      "logps/rejected": -308.0,
+      "loss": 0.0439,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -1.046875,
+      "rewards/margins": 5.21875,
+      "rewards/rejected": -6.25,
+      "step": 920
+    },
+    {
+      "epoch": 2.9712460063897765,
+      "grad_norm": 9.265481933726917,
+      "learning_rate": 5.325443786982248e-09,
+      "logits/chosen": -1.484375,
+      "logits/rejected": -1.40625,
+      "logps/chosen": -255.0,
+      "logps/rejected": -314.0,
+      "loss": 0.0392,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -1.171875,
+      "rewards/margins": 5.3125,
+      "rewards/rejected": -6.46875,
+      "step": 930
+    },
+    {
+      "epoch": 3.0,
+      "eval_logits/chosen": -1.3046875,
+      "eval_logits/rejected": -1.34375,
+      "eval_logps/chosen": -260.0,
+      "eval_logps/rejected": -310.0,
+      "eval_loss": 0.29661378264427185,
+      "eval_rewards/accuracies": 0.8214285969734192,
+      "eval_rewards/chosen": -1.9375,
+      "eval_rewards/margins": 3.984375,
+      "eval_rewards/rejected": -5.90625,
+      "eval_runtime": 13.7446,
+      "eval_samples_per_second": 14.551,
+      "eval_steps_per_second": 0.509,
+      "step": 939
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }