Training in progress, epoch 2, checkpoint

Browse files

Files changed (15) hide show

last-checkpoint/global_step1668/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1668/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1668/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step1668/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1668/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step1668/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +1263 -2

last-checkpoint/global_step1668/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7d986a1e7a744bde47dc9e19fa2159cf390f994fdb8524597f1c9f0e21f96df5
+size 17969116286

last-checkpoint/global_step1668/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fe691be817b1ffe6a0a903a49023e3beda246fd0e1c55f12a6823b1e17f8f62d
+size 17969116286

last-checkpoint/global_step1668/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2687f619fb339b920df44d65a1cc1d47ea0d98f82e0d5ce051e577e27e65d31e
+size 17969116286

last-checkpoint/global_step1668/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ac8562260fa5dfdc8e01a790eeca43f7f764dc81c095809afc85db694359ae5
+size 150693

last-checkpoint/global_step1668/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:eb6b4c3caea832181f39ba4edfb395c07cdbf869f4c1072ef33a56d7df79ed9b
+size 150693

last-checkpoint/global_step1668/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0bccdbadac1523d3d15bb0e4f78b020320345a73867e46179395984f98a6e5aa
+size 150693

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step834~~


1	+ global_step1668

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3879357e44c96aa19d78c814b3c1f8738ec9ca9e3151c7c425a061206fcac7df
 size 4938985352

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c4083b832c5b3ac41afa856bc59f661857a48c246443cc7b36e6f745363e3c8
 size 4938985352

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad466c3fa93791946d9d8337de57eaaa724508edc7d0a31873e00e191af148f4
 size 4947390880

 version https://git-lfs.github.com/spec/v1
+oid sha256:991b18df0ae50a421c4cb04ca9f64491a3078f1ed787d3e4a74c7304a16c58f1
 size 4947390880

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:519d71464886272102ea7fcaa88fc8b8b2d1385bc60f5c089d97983efe839ab7
 size 3590488816

 version https://git-lfs.github.com/spec/v1
+oid sha256:4195e7ebcf2b01a8749662c00b461a1d520705ab175f099f6e0797acbfbd5bc4
 size 3590488816

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b580656286e8a6f334aced7bdb46499a54f3bb95644a0167405da037afbd894d
 size 14768

 version https://git-lfs.github.com/spec/v1
+oid sha256:9698021f2d84167912e7be6ba48d3d2b8d6b20894f23319f36df078c03b33a64
 size 14768

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a763d1d109f11374f3725ac97283433a5c2264a51fd11d55a5af0441e79bbe2c
 size 14768

 version https://git-lfs.github.com/spec/v1
+oid sha256:90a140d1d010220b1679bf6e519f8d3d518cb57331e0e7fb30008dc00e427811
 size 14768

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5685be549346816d411abdb06552706ef94ec9c1b6cb3302d99d90f37622b797
 size 14768

 version https://git-lfs.github.com/spec/v1
+oid sha256:19aef773503e08b43c9bd940d36e298220b8d39900e7bd698b6996ac3625e59e
 size 14768

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55febb44a9d245e649a9b6071529c6f084be4339b0c0578ab70892487be29366
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd0242fe78905f8cb32fe932e8bcb70076d2384705e561f1118d71e5d750d8b4
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 834,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1283,6 +1283,1267 @@
       "eval_samples_per_second": 16.921,
       "eval_steps_per_second": 0.717,
       "step": 834
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 500,
+  "global_step": 1668,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 16.921,
       "eval_steps_per_second": 0.717,
       "step": 834
+    },
+    {
+      "epoch": 1.0071942446043165,
+      "grad_norm": 17.925966726812263,
+      "learning_rate": 3.691692581075078e-07,
+      "logits/chosen": -1.484375,
+      "logits/rejected": -1.5078125,
+      "logps/chosen": -198.0,
+      "logps/rejected": -228.0,
+      "loss": 0.3292,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -1.28125,
+      "rewards/margins": 1.6328125,
+      "rewards/rejected": -2.921875,
+      "step": 840
+    },
+    {
+      "epoch": 1.0191846522781776,
+      "grad_norm": 15.13245137359342,
+      "learning_rate": 3.6694802310084405e-07,
+      "logits/chosen": -1.4921875,
+      "logits/rejected": -1.5234375,
+      "logps/chosen": -191.0,
+      "logps/rejected": -209.0,
+      "loss": 0.2941,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -1.390625,
+      "rewards/margins": 1.390625,
+      "rewards/rejected": -2.78125,
+      "step": 850
+    },
+    {
+      "epoch": 1.0311750599520384,
+      "grad_norm": 15.85613126792236,
+      "learning_rate": 3.6472678809418033e-07,
+      "logits/chosen": -1.453125,
+      "logits/rejected": -1.453125,
+      "logps/chosen": -197.0,
+      "logps/rejected": -200.0,
+      "loss": 0.3029,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -1.28125,
+      "rewards/margins": 1.65625,
+      "rewards/rejected": -2.9375,
+      "step": 860
+    },
+    {
+      "epoch": 1.0431654676258992,
+      "grad_norm": 17.934043297524138,
+      "learning_rate": 3.625055530875166e-07,
+      "logits/chosen": -1.484375,
+      "logits/rejected": -1.4765625,
+      "logps/chosen": -201.0,
+      "logps/rejected": -217.0,
+      "loss": 0.2741,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -1.59375,
+      "rewards/margins": 1.828125,
+      "rewards/rejected": -3.421875,
+      "step": 870
+    },
+    {
+      "epoch": 1.0551558752997603,
+      "grad_norm": 12.6431049483951,
+      "learning_rate": 3.6028431808085294e-07,
+      "logits/chosen": -1.5078125,
+      "logits/rejected": -1.46875,
+      "logps/chosen": -203.0,
+      "logps/rejected": -221.0,
+      "loss": 0.2871,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -1.7890625,
+      "rewards/margins": 1.5859375,
+      "rewards/rejected": -3.375,
+      "step": 880
+    },
+    {
+      "epoch": 1.0671462829736211,
+      "grad_norm": 14.781119124887237,
+      "learning_rate": 3.5806308307418926e-07,
+      "logits/chosen": -1.5078125,
+      "logits/rejected": -1.5078125,
+      "logps/chosen": -200.0,
+      "logps/rejected": -222.0,
+      "loss": 0.2536,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -1.90625,
+      "rewards/margins": 1.828125,
+      "rewards/rejected": -3.71875,
+      "step": 890
+    },
+    {
+      "epoch": 1.079136690647482,
+      "grad_norm": 13.675786724224842,
+      "learning_rate": 3.5584184806752554e-07,
+      "logits/chosen": -1.46875,
+      "logits/rejected": -1.453125,
+      "logps/chosen": -191.0,
+      "logps/rejected": -216.0,
+      "loss": 0.2305,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -1.84375,
+      "rewards/margins": 2.03125,
+      "rewards/rejected": -3.875,
+      "step": 900
+    },
+    {
+      "epoch": 1.091127098321343,
+      "grad_norm": 15.133495835048825,
+      "learning_rate": 3.536206130608618e-07,
+      "logits/chosen": -1.4609375,
+      "logits/rejected": -1.484375,
+      "logps/chosen": -191.0,
+      "logps/rejected": -208.0,
+      "loss": 0.2446,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -1.7734375,
+      "rewards/margins": 2.015625,
+      "rewards/rejected": -3.796875,
+      "step": 910
+    },
+    {
+      "epoch": 1.1031175059952039,
+      "grad_norm": 17.223627578304455,
+      "learning_rate": 3.513993780541981e-07,
+      "logits/chosen": -1.453125,
+      "logits/rejected": -1.4921875,
+      "logps/chosen": -172.0,
+      "logps/rejected": -210.0,
+      "loss": 0.2433,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -1.796875,
+      "rewards/margins": 1.9765625,
+      "rewards/rejected": -3.765625,
+      "step": 920
+    },
+    {
+      "epoch": 1.1151079136690647,
+      "grad_norm": 12.606788377121838,
+      "learning_rate": 3.491781430475344e-07,
+      "logits/chosen": -1.5390625,
+      "logits/rejected": -1.5546875,
+      "logps/chosen": -192.0,
+      "logps/rejected": -231.0,
+      "loss": 0.2498,
+      "rewards/accuracies": 0.887499988079071,
+      "rewards/chosen": -1.78125,
+      "rewards/margins": 1.796875,
+      "rewards/rejected": -3.578125,
+      "step": 930
+    },
+    {
+      "epoch": 1.1270983213429258,
+      "grad_norm": 20.113412627019386,
+      "learning_rate": 3.469569080408707e-07,
+      "logits/chosen": -1.4453125,
+      "logits/rejected": -1.4375,
+      "logps/chosen": -185.0,
+      "logps/rejected": -204.0,
+      "loss": 0.258,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -1.5234375,
+      "rewards/margins": 2.125,
+      "rewards/rejected": -3.640625,
+      "step": 940
+    },
+    {
+      "epoch": 1.1390887290167866,
+      "grad_norm": 22.896453855913,
+      "learning_rate": 3.4473567303420703e-07,
+      "logits/chosen": -1.53125,
+      "logits/rejected": -1.515625,
+      "logps/chosen": -200.0,
+      "logps/rejected": -217.0,
+      "loss": 0.2356,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -2.0,
+      "rewards/margins": 2.09375,
+      "rewards/rejected": -4.09375,
+      "step": 950
+    },
+    {
+      "epoch": 1.1510791366906474,
+      "grad_norm": 17.597413512159072,
+      "learning_rate": 3.425144380275433e-07,
+      "logits/chosen": -1.484375,
+      "logits/rejected": -1.53125,
+      "logps/chosen": -213.0,
+      "logps/rejected": -235.0,
+      "loss": 0.2713,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -2.359375,
+      "rewards/margins": 1.8984375,
+      "rewards/rejected": -4.25,
+      "step": 960
+    },
+    {
+      "epoch": 1.1630695443645085,
+      "grad_norm": 14.323268951448473,
+      "learning_rate": 3.402932030208796e-07,
+      "logits/chosen": -1.515625,
+      "logits/rejected": -1.5,
+      "logps/chosen": -210.0,
+      "logps/rejected": -235.0,
+      "loss": 0.2388,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.40625,
+      "rewards/margins": 2.171875,
+      "rewards/rejected": -4.5625,
+      "step": 970
+    },
+    {
+      "epoch": 1.1750599520383693,
+      "grad_norm": 13.502480458522491,
+      "learning_rate": 3.380719680142159e-07,
+      "logits/chosen": -1.515625,
+      "logits/rejected": -1.546875,
+      "logps/chosen": -192.0,
+      "logps/rejected": -209.0,
+      "loss": 0.2241,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -1.6953125,
+      "rewards/margins": 2.078125,
+      "rewards/rejected": -3.765625,
+      "step": 980
+    },
+    {
+      "epoch": 1.1870503597122302,
+      "grad_norm": 12.261596643016196,
+      "learning_rate": 3.358507330075522e-07,
+      "logits/chosen": -1.5546875,
+      "logits/rejected": -1.5390625,
+      "logps/chosen": -199.0,
+      "logps/rejected": -219.0,
+      "loss": 0.2554,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -2.140625,
+      "rewards/margins": 1.953125,
+      "rewards/rejected": -4.09375,
+      "step": 990
+    },
+    {
+      "epoch": 1.1990407673860912,
+      "grad_norm": 11.618624189476918,
+      "learning_rate": 3.3362949800088847e-07,
+      "logits/chosen": -1.5078125,
+      "logits/rejected": -1.4921875,
+      "logps/chosen": -204.0,
+      "logps/rejected": -222.0,
+      "loss": 0.2051,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -1.71875,
+      "rewards/margins": 2.171875,
+      "rewards/rejected": -3.890625,
+      "step": 1000
+    },
+    {
+      "epoch": 1.211031175059952,
+      "grad_norm": 22.814769403029445,
+      "learning_rate": 3.3140826299422474e-07,
+      "logits/chosen": -1.546875,
+      "logits/rejected": -1.53125,
+      "logps/chosen": -201.0,
+      "logps/rejected": -229.0,
+      "loss": 0.2417,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -2.015625,
+      "rewards/margins": 2.25,
+      "rewards/rejected": -4.28125,
+      "step": 1010
+    },
+    {
+      "epoch": 1.223021582733813,
+      "grad_norm": 23.105005233123116,
+      "learning_rate": 3.291870279875611e-07,
+      "logits/chosen": -1.546875,
+      "logits/rejected": -1.578125,
+      "logps/chosen": -209.0,
+      "logps/rejected": -235.0,
+      "loss": 0.2123,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -2.4375,
+      "rewards/margins": 2.21875,
+      "rewards/rejected": -4.65625,
+      "step": 1020
+    },
+    {
+      "epoch": 1.235011990407674,
+      "grad_norm": 16.59163456560542,
+      "learning_rate": 3.269657929808974e-07,
+      "logits/chosen": -1.546875,
+      "logits/rejected": -1.515625,
+      "logps/chosen": -206.0,
+      "logps/rejected": -229.0,
+      "loss": 0.2316,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -2.3125,
+      "rewards/margins": 1.953125,
+      "rewards/rejected": -4.28125,
+      "step": 1030
+    },
+    {
+      "epoch": 1.2470023980815348,
+      "grad_norm": 16.97136930640841,
+      "learning_rate": 3.247445579742337e-07,
+      "logits/chosen": -1.4921875,
+      "logits/rejected": -1.4609375,
+      "logps/chosen": -196.0,
+      "logps/rejected": -228.0,
+      "loss": 0.233,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -2.640625,
+      "rewards/margins": 2.078125,
+      "rewards/rejected": -4.71875,
+      "step": 1040
+    },
+    {
+      "epoch": 1.2589928057553956,
+      "grad_norm": 11.658846274024977,
+      "learning_rate": 3.2252332296756996e-07,
+      "logits/chosen": -1.484375,
+      "logits/rejected": -1.5546875,
+      "logps/chosen": -191.0,
+      "logps/rejected": -217.0,
+      "loss": 0.2061,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -2.078125,
+      "rewards/margins": 2.265625,
+      "rewards/rejected": -4.34375,
+      "step": 1050
+    },
+    {
+      "epoch": 1.2709832134292567,
+      "grad_norm": 17.907683758231656,
+      "learning_rate": 3.2030208796090623e-07,
+      "logits/chosen": -1.5546875,
+      "logits/rejected": -1.515625,
+      "logps/chosen": -199.0,
+      "logps/rejected": -218.0,
+      "loss": 0.2564,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -2.125,
+      "rewards/margins": 2.46875,
+      "rewards/rejected": -4.59375,
+      "step": 1060
+    },
+    {
+      "epoch": 1.2829736211031175,
+      "grad_norm": 13.891330543214426,
+      "learning_rate": 3.180808529542425e-07,
+      "logits/chosen": -1.578125,
+      "logits/rejected": -1.53125,
+      "logps/chosen": -220.0,
+      "logps/rejected": -236.0,
+      "loss": 0.2253,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -2.5625,
+      "rewards/margins": 2.078125,
+      "rewards/rejected": -4.625,
+      "step": 1070
+    },
+    {
+      "epoch": 1.2949640287769784,
+      "grad_norm": 12.255143244628048,
+      "learning_rate": 3.1585961794757884e-07,
+      "logits/chosen": -1.5703125,
+      "logits/rejected": -1.5546875,
+      "logps/chosen": -213.0,
+      "logps/rejected": -220.0,
+      "loss": 0.1986,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -2.15625,
+      "rewards/margins": 2.25,
+      "rewards/rejected": -4.40625,
+      "step": 1080
+    },
+    {
+      "epoch": 1.3069544364508392,
+      "grad_norm": 16.986661579673758,
+      "learning_rate": 3.1363838294091517e-07,
+      "logits/chosen": -1.5546875,
+      "logits/rejected": -1.53125,
+      "logps/chosen": -201.0,
+      "logps/rejected": -215.0,
+      "loss": 0.1726,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -1.5078125,
+      "rewards/margins": 2.515625,
+      "rewards/rejected": -4.0,
+      "step": 1090
+    },
+    {
+      "epoch": 1.3189448441247003,
+      "grad_norm": 11.362437294228451,
+      "learning_rate": 3.1141714793425145e-07,
+      "logits/chosen": -1.5546875,
+      "logits/rejected": -1.5546875,
+      "logps/chosen": -217.0,
+      "logps/rejected": -240.0,
+      "loss": 0.1936,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.265625,
+      "rewards/margins": 2.34375,
+      "rewards/rejected": -4.625,
+      "step": 1100
+    },
+    {
+      "epoch": 1.330935251798561,
+      "grad_norm": 18.06174034251652,
+      "learning_rate": 3.091959129275877e-07,
+      "logits/chosen": -1.5,
+      "logits/rejected": -1.4921875,
+      "logps/chosen": -184.0,
+      "logps/rejected": -205.0,
+      "loss": 0.2132,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -1.78125,
+      "rewards/margins": 2.40625,
+      "rewards/rejected": -4.1875,
+      "step": 1110
+    },
+    {
+      "epoch": 1.3429256594724222,
+      "grad_norm": 21.343977198752015,
+      "learning_rate": 3.06974677920924e-07,
+      "logits/chosen": -1.5625,
+      "logits/rejected": -1.5078125,
+      "logps/chosen": -221.0,
+      "logps/rejected": -240.0,
+      "loss": 0.2055,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -2.90625,
+      "rewards/margins": 2.171875,
+      "rewards/rejected": -5.09375,
+      "step": 1120
+    },
+    {
+      "epoch": 1.354916067146283,
+      "grad_norm": 19.364261897999658,
+      "learning_rate": 3.0475344291426033e-07,
+      "logits/chosen": -1.546875,
+      "logits/rejected": -1.515625,
+      "logps/chosen": -196.0,
+      "logps/rejected": -230.0,
+      "loss": 0.1925,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.140625,
+      "rewards/margins": 2.90625,
+      "rewards/rejected": -5.03125,
+      "step": 1130
+    },
+    {
+      "epoch": 1.3669064748201438,
+      "grad_norm": 12.49182324344103,
+      "learning_rate": 3.025322079075966e-07,
+      "logits/chosen": -1.484375,
+      "logits/rejected": -1.484375,
+      "logps/chosen": -197.0,
+      "logps/rejected": -239.0,
+      "loss": 0.2206,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -2.453125,
+      "rewards/margins": 2.65625,
+      "rewards/rejected": -5.09375,
+      "step": 1140
+    },
+    {
+      "epoch": 1.3788968824940047,
+      "grad_norm": 12.604128787864076,
+      "learning_rate": 3.003109729009329e-07,
+      "logits/chosen": -1.5078125,
+      "logits/rejected": -1.5234375,
+      "logps/chosen": -197.0,
+      "logps/rejected": -235.0,
+      "loss": 0.2102,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -2.671875,
+      "rewards/margins": 2.1875,
+      "rewards/rejected": -4.875,
+      "step": 1150
+    },
+    {
+      "epoch": 1.3908872901678657,
+      "grad_norm": 16.0572765821895,
+      "learning_rate": 2.980897378942692e-07,
+      "logits/chosen": -1.5546875,
+      "logits/rejected": -1.546875,
+      "logps/chosen": -207.0,
+      "logps/rejected": -226.0,
+      "loss": 0.1899,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -2.6875,
+      "rewards/margins": 2.171875,
+      "rewards/rejected": -4.84375,
+      "step": 1160
+    },
+    {
+      "epoch": 1.4028776978417266,
+      "grad_norm": 14.62570261847443,
+      "learning_rate": 2.958685028876055e-07,
+      "logits/chosen": -1.5703125,
+      "logits/rejected": -1.546875,
+      "logps/chosen": -204.0,
+      "logps/rejected": -223.0,
+      "loss": 0.2256,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -2.1875,
+      "rewards/margins": 2.28125,
+      "rewards/rejected": -4.46875,
+      "step": 1170
+    },
+    {
+      "epoch": 1.4148681055155876,
+      "grad_norm": 16.69089195431221,
+      "learning_rate": 2.936472678809418e-07,
+      "logits/chosen": -1.5703125,
+      "logits/rejected": -1.5703125,
+      "logps/chosen": -215.0,
+      "logps/rejected": -234.0,
+      "loss": 0.2164,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -2.625,
+      "rewards/margins": 2.265625,
+      "rewards/rejected": -4.90625,
+      "step": 1180
+    },
+    {
+      "epoch": 1.4268585131894485,
+      "grad_norm": 14.208012618540776,
+      "learning_rate": 2.914260328742781e-07,
+      "logits/chosen": -1.5625,
+      "logits/rejected": -1.546875,
+      "logps/chosen": -206.0,
+      "logps/rejected": -226.0,
+      "loss": 0.1728,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.90625,
+      "rewards/margins": 2.21875,
+      "rewards/rejected": -5.125,
+      "step": 1190
+    },
+    {
+      "epoch": 1.4388489208633093,
+      "grad_norm": 19.814051144030756,
+      "learning_rate": 2.8920479786761437e-07,
+      "logits/chosen": -1.59375,
+      "logits/rejected": -1.59375,
+      "logps/chosen": -206.0,
+      "logps/rejected": -232.0,
+      "loss": 0.2096,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -2.484375,
+      "rewards/margins": 2.40625,
+      "rewards/rejected": -4.875,
+      "step": 1200
+    },
+    {
+      "epoch": 1.4508393285371701,
+      "grad_norm": 16.967462896165113,
+      "learning_rate": 2.8698356286095065e-07,
+      "logits/chosen": -1.59375,
+      "logits/rejected": -1.5703125,
+      "logps/chosen": -220.0,
+      "logps/rejected": -239.0,
+      "loss": 0.1481,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.5625,
+      "rewards/margins": 2.796875,
+      "rewards/rejected": -5.34375,
+      "step": 1210
+    },
+    {
+      "epoch": 1.4628297362110312,
+      "grad_norm": 15.206385611452236,
+      "learning_rate": 2.847623278542869e-07,
+      "logits/chosen": -1.609375,
+      "logits/rejected": -1.609375,
+      "logps/chosen": -208.0,
+      "logps/rejected": -229.0,
+      "loss": 0.1846,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -2.5625,
+      "rewards/margins": 2.375,
+      "rewards/rejected": -4.9375,
+      "step": 1220
+    },
+    {
+      "epoch": 1.474820143884892,
+      "grad_norm": 17.869462519073895,
+      "learning_rate": 2.825410928476233e-07,
+      "logits/chosen": -1.515625,
+      "logits/rejected": -1.53125,
+      "logps/chosen": -187.0,
+      "logps/rejected": -229.0,
+      "loss": 0.1821,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -2.703125,
+      "rewards/margins": 2.578125,
+      "rewards/rejected": -5.28125,
+      "step": 1230
+    },
+    {
+      "epoch": 1.486810551558753,
+      "grad_norm": 11.533712996176597,
+      "learning_rate": 2.803198578409596e-07,
+      "logits/chosen": -1.609375,
+      "logits/rejected": -1.5625,
+      "logps/chosen": -204.0,
+      "logps/rejected": -228.0,
+      "loss": 0.2133,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -2.703125,
+      "rewards/margins": 2.515625,
+      "rewards/rejected": -5.21875,
+      "step": 1240
+    },
+    {
+      "epoch": 1.498800959232614,
+      "grad_norm": 11.144943270392623,
+      "learning_rate": 2.7809862283429586e-07,
+      "logits/chosen": -1.5859375,
+      "logits/rejected": -1.5703125,
+      "logps/chosen": -193.0,
+      "logps/rejected": -239.0,
+      "loss": 0.1494,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.3125,
+      "rewards/margins": 3.078125,
+      "rewards/rejected": -5.375,
+      "step": 1250
+    },
+    {
+      "epoch": 1.5107913669064748,
+      "grad_norm": 15.93725977415015,
+      "learning_rate": 2.7587738782763214e-07,
+      "logits/chosen": -1.5625,
+      "logits/rejected": -1.59375,
+      "logps/chosen": -196.0,
+      "logps/rejected": -236.0,
+      "loss": 0.204,
+      "rewards/accuracies": 0.8999999761581421,
+      "rewards/chosen": -3.53125,
+      "rewards/margins": 2.546875,
+      "rewards/rejected": -6.0625,
+      "step": 1260
+    },
+    {
+      "epoch": 1.5227817745803356,
+      "grad_norm": 23.59190890231536,
+      "learning_rate": 2.736561528209684e-07,
+      "logits/chosen": -1.640625,
+      "logits/rejected": -1.640625,
+      "logps/chosen": -210.0,
+      "logps/rejected": -244.0,
+      "loss": 0.1853,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -3.09375,
+      "rewards/margins": 2.625,
+      "rewards/rejected": -5.71875,
+      "step": 1270
+    },
+    {
+      "epoch": 1.5347721822541966,
+      "grad_norm": 22.364117581141223,
+      "learning_rate": 2.7143491781430474e-07,
+      "logits/chosen": -1.5078125,
+      "logits/rejected": -1.5390625,
+      "logps/chosen": -189.0,
+      "logps/rejected": -229.0,
+      "loss": 0.1952,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -2.78125,
+      "rewards/margins": 2.296875,
+      "rewards/rejected": -5.09375,
+      "step": 1280
+    },
+    {
+      "epoch": 1.5467625899280577,
+      "grad_norm": 11.715030229741336,
+      "learning_rate": 2.692136828076411e-07,
+      "logits/chosen": -1.578125,
+      "logits/rejected": -1.5546875,
+      "logps/chosen": -210.0,
+      "logps/rejected": -234.0,
+      "loss": 0.1717,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.96875,
+      "rewards/margins": 2.609375,
+      "rewards/rejected": -5.5625,
+      "step": 1290
+    },
+    {
+      "epoch": 1.5587529976019185,
+      "grad_norm": 16.74676425409118,
+      "learning_rate": 2.6699244780097735e-07,
+      "logits/chosen": -1.609375,
+      "logits/rejected": -1.59375,
+      "logps/chosen": -206.0,
+      "logps/rejected": -231.0,
+      "loss": 0.1883,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -2.875,
+      "rewards/margins": 2.515625,
+      "rewards/rejected": -5.375,
+      "step": 1300
+    },
+    {
+      "epoch": 1.5707434052757794,
+      "grad_norm": 16.31256275621072,
+      "learning_rate": 2.6477121279431363e-07,
+      "logits/chosen": -1.59375,
+      "logits/rejected": -1.5859375,
+      "logps/chosen": -194.0,
+      "logps/rejected": -226.0,
+      "loss": 0.2258,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -2.5,
+      "rewards/margins": 2.4375,
+      "rewards/rejected": -4.9375,
+      "step": 1310
+    },
+    {
+      "epoch": 1.5827338129496402,
+      "grad_norm": 15.174270462866287,
+      "learning_rate": 2.625499777876499e-07,
+      "logits/chosen": -1.59375,
+      "logits/rejected": -1.5703125,
+      "logps/chosen": -204.0,
+      "logps/rejected": -229.0,
+      "loss": 0.1577,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -3.375,
+      "rewards/margins": 2.421875,
+      "rewards/rejected": -5.78125,
+      "step": 1320
+    },
+    {
+      "epoch": 1.594724220623501,
+      "grad_norm": 20.949271053556263,
+      "learning_rate": 2.6032874278098623e-07,
+      "logits/chosen": -1.625,
+      "logits/rejected": -1.53125,
+      "logps/chosen": -218.0,
+      "logps/rejected": -234.0,
+      "loss": 0.1542,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.46875,
+      "rewards/margins": 3.078125,
+      "rewards/rejected": -5.5625,
+      "step": 1330
+    },
+    {
+      "epoch": 1.6067146282973621,
+      "grad_norm": 21.582166006491406,
+      "learning_rate": 2.581075077743225e-07,
+      "logits/chosen": -1.5625,
+      "logits/rejected": -1.484375,
+      "logps/chosen": -215.0,
+      "logps/rejected": -231.0,
+      "loss": 0.1642,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -3.0625,
+      "rewards/margins": 2.703125,
+      "rewards/rejected": -5.75,
+      "step": 1340
+    },
+    {
+      "epoch": 1.6187050359712232,
+      "grad_norm": 12.490052192808845,
+      "learning_rate": 2.558862727676588e-07,
+      "logits/chosen": -1.625,
+      "logits/rejected": -1.546875,
+      "logps/chosen": -211.0,
+      "logps/rejected": -227.0,
+      "loss": 0.1549,
+      "rewards/accuracies": 1.0,
+      "rewards/chosen": -2.71875,
+      "rewards/margins": 2.921875,
+      "rewards/rejected": -5.625,
+      "step": 1350
+    },
+    {
+      "epoch": 1.630695443645084,
+      "grad_norm": 14.27659020234575,
+      "learning_rate": 2.536650377609951e-07,
+      "logits/chosen": -1.6484375,
+      "logits/rejected": -1.625,
+      "logps/chosen": -208.0,
+      "logps/rejected": -230.0,
+      "loss": 0.1123,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.515625,
+      "rewards/margins": 3.0625,
+      "rewards/rejected": -5.5625,
+      "step": 1360
+    },
+    {
+      "epoch": 1.6426858513189448,
+      "grad_norm": 14.433767508436462,
+      "learning_rate": 2.514438027543314e-07,
+      "logits/chosen": -1.6015625,
+      "logits/rejected": -1.5625,
+      "logps/chosen": -206.0,
+      "logps/rejected": -235.0,
+      "loss": 0.1312,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.359375,
+      "rewards/margins": 3.359375,
+      "rewards/rejected": -5.71875,
+      "step": 1370
+    },
+    {
+      "epoch": 1.6546762589928057,
+      "grad_norm": 13.424589730956683,
+      "learning_rate": 2.492225677476677e-07,
+      "logits/chosen": -1.609375,
+      "logits/rejected": -1.6171875,
+      "logps/chosen": -198.0,
+      "logps/rejected": -242.0,
+      "loss": 0.1744,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -2.609375,
+      "rewards/margins": 2.71875,
+      "rewards/rejected": -5.34375,
+      "step": 1380
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 23.17900601362576,
+      "learning_rate": 2.47001332741004e-07,
+      "logits/chosen": -1.625,
+      "logits/rejected": -1.5703125,
+      "logps/chosen": -203.0,
+      "logps/rejected": -217.0,
+      "loss": 0.1801,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -2.109375,
+      "rewards/margins": 2.8125,
+      "rewards/rejected": -4.90625,
+      "step": 1390
+    },
+    {
+      "epoch": 1.6786570743405276,
+      "grad_norm": 15.035036612326222,
+      "learning_rate": 2.447800977343403e-07,
+      "logits/chosen": -1.5859375,
+      "logits/rejected": -1.5625,
+      "logps/chosen": -195.0,
+      "logps/rejected": -226.0,
+      "loss": 0.1659,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -2.78125,
+      "rewards/margins": 2.796875,
+      "rewards/rejected": -5.5625,
+      "step": 1400
+    },
+    {
+      "epoch": 1.6906474820143886,
+      "grad_norm": 23.256101786444912,
+      "learning_rate": 2.425588627276766e-07,
+      "logits/chosen": -1.59375,
+      "logits/rejected": -1.5859375,
+      "logps/chosen": -199.0,
+      "logps/rejected": -238.0,
+      "loss": 0.15,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.734375,
+      "rewards/margins": 3.140625,
+      "rewards/rejected": -5.875,
+      "step": 1410
+    },
+    {
+      "epoch": 1.7026378896882495,
+      "grad_norm": 16.44114210272047,
+      "learning_rate": 2.403376277210129e-07,
+      "logits/chosen": -1.5859375,
+      "logits/rejected": -1.578125,
+      "logps/chosen": -207.0,
+      "logps/rejected": -242.0,
+      "loss": 0.1413,
+      "rewards/accuracies": 0.925000011920929,
+      "rewards/chosen": -3.265625,
+      "rewards/margins": 2.890625,
+      "rewards/rejected": -6.125,
+      "step": 1420
+    },
+    {
+      "epoch": 1.7146282973621103,
+      "grad_norm": 19.104299358854444,
+      "learning_rate": 2.3811639271434916e-07,
+      "logits/chosen": -1.65625,
+      "logits/rejected": -1.5390625,
+      "logps/chosen": -216.0,
+      "logps/rejected": -240.0,
+      "loss": 0.1638,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -3.265625,
+      "rewards/margins": 2.875,
+      "rewards/rejected": -6.15625,
+      "step": 1430
+    },
+    {
+      "epoch": 1.7266187050359711,
+      "grad_norm": 8.57838400028329,
+      "learning_rate": 2.3589515770768546e-07,
+      "logits/chosen": -1.59375,
+      "logits/rejected": -1.5546875,
+      "logps/chosen": -221.0,
+      "logps/rejected": -236.0,
+      "loss": 0.1491,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -3.09375,
+      "rewards/margins": 2.875,
+      "rewards/rejected": -5.96875,
+      "step": 1440
+    },
+    {
+      "epoch": 1.738609112709832,
+      "grad_norm": 12.545882511992975,
+      "learning_rate": 2.3367392270102177e-07,
+      "logits/chosen": -1.6328125,
+      "logits/rejected": -1.6171875,
+      "logps/chosen": -200.0,
+      "logps/rejected": -252.0,
+      "loss": 0.1236,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.328125,
+      "rewards/margins": 3.359375,
+      "rewards/rejected": -5.6875,
+      "step": 1450
+    },
+    {
+      "epoch": 1.750599520383693,
+      "grad_norm": 16.11932503670354,
+      "learning_rate": 2.3145268769435804e-07,
+      "logits/chosen": -1.6328125,
+      "logits/rejected": -1.578125,
+      "logps/chosen": -214.0,
+      "logps/rejected": -242.0,
+      "loss": 0.1705,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -3.078125,
+      "rewards/margins": 3.125,
+      "rewards/rejected": -6.21875,
+      "step": 1460
+    },
+    {
+      "epoch": 1.762589928057554,
+      "grad_norm": 19.767212861451107,
+      "learning_rate": 2.2923145268769435e-07,
+      "logits/chosen": -1.65625,
+      "logits/rejected": -1.6171875,
+      "logps/chosen": -197.0,
+      "logps/rejected": -232.0,
+      "loss": 0.1243,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.96875,
+      "rewards/margins": 3.59375,
+      "rewards/rejected": -6.5625,
+      "step": 1470
+    },
+    {
+      "epoch": 1.774580335731415,
+      "grad_norm": 17.770676013426908,
+      "learning_rate": 2.2701021768103065e-07,
+      "logits/chosen": -1.609375,
+      "logits/rejected": -1.5859375,
+      "logps/chosen": -212.0,
+      "logps/rejected": -244.0,
+      "loss": 0.162,
+      "rewards/accuracies": 0.9125000238418579,
+      "rewards/chosen": -3.5,
+      "rewards/margins": 3.0625,
+      "rewards/rejected": -6.5625,
+      "step": 1480
+    },
+    {
+      "epoch": 1.7865707434052758,
+      "grad_norm": 9.354271003661482,
+      "learning_rate": 2.2478898267436695e-07,
+      "logits/chosen": -1.6328125,
+      "logits/rejected": -1.6328125,
+      "logps/chosen": -207.0,
+      "logps/rejected": -245.0,
+      "loss": 0.1463,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -3.421875,
+      "rewards/margins": 3.109375,
+      "rewards/rejected": -6.53125,
+      "step": 1490
+    },
+    {
+      "epoch": 1.7985611510791366,
+      "grad_norm": 16.23301041511246,
+      "learning_rate": 2.2256774766770323e-07,
+      "logits/chosen": -1.5859375,
+      "logits/rejected": -1.53125,
+      "logps/chosen": -205.0,
+      "logps/rejected": -218.0,
+      "loss": 0.147,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -3.046875,
+      "rewards/margins": 3.0625,
+      "rewards/rejected": -6.125,
+      "step": 1500
+    },
+    {
+      "epoch": 1.8105515587529974,
+      "grad_norm": 10.88674570833714,
+      "learning_rate": 2.2034651266103953e-07,
+      "logits/chosen": -1.59375,
+      "logits/rejected": -1.5546875,
+      "logps/chosen": -186.0,
+      "logps/rejected": -227.0,
+      "loss": 0.1292,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -2.734375,
+      "rewards/margins": 3.109375,
+      "rewards/rejected": -5.84375,
+      "step": 1510
+    },
+    {
+      "epoch": 1.8225419664268585,
+      "grad_norm": 11.649861361880111,
+      "learning_rate": 2.1812527765437583e-07,
+      "logits/chosen": -1.6328125,
+      "logits/rejected": -1.578125,
+      "logps/chosen": -211.0,
+      "logps/rejected": -235.0,
+      "loss": 0.1467,
+      "rewards/accuracies": 0.9624999761581421,
+      "rewards/chosen": -2.5,
+      "rewards/margins": 3.046875,
+      "rewards/rejected": -5.5625,
+      "step": 1520
+    },
+    {
+      "epoch": 1.8345323741007196,
+      "grad_norm": 17.611539910897193,
+      "learning_rate": 2.159040426477121e-07,
+      "logits/chosen": -1.640625,
+      "logits/rejected": -1.625,
+      "logps/chosen": -216.0,
+      "logps/rejected": -258.0,
+      "loss": 0.1337,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -3.546875,
+      "rewards/margins": 3.0625,
+      "rewards/rejected": -6.59375,
+      "step": 1530
+    },
+    {
+      "epoch": 1.8465227817745804,
+      "grad_norm": 20.32024320505495,
+      "learning_rate": 2.1368280764104841e-07,
+      "logits/chosen": -1.640625,
+      "logits/rejected": -1.6015625,
+      "logps/chosen": -210.0,
+      "logps/rejected": -262.0,
+      "loss": 0.1444,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -3.59375,
+      "rewards/margins": 3.421875,
+      "rewards/rejected": -7.0,
+      "step": 1540
+    },
+    {
+      "epoch": 1.8585131894484412,
+      "grad_norm": 10.61654419093803,
+      "learning_rate": 2.1146157263438472e-07,
+      "logits/chosen": -1.59375,
+      "logits/rejected": -1.609375,
+      "logps/chosen": -208.0,
+      "logps/rejected": -241.0,
+      "loss": 0.1117,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -3.140625,
+      "rewards/margins": 3.390625,
+      "rewards/rejected": -6.53125,
+      "step": 1550
+    },
+    {
+      "epoch": 1.870503597122302,
+      "grad_norm": 15.023137073497749,
+      "learning_rate": 2.09240337627721e-07,
+      "logits/chosen": -1.6640625,
+      "logits/rejected": -1.59375,
+      "logps/chosen": -216.0,
+      "logps/rejected": -225.0,
+      "loss": 0.1284,
+      "rewards/accuracies": 0.9375,
+      "rewards/chosen": -3.40625,
+      "rewards/margins": 2.96875,
+      "rewards/rejected": -6.375,
+      "step": 1560
+    },
+    {
+      "epoch": 1.882494004796163,
+      "grad_norm": 23.48973810623808,
+      "learning_rate": 2.070191026210573e-07,
+      "logits/chosen": -1.5703125,
+      "logits/rejected": -1.6015625,
+      "logps/chosen": -214.0,
+      "logps/rejected": -239.0,
+      "loss": 0.1468,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -2.953125,
+      "rewards/margins": 2.96875,
+      "rewards/rejected": -5.9375,
+      "step": 1570
+    },
+    {
+      "epoch": 1.894484412470024,
+      "grad_norm": 9.16497112579326,
+      "learning_rate": 2.047978676143936e-07,
+      "logits/chosen": -1.625,
+      "logits/rejected": -1.578125,
+      "logps/chosen": -220.0,
+      "logps/rejected": -242.0,
+      "loss": 0.1041,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.84375,
+      "rewards/margins": 3.453125,
+      "rewards/rejected": -6.28125,
+      "step": 1580
+    },
+    {
+      "epoch": 1.906474820143885,
+      "grad_norm": 11.983080775973534,
+      "learning_rate": 2.025766326077299e-07,
+      "logits/chosen": -1.640625,
+      "logits/rejected": -1.609375,
+      "logps/chosen": -207.0,
+      "logps/rejected": -248.0,
+      "loss": 0.1184,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.984375,
+      "rewards/margins": 3.28125,
+      "rewards/rejected": -6.25,
+      "step": 1590
+    },
+    {
+      "epoch": 1.9184652278177459,
+      "grad_norm": 20.978396501783582,
+      "learning_rate": 2.0035539760106618e-07,
+      "logits/chosen": -1.625,
+      "logits/rejected": -1.6328125,
+      "logps/chosen": -212.0,
+      "logps/rejected": -256.0,
+      "loss": 0.1042,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.859375,
+      "rewards/margins": 3.53125,
+      "rewards/rejected": -6.40625,
+      "step": 1600
+    },
+    {
+      "epoch": 1.9304556354916067,
+      "grad_norm": 9.307796901849636,
+      "learning_rate": 1.9813416259440246e-07,
+      "logits/chosen": -1.625,
+      "logits/rejected": -1.6015625,
+      "logps/chosen": -209.0,
+      "logps/rejected": -233.0,
+      "loss": 0.1347,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -3.171875,
+      "rewards/margins": 2.984375,
+      "rewards/rejected": -6.15625,
+      "step": 1610
+    },
+    {
+      "epoch": 1.9424460431654675,
+      "grad_norm": 22.24759097187433,
+      "learning_rate": 1.9591292758773879e-07,
+      "logits/chosen": -1.625,
+      "logits/rejected": -1.6015625,
+      "logps/chosen": -196.0,
+      "logps/rejected": -251.0,
+      "loss": 0.1543,
+      "rewards/accuracies": 0.949999988079071,
+      "rewards/chosen": -2.765625,
+      "rewards/margins": 3.640625,
+      "rewards/rejected": -6.40625,
+      "step": 1620
+    },
+    {
+      "epoch": 1.9544364508393284,
+      "grad_norm": 22.879947315900267,
+      "learning_rate": 1.9369169258107506e-07,
+      "logits/chosen": -1.6328125,
+      "logits/rejected": -1.5703125,
+      "logps/chosen": -214.0,
+      "logps/rejected": -239.0,
+      "loss": 0.1174,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.84375,
+      "rewards/margins": 3.359375,
+      "rewards/rejected": -6.21875,
+      "step": 1630
+    },
+    {
+      "epoch": 1.9664268585131894,
+      "grad_norm": 10.630808616318225,
+      "learning_rate": 1.9147045757441137e-07,
+      "logits/chosen": -1.6328125,
+      "logits/rejected": -1.609375,
+      "logps/chosen": -205.0,
+      "logps/rejected": -249.0,
+      "loss": 0.113,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -3.6875,
+      "rewards/margins": 3.140625,
+      "rewards/rejected": -6.8125,
+      "step": 1640
+    },
+    {
+      "epoch": 1.9784172661870505,
+      "grad_norm": 20.455023304923063,
+      "learning_rate": 1.8924922256774767e-07,
+      "logits/chosen": -1.5625,
+      "logits/rejected": -1.484375,
+      "logps/chosen": -214.0,
+      "logps/rejected": -230.0,
+      "loss": 0.133,
+      "rewards/accuracies": 0.9750000238418579,
+      "rewards/chosen": -3.46875,
+      "rewards/margins": 2.84375,
+      "rewards/rejected": -6.3125,
+      "step": 1650
+    },
+    {
+      "epoch": 1.9904076738609113,
+      "grad_norm": 12.942728073820737,
+      "learning_rate": 1.8702798756108395e-07,
+      "logits/chosen": -1.65625,
+      "logits/rejected": -1.578125,
+      "logps/chosen": -216.0,
+      "logps/rejected": -234.0,
+      "loss": 0.1466,
+      "rewards/accuracies": 0.987500011920929,
+      "rewards/chosen": -2.71875,
+      "rewards/margins": 3.078125,
+      "rewards/rejected": -5.78125,
+      "step": 1660
+    },
+    {
+      "epoch": 2.0,
+      "eval_logits/chosen": -1.6484375,
+      "eval_logits/rejected": -1.6640625,
+      "eval_logps/chosen": -219.0,
+      "eval_logps/rejected": -228.0,
+      "eval_loss": 0.7706417441368103,
+      "eval_rewards/accuracies": 0.6397058963775635,
+      "eval_rewards/chosen": -4.15625,
+      "eval_rewards/margins": 1.03125,
+      "eval_rewards/rejected": -5.1875,
+      "eval_runtime": 23.2393,
+      "eval_samples_per_second": 17.255,
+      "eval_steps_per_second": 0.732,
+      "step": 1668
     }
   ],
   "logging_steps": 10,