AmberYifan commited on Nov 2, 2024

Commit

e511e34

verified ·

1 Parent(s): 69c533f

Training in progress, step 558, checkpoint

Browse files

Files changed (18) hide show

last-checkpoint/global_step558/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step558/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step558/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step558/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step558/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step558/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step558/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step558/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +214 -2

last-checkpoint/global_step558/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4b677f36c4dbba1597865689e743500347cf501cc6219466ae215b6987e26c4a
+size 13476835648

last-checkpoint/global_step558/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3fd0ebda0c87e79dc3722e97a2df83ca342944de2a92d4bc676479aecc3b820d
+size 13476835648

last-checkpoint/global_step558/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4f9907c8908adefd6616ebf28806c3565f695ec1ecb08061a9d4d09788bf909d
+size 13476835648

last-checkpoint/global_step558/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d5f08ee6a4a2fed19229106f2679c8a3cb7920a4ac82776a9eb8c61e74ef154a
+size 13476835648

last-checkpoint/global_step558/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f4197fab2e1b6c27eb80b4a12b9a89a88edef0d3b3bc4098bec66af56ce12175
+size 150693

last-checkpoint/global_step558/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:78b498011d22d6099b99f0e237cd72ed3cc9140d37841de3cb31cf16841ffd25
+size 150693

last-checkpoint/global_step558/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6f4e0cdbc12c565dcf5572f41f7bcd3101a01a4f373e5c67c204ba7126453f93
+size 150693

last-checkpoint/global_step558/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:305d0a1a20b6d3b7dde4970a8b61cc22630f0e88cc5cba0ed422e6061840955a
+size 150693

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step434~~


1	+ global_step558

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a15bbb67da4b68beaed8d1f1dd43168748b208cf17aaf6f45a7686e7c1edbd9b
 size 4938985352

 version https://git-lfs.github.com/spec/v1
+oid sha256:f57988b40ea7809dc08638e5caf7cc644808696ba431653d54751fa8e2ee7bef
 size 4938985352

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83c88deee3881a332b37ac27498efc573e8a8ef204fcce2dd84ce5b85ecd6313
 size 4947390880

 version https://git-lfs.github.com/spec/v1
+oid sha256:9637b70c600dc8d9de7c223cc42a2f547cec4117ec96d7971ad9596f125f6d4b
 size 4947390880

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eb90a353cf0905ea79815177f94ace740d874bfb168850d0808801067ab6b160
 size 3590488816

 version https://git-lfs.github.com/spec/v1
+oid sha256:57ab4e25910ea5f9e07b0b0aa8590e1bbbeec9b69fd598de221f66b43383d7c9
 size 3590488816

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fe3f96a2fff0ebd8dbcc2b4789c9dd47a218358381d8dc0c22453d73cc18c13a
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb3d4793d6c7fda650513b6f3d24fe7afd643475a576b0104a85cb659ed441d3
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03c2e37b3b994a43a2c3a96dca7647061b052e8930abe99d16ea118bb9a4e2bc
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:e44567105884943a8351ea71e9a71011cceee34a8f2a067be69948ea21390f49
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd2fb470636af306fe33bfa071a70c5e89bbc147a17ff3351e6d952861610b64
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c3a6f11c1c82a313f717b58d29d20267d0bfc621c79116ac6f752e0c1ba1f50
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:42f403a555728d319355f2901e7ccab38b27c2ffdef1825aa77e363c48d96a77
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:aaa97839e10563397740560600a86ccaf5a6fe1e5f41084453cab0f732a05570
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:765f176539e61f4c6bc8f2ad5d717ae2c3e0b0b105343abdeb194f4ded8a8b9b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:177a5448d699047d35d72636914adc373df5f511600959de3a1ed1ce15a52556
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.3888,
   "eval_steps": 62,
-  "global_step": 434,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -779,6 +779,218 @@
       "eval_samples_per_second": 7.784,
       "eval_steps_per_second": 0.506,
       "step": 434
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.7856,
   "eval_steps": 62,
+  "global_step": 558,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 7.784,
       "eval_steps_per_second": 0.506,
       "step": 434
+    },
+    {
+      "epoch": 1.408,
+      "grad_norm": 0.35037689567096764,
+      "learning_rate": 2.9453681710213776e-07,
+      "logits/generated": -0.8212960362434387,
+      "logits/real": -1.3137534856796265,
+      "logps/generated": -355.6631774902344,
+      "logps/real": -114.98287200927734,
+      "loss": 0.1095,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -6.6356201171875,
+      "rewards/margins": 16.64114761352539,
+      "rewards/real": 10.00552749633789,
+      "step": 440
+    },
+    {
+      "epoch": 1.44,
+      "grad_norm": 0.36349550750442733,
+      "learning_rate": 2.885985748218527e-07,
+      "logits/generated": -0.8298400044441223,
+      "logits/real": -1.2980700731277466,
+      "logps/generated": -342.68341064453125,
+      "logps/real": -89.83566284179688,
+      "loss": 0.1046,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -6.842597961425781,
+      "rewards/margins": 15.478503227233887,
+      "rewards/real": 8.635905265808105,
+      "step": 450
+    },
+    {
+      "epoch": 1.472,
+      "grad_norm": 0.37277388095763225,
+      "learning_rate": 2.8266033254156767e-07,
+      "logits/generated": -0.891290009021759,
+      "logits/real": -1.394723653793335,
+      "logps/generated": -341.93218994140625,
+      "logps/real": -103.62208557128906,
+      "loss": 0.1079,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -6.340664863586426,
+      "rewards/margins": 15.834001541137695,
+      "rewards/real": 9.493334770202637,
+      "step": 460
+    },
+    {
+      "epoch": 1.504,
+      "grad_norm": 0.3303199018618516,
+      "learning_rate": 2.7672209026128263e-07,
+      "logits/generated": -0.8582679629325867,
+      "logits/real": -1.4615408182144165,
+      "logps/generated": -349.00909423828125,
+      "logps/real": -104.46484375,
+      "loss": 0.0966,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -6.171267986297607,
+      "rewards/margins": 16.01020622253418,
+      "rewards/real": 9.838939666748047,
+      "step": 470
+    },
+    {
+      "epoch": 1.536,
+      "grad_norm": 0.3813272818464241,
+      "learning_rate": 2.7078384798099764e-07,
+      "logits/generated": -0.8334212303161621,
+      "logits/real": -1.4117028713226318,
+      "logps/generated": -349.4712829589844,
+      "logps/real": -107.6310806274414,
+      "loss": 0.1069,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -6.388515472412109,
+      "rewards/margins": 16.422515869140625,
+      "rewards/real": 10.034002304077148,
+      "step": 480
+    },
+    {
+      "epoch": 1.568,
+      "grad_norm": 0.3427218965024406,
+      "learning_rate": 2.648456057007126e-07,
+      "logits/generated": -0.8402020335197449,
+      "logits/real": -1.3591063022613525,
+      "logps/generated": -349.86529541015625,
+      "logps/real": -102.61138916015625,
+      "loss": 0.1038,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -6.4038848876953125,
+      "rewards/margins": 16.043880462646484,
+      "rewards/real": 9.639993667602539,
+      "step": 490
+    },
+    {
+      "epoch": 1.5872000000000002,
+      "eval_logits/generated": -0.8754745125770569,
+      "eval_logits/real": -1.3614826202392578,
+      "eval_logps/generated": -352.7068786621094,
+      "eval_logps/real": -106.12812042236328,
+      "eval_loss": 0.10832550376653671,
+      "eval_rewards/accuracies": 1.0,
+      "eval_rewards/generated": -7.003779888153076,
+      "eval_rewards/margins": 17.076799392700195,
+      "eval_rewards/real": 10.07302188873291,
+      "eval_runtime": 33.3124,
+      "eval_samples_per_second": 6.004,
+      "eval_steps_per_second": 0.39,
+      "step": 496
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 0.38914741214890197,
+      "learning_rate": 2.589073634204275e-07,
+      "logits/generated": -0.8448807597160339,
+      "logits/real": -1.3226372003555298,
+      "logps/generated": -351.1488037109375,
+      "logps/real": -107.77713775634766,
+      "loss": 0.1085,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -6.437747955322266,
+      "rewards/margins": 16.31161117553711,
+      "rewards/real": 9.87386417388916,
+      "step": 500
+    },
+    {
+      "epoch": 1.6320000000000001,
+      "grad_norm": 0.3937890384115947,
+      "learning_rate": 2.529691211401425e-07,
+      "logits/generated": -0.8879863619804382,
+      "logits/real": -1.3836486339569092,
+      "logps/generated": -340.003662109375,
+      "logps/real": -106.28749084472656,
+      "loss": 0.1051,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -6.393700122833252,
+      "rewards/margins": 16.35400390625,
+      "rewards/real": 9.960305213928223,
+      "step": 510
+    },
+    {
+      "epoch": 1.6640000000000001,
+      "grad_norm": 0.38541180062987296,
+      "learning_rate": 2.4703087885985747e-07,
+      "logits/generated": -0.8842099905014038,
+      "logits/real": -1.3454530239105225,
+      "logps/generated": -357.91693115234375,
+      "logps/real": -115.9624252319336,
+      "loss": 0.1108,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -7.042295932769775,
+      "rewards/margins": 17.503582000732422,
+      "rewards/real": 10.461287498474121,
+      "step": 520
+    },
+    {
+      "epoch": 1.696,
+      "grad_norm": 0.3409231189845364,
+      "learning_rate": 2.410926365795724e-07,
+      "logits/generated": -0.8585386276245117,
+      "logits/real": -1.3780685663223267,
+      "logps/generated": -352.55780029296875,
+      "logps/real": -104.75419616699219,
+      "loss": 0.1091,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -6.910445213317871,
+      "rewards/margins": 16.95829963684082,
+      "rewards/real": 10.047855377197266,
+      "step": 530
+    },
+    {
+      "epoch": 1.728,
+      "grad_norm": 0.36170229656289943,
+      "learning_rate": 2.351543942992874e-07,
+      "logits/generated": -0.8263759613037109,
+      "logits/real": -1.477992057800293,
+      "logps/generated": -342.4795227050781,
+      "logps/real": -107.40743255615234,
+      "loss": 0.1066,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -6.372612953186035,
+      "rewards/margins": 16.573341369628906,
+      "rewards/real": 10.200728416442871,
+      "step": 540
+    },
+    {
+      "epoch": 1.76,
+      "grad_norm": 0.3413340610553401,
+      "learning_rate": 2.2921615201900234e-07,
+      "logits/generated": -0.8356834650039673,
+      "logits/real": -1.391550898551941,
+      "logps/generated": -350.9759521484375,
+      "logps/real": -100.52735137939453,
+      "loss": 0.0996,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -6.971991539001465,
+      "rewards/margins": 16.87733268737793,
+      "rewards/real": 9.905343055725098,
+      "step": 550
+    },
+    {
+      "epoch": 1.7856,
+      "eval_logits/generated": -0.8467180728912354,
+      "eval_logits/real": -1.3430825471878052,
+      "eval_logps/generated": -352.8455810546875,
+      "eval_logps/real": -105.63909149169922,
+      "eval_loss": 0.10793981701135635,
+      "eval_rewards/accuracies": 1.0,
+      "eval_rewards/generated": -7.0176496505737305,
+      "eval_rewards/margins": 17.139570236206055,
+      "eval_rewards/real": 10.121922492980957,
+      "eval_runtime": 26.3578,
+      "eval_samples_per_second": 7.588,
+      "eval_steps_per_second": 0.493,
+      "step": 558
     }
   ],
   "logging_steps": 10,