AmberYifan commited on Nov 2, 2024

Commit

83ecac9

verified ·

1 Parent(s): 2517482

Training in progress, step 434, checkpoint

Browse files

Files changed (18) hide show

last-checkpoint/global_step434/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step434/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step434/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step434/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt +3 -0
last-checkpoint/global_step434/zero_pp_rank_0_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step434/zero_pp_rank_1_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step434/zero_pp_rank_2_mp_rank_00_model_states.pt +3 -0
last-checkpoint/global_step434/zero_pp_rank_3_mp_rank_00_model_states.pt +3 -0
last-checkpoint/latest +1 -1
last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +214 -2

last-checkpoint/global_step434/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4d44d1d0c35af51487b3cd1bc18f6d735de17786eb0a9387a08df55aa918e062
+size 13476835648

last-checkpoint/global_step434/bf16_zero_pp_rank_1_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:44ed82266ea6c62e3b2abeb15f6c726308f5858bd444d753435695d35af6b66d
+size 13476835648

last-checkpoint/global_step434/bf16_zero_pp_rank_2_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:53438a552937f6ed18455d29745dfcbe301d674e0e05181f9f6fc92febe2c20d
+size 13476835648

last-checkpoint/global_step434/bf16_zero_pp_rank_3_mp_rank_00_optim_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c3ca81f745957762ea10705954cc29176be581d014eeb85848a6759c057d7611
+size 13476835648

last-checkpoint/global_step434/zero_pp_rank_0_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6d602987ebf3bbae4f0a6d6b2015bd8e97c228dfcdff21db2dbe4a1394db07a8
+size 150693

last-checkpoint/global_step434/zero_pp_rank_1_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e424b63a80269c73a0353a46165784211ea81b0f904a22294880c6a6fb3ebfb5
+size 150693

last-checkpoint/global_step434/zero_pp_rank_2_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5a0925e1e5e253ade9172f2400590391fb177d59d566ae875adab40cb4e467e3
+size 150693

last-checkpoint/global_step434/zero_pp_rank_3_mp_rank_00_model_states.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aacbe32e99222ebc853d9cf2162fb15cdb3156ad5ca97f518792b9c27a65d1d7
+size 150693

last-checkpoint/latest CHANGED Viewed

	@@ -1 +1 @@
1	- ~~global_step310~~


1	+ global_step434

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7629983c481eb9200b556ac83ed8d209475fc4ef48f27d568a5cb34179c3b672
 size 4938985352

 version https://git-lfs.github.com/spec/v1
+oid sha256:a15bbb67da4b68beaed8d1f1dd43168748b208cf17aaf6f45a7686e7c1edbd9b
 size 4938985352

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7708922bcf1e99c851124c87b0ec55e1c4b40e5c0cea43b42302293a17729487
 size 4947390880

 version https://git-lfs.github.com/spec/v1
+oid sha256:83c88deee3881a332b37ac27498efc573e8a8ef204fcce2dd84ce5b85ecd6313
 size 4947390880

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44492addf0ff01b4318cdfbe27b38d73decff5f3a716bd9a106eee463d36f582
 size 3590488816

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb90a353cf0905ea79815177f94ace740d874bfb168850d0808801067ab6b160
 size 3590488816

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:85a44fde7a8ca235658f035c0812d344f55779640520411739b17e214177e846
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe3f96a2fff0ebd8dbcc2b4789c9dd47a218358381d8dc0c22453d73cc18c13a
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2caad91201b0df46e56af9eecef567ed2037350c38fdc81837724a4727d0b050
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:03c2e37b3b994a43a2c3a96dca7647061b052e8930abe99d16ea118bb9a4e2bc
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:73e988587366c84fd1b4fc5931610543c6da84cf501cd98c78745fd102dd5024
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:dd2fb470636af306fe33bfa071a70c5e89bbc147a17ff3351e6d952861610b64
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55af3bb04c01d99df727583b8b7a09241b4e47d58ff1b9cf5532d3fa0d878b52
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:42f403a555728d319355f2901e7ccab38b27c2ffdef1825aa77e363c48d96a77
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:deebfd046c912c12a5ec3992f182a7898d0a095fd57e8891bf19ccf9e61ba445
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:765f176539e61f4c6bc8f2ad5d717ae2c3e0b0b105343abdeb194f4ded8a8b9b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.992,
   "eval_steps": 62,
-  "global_step": 310,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -567,6 +567,218 @@
       "eval_samples_per_second": 8.068,
       "eval_steps_per_second": 0.524,
       "step": 310
     }
   ],
   "logging_steps": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.3888,
   "eval_steps": 62,
+  "global_step": 434,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 8.068,
       "eval_steps_per_second": 0.524,
       "step": 310
+    },
+    {
+      "epoch": 1.024,
+      "grad_norm": 0.39684443120667556,
+      "learning_rate": 3.6579572446555817e-07,
+      "logits/generated": -0.9057809710502625,
+      "logits/real": -1.3521413803100586,
+      "logps/generated": -349.14471435546875,
+      "logps/real": -111.87225341796875,
+      "loss": 0.1073,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -5.6079206466674805,
+      "rewards/margins": 15.645317077636719,
+      "rewards/real": 10.037394523620605,
+      "step": 320
+    },
+    {
+      "epoch": 1.056,
+      "grad_norm": 0.39872204323404287,
+      "learning_rate": 3.598574821852731e-07,
+      "logits/generated": -0.8963452577590942,
+      "logits/real": -1.4075753688812256,
+      "logps/generated": -350.3981018066406,
+      "logps/real": -111.39154052734375,
+      "loss": 0.1099,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -6.171029090881348,
+      "rewards/margins": 16.38304328918457,
+      "rewards/real": 10.212014198303223,
+      "step": 330
+    },
+    {
+      "epoch": 1.088,
+      "grad_norm": 0.3296521457207489,
+      "learning_rate": 3.5391923990498813e-07,
+      "logits/generated": -0.882519543170929,
+      "logits/real": -1.3683688640594482,
+      "logps/generated": -344.4193115234375,
+      "logps/real": -114.99576568603516,
+      "loss": 0.1121,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -6.464304447174072,
+      "rewards/margins": 16.844728469848633,
+      "rewards/real": 10.380424499511719,
+      "step": 340
+    },
+    {
+      "epoch": 1.12,
+      "grad_norm": 0.40794606558455315,
+      "learning_rate": 3.479809976247031e-07,
+      "logits/generated": -0.8548433184623718,
+      "logits/real": -1.33034086227417,
+      "logps/generated": -345.41497802734375,
+      "logps/real": -108.29139709472656,
+      "loss": 0.1084,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -5.70036506652832,
+      "rewards/margins": 15.80578899383545,
+      "rewards/real": 10.105424880981445,
+      "step": 350
+    },
+    {
+      "epoch": 1.152,
+      "grad_norm": 0.34179390042713315,
+      "learning_rate": 3.42042755344418e-07,
+      "logits/generated": -0.8854677081108093,
+      "logits/real": -1.3697372674942017,
+      "logps/generated": -349.7736511230469,
+      "logps/real": -117.81876373291016,
+      "loss": 0.1098,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -6.514307975769043,
+      "rewards/margins": 16.870037078857422,
+      "rewards/real": 10.355731010437012,
+      "step": 360
+    },
+    {
+      "epoch": 1.184,
+      "grad_norm": 0.38985325345599603,
+      "learning_rate": 3.36104513064133e-07,
+      "logits/generated": -0.8000022172927856,
+      "logits/real": -1.3874753713607788,
+      "logps/generated": -347.55010986328125,
+      "logps/real": -113.49405670166016,
+      "loss": 0.1046,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -6.464725494384766,
+      "rewards/margins": 16.653573989868164,
+      "rewards/real": 10.188849449157715,
+      "step": 370
+    },
+    {
+      "epoch": 1.1904,
+      "eval_logits/generated": -0.8655997514724731,
+      "eval_logits/real": -1.3632643222808838,
+      "eval_logps/generated": -349.3764953613281,
+      "eval_logps/real": -107.03945922851562,
+      "eval_loss": 0.10925532132387161,
+      "eval_rewards/accuracies": 1.0,
+      "eval_rewards/generated": -6.670737266540527,
+      "eval_rewards/margins": 16.652626037597656,
+      "eval_rewards/real": 9.981886863708496,
+      "eval_runtime": 35.169,
+      "eval_samples_per_second": 5.687,
+      "eval_steps_per_second": 0.37,
+      "step": 372
+    },
+    {
+      "epoch": 1.216,
+      "grad_norm": 0.3722532991523644,
+      "learning_rate": 3.3016627078384796e-07,
+      "logits/generated": -0.864538311958313,
+      "logits/real": -1.3105075359344482,
+      "logps/generated": -335.27362060546875,
+      "logps/real": -106.48799133300781,
+      "loss": 0.1035,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -6.397665977478027,
+      "rewards/margins": 16.154638290405273,
+      "rewards/real": 9.756973266601562,
+      "step": 380
+    },
+    {
+      "epoch": 1.248,
+      "grad_norm": 0.4038074067883792,
+      "learning_rate": 3.2422802850356297e-07,
+      "logits/generated": -0.8852449655532837,
+      "logits/real": -1.4460315704345703,
+      "logps/generated": -344.63311767578125,
+      "logps/real": -106.79902648925781,
+      "loss": 0.1027,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -5.748571395874023,
+      "rewards/margins": 15.521743774414062,
+      "rewards/real": 9.773170471191406,
+      "step": 390
+    },
+    {
+      "epoch": 1.28,
+      "grad_norm": 0.28676972353775737,
+      "learning_rate": 3.182897862232779e-07,
+      "logits/generated": -0.8121256828308105,
+      "logits/real": -1.354479432106018,
+      "logps/generated": -345.53326416015625,
+      "logps/real": -107.84037017822266,
+      "loss": 0.1003,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -6.011273384094238,
+      "rewards/margins": 15.705144882202148,
+      "rewards/real": 9.693869590759277,
+      "step": 400
+    },
+    {
+      "epoch": 1.312,
+      "grad_norm": 0.3326501083643602,
+      "learning_rate": 3.1235154394299283e-07,
+      "logits/generated": -0.8699803352355957,
+      "logits/real": -1.3926770687103271,
+      "logps/generated": -339.2923583984375,
+      "logps/real": -113.30909729003906,
+      "loss": 0.1069,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -5.364248275756836,
+      "rewards/margins": 15.17718505859375,
+      "rewards/real": 9.81293773651123,
+      "step": 410
+    },
+    {
+      "epoch": 1.3439999999999999,
+      "grad_norm": 0.41187476133988626,
+      "learning_rate": 3.0641330166270784e-07,
+      "logits/generated": -0.8451802134513855,
+      "logits/real": -1.3541207313537598,
+      "logps/generated": -344.1119384765625,
+      "logps/real": -99.13960266113281,
+      "loss": 0.103,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -6.0690155029296875,
+      "rewards/margins": 15.549135208129883,
+      "rewards/real": 9.480117797851562,
+      "step": 420
+    },
+    {
+      "epoch": 1.376,
+      "grad_norm": 0.37308896269833713,
+      "learning_rate": 3.004750593824228e-07,
+      "logits/generated": -0.8354321718215942,
+      "logits/real": -1.397528052330017,
+      "logps/generated": -354.12841796875,
+      "logps/real": -108.86185455322266,
+      "loss": 0.1067,
+      "rewards/accuracies": 1.0,
+      "rewards/generated": -6.957143306732178,
+      "rewards/margins": 16.80294418334961,
+      "rewards/real": 9.845802307128906,
+      "step": 430
+    },
+    {
+      "epoch": 1.3888,
+      "eval_logits/generated": -0.881392776966095,
+      "eval_logits/real": -1.3897513151168823,
+      "eval_logps/generated": -358.4093933105469,
+      "eval_logps/real": -106.73082733154297,
+      "eval_loss": 0.10892020910978317,
+      "eval_rewards/accuracies": 1.0,
+      "eval_rewards/generated": -7.574033260345459,
+      "eval_rewards/margins": 17.586782455444336,
+      "eval_rewards/real": 10.012747764587402,
+      "eval_runtime": 25.6933,
+      "eval_samples_per_second": 7.784,
+      "eval_steps_per_second": 0.506,
+      "step": 434
     }
   ],
   "logging_steps": 10,