Training in progress, step 376, checkpoint

Browse files

Files changed (16) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +572 -4

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcabfd92be31b6499987f272f2e66282673bbf0f3477e3b95d3ea40fdce5a631
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:2341607ce9b81fbddc316e1d8ed745adebc0924533d3f31d7116e1338ca52548
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:45cb6bcfdabd08869c69097cfa5bee5aef04ef8c28f157d1f489ca78f5fe777b
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:d2d76e6d82da5288a2ef5759e596842c9b010e3c843177c0a0569fcc85be1fa7
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:596eeeb9c5038b414042e03c790c4d8a3ba4d45df7e2d23dd912b3398d87b3c1
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:c690ffe3102be826e29c5633cf8620ca47d1b8b819efc2742c27a8604739ff49
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1034c58512d1793e1275c069dc6457aa4efaaf3eead8bde0452447a4e033790a
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:1485dbdd93d559396936d60e442a160868c25454e2f8eb093acbfacc2547006b
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4790eab0dde508fbf6099ce52ddbe518d5cf97627bbdf3949e06dde5e08e25fd
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:9f43d12007991353f51361573d6d7482f2e62e2ba4187b198fad307fac606fa9
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:29186fb25040ec4572ae0b84469b79877a09d72bc3dfd7003bd296fc03a5510c
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:d7e0918853c587646eb55ae02c94dac10dd95a4e905a8656aa368dc6e541224d
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6bd437dc3c0c22d9c434de5ec29821436fc23d3c711bd99c0f72ce1ee249cbd7
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:0158d971ba71808f5326cd56710c7e448844128b673df1a6f529bff95750524c
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7c1fbfb8b80209395e13448bf1015ddfce9474a48c7701f6ac933493628333aa
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:78def40bb72508d5352010e3b2abe8d73620bbc2697a530d2c483328a80c449f
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca0f8832d1e0a99012ddffa0912becb483c91f8a60016c8ffce71b49b64e355b
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:e302c9460dd4b2d18e32dcb2207c4813128526fb6cb1fc5ceb7324259f0491ba
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05e4871c2d84ecbc1efac64854d25ee3f52b310cdc9e7aa704123b1be1e82dc1
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:96559dc2d5bf69154ad885b0fecd6a00ab728919e684f3c7a11e872f73da62b1
 size 14960

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2224282bdf68451bf16fa617356ee085cc44369ceb8aeadcfdd169e4f1c53cda
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:844c660102e4d575fd724e57758d180804c47275487517ac2966e44f0456ff72
 size 14960

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d400bf947081cbe3449eeae2e2bf5d09fede9253207279d467443269b9ffad31
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:20c48845b93131d80f6356e44142d40faf3a38bdc6caa9bdebf4e90c2b7ceda2
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f19c1c760c44b1d56e40c2b6486967adae47f40de9c950993205f9a2e7e66c38
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8979d33fb7a17f61e829a30bf98bf52a2f74ab1c472a4e63d6f1ec93d04d0c66
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7978723404255319,
   "eval_steps": 20,
-  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2299,6 +2299,574 @@
       "eval_samples_per_second": 6.683,
       "eval_steps_per_second": 0.209,
       "step": 300
     }
   ],
   "logging_steps": 1,
@@ -2313,12 +2881,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 9.717414664287027e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
   "eval_steps": 20,
+  "global_step": 376,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.683,
       "eval_steps_per_second": 0.209,
       "step": 300
+    },
+    {
+      "epoch": 0.800531914893617,
+      "grad_norm": 3.4099960327148438,
+      "learning_rate": 2.332921335481205e-06,
+      "loss": 0.2715,
+      "step": 301
+    },
+    {
+      "epoch": 0.8031914893617021,
+      "grad_norm": 4.202554702758789,
+      "learning_rate": 2.2735820613083837e-06,
+      "loss": 0.2616,
+      "step": 302
+    },
+    {
+      "epoch": 0.8058510638297872,
+      "grad_norm": 2.95456862449646,
+      "learning_rate": 2.2149102719882044e-06,
+      "loss": 0.2455,
+      "step": 303
+    },
+    {
+      "epoch": 0.8085106382978723,
+      "grad_norm": 2.7879536151885986,
+      "learning_rate": 2.156911036173568e-06,
+      "loss": 0.2054,
+      "step": 304
+    },
+    {
+      "epoch": 0.8111702127659575,
+      "grad_norm": 2.4969985485076904,
+      "learning_rate": 2.0995893644155007e-06,
+      "loss": 0.2814,
+      "step": 305
+    },
+    {
+      "epoch": 0.8138297872340425,
+      "grad_norm": 3.3959643840789795,
+      "learning_rate": 2.0429502087303164e-06,
+      "loss": 0.2382,
+      "step": 306
+    },
+    {
+      "epoch": 0.8164893617021277,
+      "grad_norm": 2.825615882873535,
+      "learning_rate": 1.9869984621717888e-06,
+      "loss": 0.2808,
+      "step": 307
+    },
+    {
+      "epoch": 0.8191489361702128,
+      "grad_norm": 2.766301155090332,
+      "learning_rate": 1.931738958408457e-06,
+      "loss": 0.2371,
+      "step": 308
+    },
+    {
+      "epoch": 0.8218085106382979,
+      "grad_norm": 3.683234930038452,
+      "learning_rate": 1.8771764713060359e-06,
+      "loss": 0.2617,
+      "step": 309
+    },
+    {
+      "epoch": 0.824468085106383,
+      "grad_norm": 3.0581727027893066,
+      "learning_rate": 1.8233157145150183e-06,
+      "loss": 0.254,
+      "step": 310
+    },
+    {
+      "epoch": 0.8271276595744681,
+      "grad_norm": 3.316701889038086,
+      "learning_rate": 1.7701613410634367e-06,
+      "loss": 0.2596,
+      "step": 311
+    },
+    {
+      "epoch": 0.8297872340425532,
+      "grad_norm": 2.8315346240997314,
+      "learning_rate": 1.717717942954914e-06,
+      "loss": 0.222,
+      "step": 312
+    },
+    {
+      "epoch": 0.8324468085106383,
+      "grad_norm": 2.781020164489746,
+      "learning_rate": 1.6659900507719406e-06,
+      "loss": 0.2643,
+      "step": 313
+    },
+    {
+      "epoch": 0.8351063829787234,
+      "grad_norm": 2.389970302581787,
+      "learning_rate": 1.614982133284495e-06,
+      "loss": 0.2161,
+      "step": 314
+    },
+    {
+      "epoch": 0.8377659574468085,
+      "grad_norm": 3.4777987003326416,
+      "learning_rate": 1.5646985970639717e-06,
+      "loss": 0.3309,
+      "step": 315
+    },
+    {
+      "epoch": 0.8404255319148937,
+      "grad_norm": 4.487973690032959,
+      "learning_rate": 1.5151437861025032e-06,
+      "loss": 0.3284,
+      "step": 316
+    },
+    {
+      "epoch": 0.8430851063829787,
+      "grad_norm": 4.822957515716553,
+      "learning_rate": 1.466321981437694e-06,
+      "loss": 0.2033,
+      "step": 317
+    },
+    {
+      "epoch": 0.8457446808510638,
+      "grad_norm": 2.9255247116088867,
+      "learning_rate": 1.4182374007827605e-06,
+      "loss": 0.2528,
+      "step": 318
+    },
+    {
+      "epoch": 0.848404255319149,
+      "grad_norm": 2.9784889221191406,
+      "learning_rate": 1.3708941981621814e-06,
+      "loss": 0.2151,
+      "step": 319
+    },
+    {
+      "epoch": 0.851063829787234,
+      "grad_norm": 2.522810459136963,
+      "learning_rate": 1.324296463552821e-06,
+      "loss": 0.2333,
+      "step": 320
+    },
+    {
+      "epoch": 0.851063829787234,
+      "eval_accuracy": 0.831764705882353,
+      "eval_f1": 0.5545171339563862,
+      "eval_loss": 0.38777896761894226,
+      "eval_precision": 0.7416666666666667,
+      "eval_recall": 0.4427860696517413,
+      "eval_runtime": 34.5031,
+      "eval_samples_per_second": 6.492,
+      "eval_steps_per_second": 0.203,
+      "step": 320
+    },
+    {
+      "epoch": 0.8537234042553191,
+      "grad_norm": 2.794802665710449,
+      "learning_rate": 1.2784482225306061e-06,
+      "loss": 0.2338,
+      "step": 321
+    },
+    {
+      "epoch": 0.8563829787234043,
+      "grad_norm": 2.8740601539611816,
+      "learning_rate": 1.2333534359227383e-06,
+      "loss": 0.2526,
+      "step": 322
+    },
+    {
+      "epoch": 0.8590425531914894,
+      "grad_norm": 2.600721597671509,
+      "learning_rate": 1.1890159994655425e-06,
+      "loss": 0.2165,
+      "step": 323
+    },
+    {
+      "epoch": 0.8617021276595744,
+      "grad_norm": 2.781907796859741,
+      "learning_rate": 1.1454397434679022e-06,
+      "loss": 0.2414,
+      "step": 324
+    },
+    {
+      "epoch": 0.8643617021276596,
+      "grad_norm": 2.8299474716186523,
+      "learning_rate": 1.1026284324803493e-06,
+      "loss": 0.2389,
+      "step": 325
+    },
+    {
+      "epoch": 0.8670212765957447,
+      "grad_norm": 2.6625523567199707,
+      "learning_rate": 1.060585764969867e-06,
+      "loss": 0.2444,
+      "step": 326
+    },
+    {
+      "epoch": 0.8696808510638298,
+      "grad_norm": 3.0182435512542725,
+      "learning_rate": 1.0193153730003603e-06,
+      "loss": 0.2967,
+      "step": 327
+    },
+    {
+      "epoch": 0.8723404255319149,
+      "grad_norm": 2.5358083248138428,
+      "learning_rate": 9.788208219188932e-07,
+      "loss": 0.2091,
+      "step": 328
+    },
+    {
+      "epoch": 0.875,
+      "grad_norm": 3.2480201721191406,
+      "learning_rate": 9.391056100476736e-07,
+      "loss": 0.2195,
+      "step": 329
+    },
+    {
+      "epoch": 0.8776595744680851,
+      "grad_norm": 2.449801445007324,
+      "learning_rate": 9.001731683818338e-07,
+      "loss": 0.2316,
+      "step": 330
+    },
+    {
+      "epoch": 0.8803191489361702,
+      "grad_norm": 3.304652690887451,
+      "learning_rate": 8.620268602930271e-07,
+      "loss": 0.2719,
+      "step": 331
+    },
+    {
+      "epoch": 0.8829787234042553,
+      "grad_norm": 3.1013834476470947,
+      "learning_rate": 8.246699812388714e-07,
+      "loss": 0.2412,
+      "step": 332
+    },
+    {
+      "epoch": 0.8856382978723404,
+      "grad_norm": 2.4398679733276367,
+      "learning_rate": 7.881057584782448e-07,
+      "loss": 0.1909,
+      "step": 333
+    },
+    {
+      "epoch": 0.8882978723404256,
+      "grad_norm": 3.296792984008789,
+      "learning_rate": 7.523373507924947e-07,
+      "loss": 0.2592,
+      "step": 334
+    },
+    {
+      "epoch": 0.8909574468085106,
+      "grad_norm": 3.5089118480682373,
+      "learning_rate": 7.17367848212539e-07,
+      "loss": 0.2341,
+      "step": 335
+    },
+    {
+      "epoch": 0.8936170212765957,
+      "grad_norm": 2.9826953411102295,
+      "learning_rate": 6.83200271751927e-07,
+      "loss": 0.239,
+      "step": 336
+    },
+    {
+      "epoch": 0.8962765957446809,
+      "grad_norm": 2.965322732925415,
+      "learning_rate": 6.498375731458529e-07,
+      "loss": 0.242,
+      "step": 337
+    },
+    {
+      "epoch": 0.898936170212766,
+      "grad_norm": 2.855252504348755,
+      "learning_rate": 6.17282634596148e-07,
+      "loss": 0.2503,
+      "step": 338
+    },
+    {
+      "epoch": 0.901595744680851,
+      "grad_norm": 5.112611293792725,
+      "learning_rate": 5.85538268522301e-07,
+      "loss": 0.2665,
+      "step": 339
+    },
+    {
+      "epoch": 0.9042553191489362,
+      "grad_norm": 3.4850215911865234,
+      "learning_rate": 5.546072173184791e-07,
+      "loss": 0.2896,
+      "step": 340
+    },
+    {
+      "epoch": 0.9042553191489362,
+      "eval_accuracy": 0.8305882352941176,
+      "eval_f1": 0.55,
+      "eval_loss": 0.38858291506767273,
+      "eval_precision": 0.7394957983193278,
+      "eval_recall": 0.43781094527363185,
+      "eval_runtime": 34.3336,
+      "eval_samples_per_second": 6.524,
+      "eval_steps_per_second": 0.204,
+      "step": 340
+    },
+    {
+      "epoch": 0.9069148936170213,
+      "grad_norm": 2.3722422122955322,
+      "learning_rate": 5.244921531166247e-07,
+      "loss": 0.2334,
+      "step": 341
+    },
+    {
+      "epoch": 0.9095744680851063,
+      "grad_norm": 2.8881895542144775,
+      "learning_rate": 4.951956775556e-07,
+      "loss": 0.2339,
+      "step": 342
+    },
+    {
+      "epoch": 0.9122340425531915,
+      "grad_norm": 4.109971046447754,
+      "learning_rate": 4.667203215564431e-07,
+      "loss": 0.2837,
+      "step": 343
+    },
+    {
+      "epoch": 0.9148936170212766,
+      "grad_norm": 3.7027337551116943,
+      "learning_rate": 4.3906854510370245e-07,
+      "loss": 0.2862,
+      "step": 344
+    },
+    {
+      "epoch": 0.9175531914893617,
+      "grad_norm": 3.069493532180786,
+      "learning_rate": 4.1224273703294515e-07,
+      "loss": 0.2456,
+      "step": 345
+    },
+    {
+      "epoch": 0.9202127659574468,
+      "grad_norm": 2.9162609577178955,
+      "learning_rate": 3.862452148243623e-07,
+      "loss": 0.2633,
+      "step": 346
+    },
+    {
+      "epoch": 0.9228723404255319,
+      "grad_norm": 3.10223388671875,
+      "learning_rate": 3.610782244025768e-07,
+      "loss": 0.2165,
+      "step": 347
+    },
+    {
+      "epoch": 0.925531914893617,
+      "grad_norm": 3.3466663360595703,
+      "learning_rate": 3.367439399426087e-07,
+      "loss": 0.2748,
+      "step": 348
+    },
+    {
+      "epoch": 0.9281914893617021,
+      "grad_norm": 3.4505677223205566,
+      "learning_rate": 3.132444636820575e-07,
+      "loss": 0.2789,
+      "step": 349
+    },
+    {
+      "epoch": 0.9308510638297872,
+      "grad_norm": 3.7714152336120605,
+      "learning_rate": 2.905818257394799e-07,
+      "loss": 0.233,
+      "step": 350
+    },
+    {
+      "epoch": 0.9335106382978723,
+      "grad_norm": 5.176234722137451,
+      "learning_rate": 2.687579839390153e-07,
+      "loss": 0.2933,
+      "step": 351
+    },
+    {
+      "epoch": 0.9361702127659575,
+      "grad_norm": 2.8145923614501953,
+      "learning_rate": 2.4777482364124695e-07,
+      "loss": 0.2916,
+      "step": 352
+    },
+    {
+      "epoch": 0.9388297872340425,
+      "grad_norm": 2.452026605606079,
+      "learning_rate": 2.2763415758032316e-07,
+      "loss": 0.2072,
+      "step": 353
+    },
+    {
+      "epoch": 0.9414893617021277,
+      "grad_norm": 2.741774559020996,
+      "learning_rate": 2.0833772570736376e-07,
+      "loss": 0.2365,
+      "step": 354
+    },
+    {
+      "epoch": 0.9441489361702128,
+      "grad_norm": 2.6265206336975098,
+      "learning_rate": 1.8988719504013375e-07,
+      "loss": 0.2226,
+      "step": 355
+    },
+    {
+      "epoch": 0.9468085106382979,
+      "grad_norm": 4.149282932281494,
+      "learning_rate": 1.7228415951904165e-07,
+      "loss": 0.1923,
+      "step": 356
+    },
+    {
+      "epoch": 0.949468085106383,
+      "grad_norm": 2.389505624771118,
+      "learning_rate": 1.5553013986942645e-07,
+      "loss": 0.21,
+      "step": 357
+    },
+    {
+      "epoch": 0.9521276595744681,
+      "grad_norm": 4.067861557006836,
+      "learning_rate": 1.3962658347019819e-07,
+      "loss": 0.2497,
+      "step": 358
+    },
+    {
+      "epoch": 0.9547872340425532,
+      "grad_norm": 2.5128250122070312,
+      "learning_rate": 1.245748642287814e-07,
+      "loss": 0.2559,
+      "step": 359
+    },
+    {
+      "epoch": 0.9574468085106383,
+      "grad_norm": 2.755162477493286,
+      "learning_rate": 1.103762824624377e-07,
+      "loss": 0.2398,
+      "step": 360
+    },
+    {
+      "epoch": 0.9574468085106383,
+      "eval_accuracy": 0.8329411764705882,
+      "eval_f1": 0.5617283950617284,
+      "eval_loss": 0.38481393456459045,
+      "eval_precision": 0.7398373983739838,
+      "eval_recall": 0.4527363184079602,
+      "eval_runtime": 34.7008,
+      "eval_samples_per_second": 6.455,
+      "eval_steps_per_second": 0.202,
+      "step": 360
+    },
+    {
+      "epoch": 0.9601063829787234,
+      "grad_norm": 3.078138828277588,
+      "learning_rate": 9.70320647859213e-08,
+      "loss": 0.2091,
+      "step": 361
+    },
+    {
+      "epoch": 0.9627659574468085,
+      "grad_norm": 2.8632972240448,
+      "learning_rate": 8.454336400552154e-08,
+      "loss": 0.2513,
+      "step": 362
+    },
+    {
+      "epoch": 0.9654255319148937,
+      "grad_norm": 2.500767469406128,
+      "learning_rate": 7.291125901946027e-08,
+      "loss": 0.2346,
+      "step": 363
+    },
+    {
+      "epoch": 0.9680851063829787,
+      "grad_norm": 4.420257091522217,
+      "learning_rate": 6.21367547246976e-08,
+      "loss": 0.2701,
+      "step": 364
+    },
+    {
+      "epoch": 0.9707446808510638,
+      "grad_norm": 2.459460973739624,
+      "learning_rate": 5.2220781930111263e-08,
+      "loss": 0.2441,
+      "step": 365
+    },
+    {
+      "epoch": 0.973404255319149,
+      "grad_norm": 3.661996841430664,
+      "learning_rate": 4.316419727608434e-08,
+      "loss": 0.2704,
+      "step": 366
+    },
+    {
+      "epoch": 0.976063829787234,
+      "grad_norm": 3.0439155101776123,
+      "learning_rate": 3.4967783160507753e-08,
+      "loss": 0.2187,
+      "step": 367
+    },
+    {
+      "epoch": 0.9787234042553191,
+      "grad_norm": 3.629185914993286,
+      "learning_rate": 2.763224767117767e-08,
+      "loss": 0.3418,
+      "step": 368
+    },
+    {
+      "epoch": 0.9813829787234043,
+      "grad_norm": 2.30877423286438,
+      "learning_rate": 2.115822452463223e-08,
+      "loss": 0.2607,
+      "step": 369
+    },
+    {
+      "epoch": 0.9840425531914894,
+      "grad_norm": 3.398482084274292,
+      "learning_rate": 1.554627301140199e-08,
+      "loss": 0.2494,
+      "step": 370
+    },
+    {
+      "epoch": 0.9867021276595744,
+      "grad_norm": 3.0833022594451904,
+      "learning_rate": 1.0796877947691909e-08,
+      "loss": 0.2924,
+      "step": 371
+    },
+    {
+      "epoch": 0.9893617021276596,
+      "grad_norm": 2.702519655227661,
+      "learning_rate": 6.910449633501515e-09,
+      "loss": 0.2222,
+      "step": 372
+    },
+    {
+      "epoch": 0.9920212765957447,
+      "grad_norm": 3.0397112369537354,
+      "learning_rate": 3.887323817173272e-09,
+      "loss": 0.2145,
+      "step": 373
+    },
+    {
+      "epoch": 0.9946808510638298,
+      "grad_norm": 2.342505931854248,
+      "learning_rate": 1.7277616663946562e-09,
+      "loss": 0.2471,
+      "step": 374
+    },
+    {
+      "epoch": 0.9973404255319149,
+      "grad_norm": 2.674713611602783,
+      "learning_rate": 4.319497456273247e-10,
+      "loss": 0.2519,
+      "step": 375
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 4.508094310760498,
+      "learning_rate": 0.0,
+      "loss": 0.3025,
+      "step": 376
     }
   ],
   "logging_steps": 1,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.2170791543740826e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null