Training in progress, step 300, checkpoint

Browse files

Files changed (13) hide show

last-checkpoint/optimizer_0/.metadata +0 -0
last-checkpoint/optimizer_0/__0_0.distcp +1 -1
last-checkpoint/optimizer_0/__1_0.distcp +1 -1
last-checkpoint/optimizer_0/__2_0.distcp +1 -1
last-checkpoint/optimizer_0/__3_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/.metadata +0 -0
last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp +1 -1
last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +763 -3

last-checkpoint/optimizer_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/optimizer_0/.metadata and b/last-checkpoint/optimizer_0/.metadata differ

last-checkpoint/optimizer_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3843927cedc4d683f3269d495867dcd7b2405c910617a503028f960732f07e6c
 size 13934748

 version https://git-lfs.github.com/spec/v1
+oid sha256:bcabfd92be31b6499987f272f2e66282673bbf0f3477e3b95d3ea40fdce5a631
 size 13934748

last-checkpoint/optimizer_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:47fd5ac1aedf65d1e43923149a90aa599911c73d408d5994466b0ae9f9c88c76
 size 13999412

 version https://git-lfs.github.com/spec/v1
+oid sha256:45cb6bcfdabd08869c69097cfa5bee5aef04ef8c28f157d1f489ca78f5fe777b
 size 13999412

last-checkpoint/optimizer_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:df9266203b37a0254a86248c42410caf65ae1b76706802247a77e92c1d88e294
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:596eeeb9c5038b414042e03c790c4d8a3ba4d45df7e2d23dd912b3398d87b3c1
 size 13990904

last-checkpoint/optimizer_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:564a75b416e4e48eb1f76e79505f22d2d45bf4fc8b254f4c8ce9b3ce5890dc81
 size 13990904

 version https://git-lfs.github.com/spec/v1
+oid sha256:1034c58512d1793e1275c069dc6457aa4efaaf3eead8bde0452447a4e033790a
 size 13990904

last-checkpoint/pytorch_model_fsdp_0/.metadata CHANGED Viewed

Binary files a/last-checkpoint/pytorch_model_fsdp_0/.metadata and b/last-checkpoint/pytorch_model_fsdp_0/.metadata differ

last-checkpoint/pytorch_model_fsdp_0/__0_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd41c478f550639121d913c62a920bd1cb03accab9182666486c78e6e8a330ba
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:4790eab0dde508fbf6099ce52ddbe518d5cf97627bbdf3949e06dde5e08e25fd
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__1_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6e2ea2567791532b38b5fab7ba9b89492d30645a423a9f0f1bc21e98535902c9
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:29186fb25040ec4572ae0b84469b79877a09d72bc3dfd7003bd296fc03a5510c
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__2_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6cd518b6b383ab04cec632660a3cece5e59683a59a2ffb32a3f0ca2075f162e
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:6bd437dc3c0c22d9c434de5ec29821436fc23d3c711bd99c0f72ce1ee249cbd7
 size 6966784

last-checkpoint/pytorch_model_fsdp_0/__3_0.distcp CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:655a2930a3b9fe448e6f767f8b25b9ebdd3f906d256322c915a95c99f18bba8f
 size 6966784

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c1fbfb8b80209395e13448bf1015ddfce9474a48c7701f6ac933493628333aa
 size 6966784

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ab8cdd08f60cbd3036bbd610c5a42dde3ec47637b7e45c85683a417a9d360a6f
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca0f8832d1e0a99012ddffa0912becb483c91f8a60016c8ffce71b49b64e355b
 size 14960

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59a8af46ddb45218bc7cbc9b3f81796f6f16e1bc3531c4213c3b740a3fa6722a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f19c1c760c44b1d56e40c2b6486967adae47f40de9c950993205f9a2e7e66c38
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.5319148936170213,
   "eval_steps": 20,
-  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1539,6 +1539,766 @@
       "eval_samples_per_second": 6.626,
       "eval_steps_per_second": 0.207,
       "step": 200
     }
   ],
   "logging_steps": 1,
@@ -1558,7 +2318,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.492182455884186e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.7978723404255319,
   "eval_steps": 20,
+  "global_step": 300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 6.626,
       "eval_steps_per_second": 0.207,
       "step": 200
+    },
+    {
+      "epoch": 0.5345744680851063,
+      "grad_norm": 6.333003044128418,
+      "learning_rate": 1.0557390144892684e-05,
+      "loss": 0.3334,
+      "step": 201
+    },
+    {
+      "epoch": 0.5372340425531915,
+      "grad_norm": 2.1432178020477295,
+      "learning_rate": 1.0464565373634784e-05,
+      "loss": 0.2513,
+      "step": 202
+    },
+    {
+      "epoch": 0.5398936170212766,
+      "grad_norm": 5.119022369384766,
+      "learning_rate": 1.0371700468597886e-05,
+      "loss": 0.2566,
+      "step": 203
+    },
+    {
+      "epoch": 0.5425531914893617,
+      "grad_norm": 3.5691733360290527,
+      "learning_rate": 1.0278803452376416e-05,
+      "loss": 0.3084,
+      "step": 204
+    },
+    {
+      "epoch": 0.5452127659574468,
+      "grad_norm": 3.0961036682128906,
+      "learning_rate": 1.018588235033888e-05,
+      "loss": 0.2085,
+      "step": 205
+    },
+    {
+      "epoch": 0.5478723404255319,
+      "grad_norm": 2.27486515045166,
+      "learning_rate": 1.0092945189934558e-05,
+      "loss": 0.2524,
+      "step": 206
+    },
+    {
+      "epoch": 0.550531914893617,
+      "grad_norm": 2.3716437816619873,
+      "learning_rate": 1e-05,
+      "loss": 0.2011,
+      "step": 207
+    },
+    {
+      "epoch": 0.5531914893617021,
+      "grad_norm": 2.6007697582244873,
+      "learning_rate": 9.907054810065446e-06,
+      "loss": 0.2451,
+      "step": 208
+    },
+    {
+      "epoch": 0.5558510638297872,
+      "grad_norm": 2.5963995456695557,
+      "learning_rate": 9.81411764966112e-06,
+      "loss": 0.2705,
+      "step": 209
+    },
+    {
+      "epoch": 0.5585106382978723,
+      "grad_norm": 2.1203646659851074,
+      "learning_rate": 9.721196547623585e-06,
+      "loss": 0.2101,
+      "step": 210
+    },
+    {
+      "epoch": 0.5611702127659575,
+      "grad_norm": 3.2986724376678467,
+      "learning_rate": 9.628299531402118e-06,
+      "loss": 0.2659,
+      "step": 211
+    },
+    {
+      "epoch": 0.5638297872340425,
+      "grad_norm": 2.127525568008423,
+      "learning_rate": 9.535434626365221e-06,
+      "loss": 0.251,
+      "step": 212
+    },
+    {
+      "epoch": 0.5664893617021277,
+      "grad_norm": 3.1327059268951416,
+      "learning_rate": 9.442609855107317e-06,
+      "loss": 0.2255,
+      "step": 213
+    },
+    {
+      "epoch": 0.5691489361702128,
+      "grad_norm": 2.0999770164489746,
+      "learning_rate": 9.349833236755675e-06,
+      "loss": 0.2549,
+      "step": 214
+    },
+    {
+      "epoch": 0.5718085106382979,
+      "grad_norm": 2.7766880989074707,
+      "learning_rate": 9.257112786277631e-06,
+      "loss": 0.2224,
+      "step": 215
+    },
+    {
+      "epoch": 0.574468085106383,
+      "grad_norm": 2.451842784881592,
+      "learning_rate": 9.164456513788186e-06,
+      "loss": 0.2599,
+      "step": 216
+    },
+    {
+      "epoch": 0.5771276595744681,
+      "grad_norm": 2.7746975421905518,
+      "learning_rate": 9.07187242385801e-06,
+      "loss": 0.2601,
+      "step": 217
+    },
+    {
+      "epoch": 0.5797872340425532,
+      "grad_norm": 2.561441421508789,
+      "learning_rate": 8.979368514821917e-06,
+      "loss": 0.284,
+      "step": 218
+    },
+    {
+      "epoch": 0.5824468085106383,
+      "grad_norm": 2.425262928009033,
+      "learning_rate": 8.88695277808791e-06,
+      "loss": 0.2593,
+      "step": 219
+    },
+    {
+      "epoch": 0.5851063829787234,
+      "grad_norm": 3.180457830429077,
+      "learning_rate": 8.79463319744677e-06,
+      "loss": 0.2844,
+      "step": 220
+    },
+    {
+      "epoch": 0.5851063829787234,
+      "eval_accuracy": 0.8258823529411765,
+      "eval_f1": 0.5163398692810458,
+      "eval_loss": 0.41871950030326843,
+      "eval_precision": 0.7523809523809524,
+      "eval_recall": 0.39303482587064675,
+      "eval_runtime": 34.0471,
+      "eval_samples_per_second": 6.579,
+      "eval_steps_per_second": 0.206,
+      "step": 220
+    },
+    {
+      "epoch": 0.5877659574468085,
+      "grad_norm": 2.8783645629882812,
+      "learning_rate": 8.702417748382384e-06,
+      "loss": 0.2458,
+      "step": 221
+    },
+    {
+      "epoch": 0.5904255319148937,
+      "grad_norm": 2.950291395187378,
+      "learning_rate": 8.610314397382701e-06,
+      "loss": 0.3062,
+      "step": 222
+    },
+    {
+      "epoch": 0.5930851063829787,
+      "grad_norm": 2.8430628776550293,
+      "learning_rate": 8.51833110125153e-06,
+      "loss": 0.2913,
+      "step": 223
+    },
+    {
+      "epoch": 0.5957446808510638,
+      "grad_norm": 6.691501617431641,
+      "learning_rate": 8.426475806421139e-06,
+      "loss": 0.3716,
+      "step": 224
+    },
+    {
+      "epoch": 0.598404255319149,
+      "grad_norm": 2.705397367477417,
+      "learning_rate": 8.334756448265782e-06,
+      "loss": 0.2692,
+      "step": 225
+    },
+    {
+      "epoch": 0.601063829787234,
+      "grad_norm": 2.276686429977417,
+      "learning_rate": 8.243180950416142e-06,
+      "loss": 0.214,
+      "step": 226
+    },
+    {
+      "epoch": 0.6037234042553191,
+      "grad_norm": 4.622035980224609,
+      "learning_rate": 8.151757224074815e-06,
+      "loss": 0.1863,
+      "step": 227
+    },
+    {
+      "epoch": 0.6063829787234043,
+      "grad_norm": 2.3402657508850098,
+      "learning_rate": 8.060493167332874e-06,
+      "loss": 0.2895,
+      "step": 228
+    },
+    {
+      "epoch": 0.6090425531914894,
+      "grad_norm": 4.533783912658691,
+      "learning_rate": 7.969396664487534e-06,
+      "loss": 0.256,
+      "step": 229
+    },
+    {
+      "epoch": 0.6117021276595744,
+      "grad_norm": 4.254709243774414,
+      "learning_rate": 7.878475585361045e-06,
+      "loss": 0.2798,
+      "step": 230
+    },
+    {
+      "epoch": 0.6143617021276596,
+      "grad_norm": 2.4173777103424072,
+      "learning_rate": 7.787737784620803e-06,
+      "loss": 0.3046,
+      "step": 231
+    },
+    {
+      "epoch": 0.6170212765957447,
+      "grad_norm": 2.9640042781829834,
+      "learning_rate": 7.697191101100802e-06,
+      "loss": 0.2893,
+      "step": 232
+    },
+    {
+      "epoch": 0.6196808510638298,
+      "grad_norm": 2.9573986530303955,
+      "learning_rate": 7.606843357124426e-06,
+      "loss": 0.2764,
+      "step": 233
+    },
+    {
+      "epoch": 0.6223404255319149,
+      "grad_norm": 3.9960691928863525,
+      "learning_rate": 7.516702357828672e-06,
+      "loss": 0.3243,
+      "step": 234
+    },
+    {
+      "epoch": 0.625,
+      "grad_norm": 2.9117209911346436,
+      "learning_rate": 7.42677589048989e-06,
+      "loss": 0.2863,
+      "step": 235
+    },
+    {
+      "epoch": 0.6276595744680851,
+      "grad_norm": 2.57856822013855,
+      "learning_rate": 7.337071723851018e-06,
+      "loss": 0.2433,
+      "step": 236
+    },
+    {
+      "epoch": 0.6303191489361702,
+      "grad_norm": 3.1635406017303467,
+      "learning_rate": 7.247597607450446e-06,
+      "loss": 0.2622,
+      "step": 237
+    },
+    {
+      "epoch": 0.6329787234042553,
+      "grad_norm": 3.4039433002471924,
+      "learning_rate": 7.1583612709525405e-06,
+      "loss": 0.2313,
+      "step": 238
+    },
+    {
+      "epoch": 0.6356382978723404,
+      "grad_norm": 3.072800397872925,
+      "learning_rate": 7.06937042347987e-06,
+      "loss": 0.3117,
+      "step": 239
+    },
+    {
+      "epoch": 0.6382978723404256,
+      "grad_norm": 3.175246000289917,
+      "learning_rate": 6.980632752947221e-06,
+      "loss": 0.2632,
+      "step": 240
+    },
+    {
+      "epoch": 0.6382978723404256,
+      "eval_accuracy": 0.8235294117647058,
+      "eval_f1": 0.5161290322580645,
+      "eval_loss": 0.4037013053894043,
+      "eval_precision": 0.7339449541284404,
+      "eval_recall": 0.39800995024875624,
+      "eval_runtime": 34.0215,
+      "eval_samples_per_second": 6.584,
+      "eval_steps_per_second": 0.206,
+      "step": 240
+    },
+    {
+      "epoch": 0.6409574468085106,
+      "grad_norm": 2.5714304447174072,
+      "learning_rate": 6.892155925397437e-06,
+      "loss": 0.2749,
+      "step": 241
+    },
+    {
+      "epoch": 0.6436170212765957,
+      "grad_norm": 3.128525733947754,
+      "learning_rate": 6.803947584339148e-06,
+      "loss": 0.3527,
+      "step": 242
+    },
+    {
+      "epoch": 0.6462765957446809,
+      "grad_norm": 3.6604840755462646,
+      "learning_rate": 6.716015350086449e-06,
+      "loss": 0.2686,
+      "step": 243
+    },
+    {
+      "epoch": 0.648936170212766,
+      "grad_norm": 2.6133296489715576,
+      "learning_rate": 6.628366819100586e-06,
+      "loss": 0.2836,
+      "step": 244
+    },
+    {
+      "epoch": 0.651595744680851,
+      "grad_norm": 2.5161774158477783,
+      "learning_rate": 6.54100956333369e-06,
+      "loss": 0.2395,
+      "step": 245
+    },
+    {
+      "epoch": 0.6542553191489362,
+      "grad_norm": 2.824259042739868,
+      "learning_rate": 6.453951129574644e-06,
+      "loss": 0.2906,
+      "step": 246
+    },
+    {
+      "epoch": 0.6569148936170213,
+      "grad_norm": 2.747422456741333,
+      "learning_rate": 6.3671990387971096e-06,
+      "loss": 0.2368,
+      "step": 247
+    },
+    {
+      "epoch": 0.6595744680851063,
+      "grad_norm": 2.540599822998047,
+      "learning_rate": 6.280760785509802e-06,
+      "loss": 0.3036,
+      "step": 248
+    },
+    {
+      "epoch": 0.6622340425531915,
+      "grad_norm": 2.4649527072906494,
+      "learning_rate": 6.194643837109015e-06,
+      "loss": 0.2935,
+      "step": 249
+    },
+    {
+      "epoch": 0.6648936170212766,
+      "grad_norm": 2.2564632892608643,
+      "learning_rate": 6.108855633233546e-06,
+      "loss": 0.2276,
+      "step": 250
+    },
+    {
+      "epoch": 0.6675531914893617,
+      "grad_norm": 2.5052363872528076,
+      "learning_rate": 6.0234035851219604e-06,
+      "loss": 0.2464,
+      "step": 251
+    },
+    {
+      "epoch": 0.6702127659574468,
+      "grad_norm": 3.091642141342163,
+      "learning_rate": 5.93829507497235e-06,
+      "loss": 0.2766,
+      "step": 252
+    },
+    {
+      "epoch": 0.6728723404255319,
+      "grad_norm": 3.3672595024108887,
+      "learning_rate": 5.853537455304575e-06,
+      "loss": 0.2567,
+      "step": 253
+    },
+    {
+      "epoch": 0.675531914893617,
+      "grad_norm": 2.4779727458953857,
+      "learning_rate": 5.769138048325087e-06,
+      "loss": 0.2628,
+      "step": 254
+    },
+    {
+      "epoch": 0.6781914893617021,
+      "grad_norm": 2.5639469623565674,
+      "learning_rate": 5.685104145294364e-06,
+      "loss": 0.2204,
+      "step": 255
+    },
+    {
+      "epoch": 0.6808510638297872,
+      "grad_norm": 3.3351776599884033,
+      "learning_rate": 5.601443005897012e-06,
+      "loss": 0.2535,
+      "step": 256
+    },
+    {
+      "epoch": 0.6835106382978723,
+      "grad_norm": 2.3642754554748535,
+      "learning_rate": 5.5181618576146e-06,
+      "loss": 0.2234,
+      "step": 257
+    },
+    {
+      "epoch": 0.6861702127659575,
+      "grad_norm": 2.9997129440307617,
+      "learning_rate": 5.435267895101303e-06,
+      "loss": 0.2643,
+      "step": 258
+    },
+    {
+      "epoch": 0.6888297872340425,
+      "grad_norm": 2.4532787799835205,
+      "learning_rate": 5.352768279562315e-06,
+      "loss": 0.2621,
+      "step": 259
+    },
+    {
+      "epoch": 0.6914893617021277,
+      "grad_norm": 2.572538137435913,
+      "learning_rate": 5.270670138135234e-06,
+      "loss": 0.2499,
+      "step": 260
+    },
+    {
+      "epoch": 0.6914893617021277,
+      "eval_accuracy": 0.8247058823529412,
+      "eval_f1": 0.5299684542586751,
+      "eval_loss": 0.3885125517845154,
+      "eval_precision": 0.7241379310344828,
+      "eval_recall": 0.417910447761194,
+      "eval_runtime": 33.8843,
+      "eval_samples_per_second": 6.611,
+      "eval_steps_per_second": 0.207,
+      "step": 260
+    },
+    {
+      "epoch": 0.6941489361702128,
+      "grad_norm": 2.906144618988037,
+      "learning_rate": 5.188980563274315e-06,
+      "loss": 0.3095,
+      "step": 261
+    },
+    {
+      "epoch": 0.6968085106382979,
+      "grad_norm": 2.319133996963501,
+      "learning_rate": 5.107706612137776e-06,
+      "loss": 0.2388,
+      "step": 262
+    },
+    {
+      "epoch": 0.699468085106383,
+      "grad_norm": 3.162642478942871,
+      "learning_rate": 5.026855305978129e-06,
+      "loss": 0.2462,
+      "step": 263
+    },
+    {
+      "epoch": 0.7021276595744681,
+      "grad_norm": 2.749540090560913,
+      "learning_rate": 4.946433629535585e-06,
+      "loss": 0.2659,
+      "step": 264
+    },
+    {
+      "epoch": 0.7047872340425532,
+      "grad_norm": 2.891836643218994,
+      "learning_rate": 4.866448530434692e-06,
+      "loss": 0.2332,
+      "step": 265
+    },
+    {
+      "epoch": 0.7074468085106383,
+      "grad_norm": 2.4717514514923096,
+      "learning_rate": 4.786906918584083e-06,
+      "loss": 0.2136,
+      "step": 266
+    },
+    {
+      "epoch": 0.7101063829787234,
+      "grad_norm": 2.679591655731201,
+      "learning_rate": 4.707815665579569e-06,
+      "loss": 0.3036,
+      "step": 267
+    },
+    {
+      "epoch": 0.7127659574468085,
+      "grad_norm": 2.3344614505767822,
+      "learning_rate": 4.629181604110464e-06,
+      "loss": 0.2853,
+      "step": 268
+    },
+    {
+      "epoch": 0.7154255319148937,
+      "grad_norm": 2.839320182800293,
+      "learning_rate": 4.551011527369348e-06,
+      "loss": 0.2394,
+      "step": 269
+    },
+    {
+      "epoch": 0.7180851063829787,
+      "grad_norm": 2.27245831489563,
+      "learning_rate": 4.4733121884651665e-06,
+      "loss": 0.2496,
+      "step": 270
+    },
+    {
+      "epoch": 0.7207446808510638,
+      "grad_norm": 3.038536548614502,
+      "learning_rate": 4.3960902998398524e-06,
+      "loss": 0.2787,
+      "step": 271
+    },
+    {
+      "epoch": 0.723404255319149,
+      "grad_norm": 3.1204025745391846,
+      "learning_rate": 4.319352532688444e-06,
+      "loss": 0.2678,
+      "step": 272
+    },
+    {
+      "epoch": 0.726063829787234,
+      "grad_norm": 3.8436288833618164,
+      "learning_rate": 4.243105516382732e-06,
+      "loss": 0.2405,
+      "step": 273
+    },
+    {
+      "epoch": 0.7287234042553191,
+      "grad_norm": 3.1559836864471436,
+      "learning_rate": 4.167355837898585e-06,
+      "loss": 0.2881,
+      "step": 274
+    },
+    {
+      "epoch": 0.7313829787234043,
+      "grad_norm": 2.5084681510925293,
+      "learning_rate": 4.092110041246865e-06,
+      "loss": 0.2365,
+      "step": 275
+    },
+    {
+      "epoch": 0.7340425531914894,
+      "grad_norm": 3.0584487915039062,
+      "learning_rate": 4.017374626908125e-06,
+      "loss": 0.2808,
+      "step": 276
+    },
+    {
+      "epoch": 0.7367021276595744,
+      "grad_norm": 3.6234519481658936,
+      "learning_rate": 3.943156051271003e-06,
+      "loss": 0.2993,
+      "step": 277
+    },
+    {
+      "epoch": 0.7393617021276596,
+      "grad_norm": 1.8584307432174683,
+      "learning_rate": 3.8694607260744745e-06,
+      "loss": 0.2012,
+      "step": 278
+    },
+    {
+      "epoch": 0.7420212765957447,
+      "grad_norm": 2.4248085021972656,
+      "learning_rate": 3.7962950178539282e-06,
+      "loss": 0.2352,
+      "step": 279
+    },
+    {
+      "epoch": 0.7446808510638298,
+      "grad_norm": 2.5359675884246826,
+      "learning_rate": 3.7236652473911817e-06,
+      "loss": 0.2121,
+      "step": 280
+    },
+    {
+      "epoch": 0.7446808510638298,
+      "eval_accuracy": 0.8223529411764706,
+      "eval_f1": 0.5175718849840255,
+      "eval_loss": 0.3953240215778351,
+      "eval_precision": 0.7232142857142857,
+      "eval_recall": 0.40298507462686567,
+      "eval_runtime": 34.1139,
+      "eval_samples_per_second": 6.566,
+      "eval_steps_per_second": 0.205,
+      "step": 280
+    },
+    {
+      "epoch": 0.7473404255319149,
+      "grad_norm": 2.3844354152679443,
+      "learning_rate": 3.651577689168405e-06,
+      "loss": 0.2212,
+      "step": 281
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 2.8635263442993164,
+      "learning_rate": 3.580038570826093e-06,
+      "loss": 0.2259,
+      "step": 282
+    },
+    {
+      "epoch": 0.7526595744680851,
+      "grad_norm": 3.1672933101654053,
+      "learning_rate": 3.509054072625031e-06,
+      "loss": 0.2691,
+      "step": 283
+    },
+    {
+      "epoch": 0.7553191489361702,
+      "grad_norm": 3.298377752304077,
+      "learning_rate": 3.4386303269124142e-06,
+      "loss": 0.261,
+      "step": 284
+    },
+    {
+      "epoch": 0.7579787234042553,
+      "grad_norm": 3.3718481063842773,
+      "learning_rate": 3.3687734175920505e-06,
+      "loss": 0.2842,
+      "step": 285
+    },
+    {
+      "epoch": 0.7606382978723404,
+      "grad_norm": 2.822702646255493,
+      "learning_rate": 3.299489379598777e-06,
+      "loss": 0.2416,
+      "step": 286
+    },
+    {
+      "epoch": 0.7632978723404256,
+      "grad_norm": 3.209895372390747,
+      "learning_rate": 3.2307841983771182e-06,
+      "loss": 0.2706,
+      "step": 287
+    },
+    {
+      "epoch": 0.7659574468085106,
+      "grad_norm": 2.953824996948242,
+      "learning_rate": 3.162663809364178e-06,
+      "loss": 0.2629,
+      "step": 288
+    },
+    {
+      "epoch": 0.7686170212765957,
+      "grad_norm": 4.190698623657227,
+      "learning_rate": 3.095134097476904e-06,
+      "loss": 0.2609,
+      "step": 289
+    },
+    {
+      "epoch": 0.7712765957446809,
+      "grad_norm": 4.36337423324585,
+      "learning_rate": 3.0282008966036647e-06,
+      "loss": 0.2549,
+      "step": 290
+    },
+    {
+      "epoch": 0.773936170212766,
+      "grad_norm": 2.8681600093841553,
+      "learning_rate": 2.9618699891002843e-06,
+      "loss": 0.2464,
+      "step": 291
+    },
+    {
+      "epoch": 0.776595744680851,
+      "grad_norm": 3.781843900680542,
+      "learning_rate": 2.8961471052904855e-06,
+      "loss": 0.3261,
+      "step": 292
+    },
+    {
+      "epoch": 0.7792553191489362,
+      "grad_norm": 3.1815481185913086,
+      "learning_rate": 2.831037922970855e-06,
+      "loss": 0.2659,
+      "step": 293
+    },
+    {
+      "epoch": 0.7819148936170213,
+      "grad_norm": 3.2825517654418945,
+      "learning_rate": 2.7665480669203383e-06,
+      "loss": 0.2239,
+      "step": 294
+    },
+    {
+      "epoch": 0.7845744680851063,
+      "grad_norm": 2.418006420135498,
+      "learning_rate": 2.702683108414326e-06,
+      "loss": 0.2476,
+      "step": 295
+    },
+    {
+      "epoch": 0.7872340425531915,
+      "grad_norm": 3.483743906021118,
+      "learning_rate": 2.639448564743328e-06,
+      "loss": 0.2306,
+      "step": 296
+    },
+    {
+      "epoch": 0.7898936170212766,
+      "grad_norm": 3.201629638671875,
+      "learning_rate": 2.57684989873636e-06,
+      "loss": 0.2562,
+      "step": 297
+    },
+    {
+      "epoch": 0.7925531914893617,
+      "grad_norm": 2.7855303287506104,
+      "learning_rate": 2.514892518288988e-06,
+      "loss": 0.2245,
+      "step": 298
+    },
+    {
+      "epoch": 0.7952127659574468,
+      "grad_norm": 3.742940664291382,
+      "learning_rate": 2.4535817758961644e-06,
+      "loss": 0.3192,
+      "step": 299
+    },
+    {
+      "epoch": 0.7978723404255319,
+      "grad_norm": 2.966266393661499,
+      "learning_rate": 2.3929229681898005e-06,
+      "loss": 0.2704,
+      "step": 300
+    },
+    {
+      "epoch": 0.7978723404255319,
+      "eval_accuracy": 0.8329411764705882,
+      "eval_f1": 0.5644171779141104,
+      "eval_loss": 0.38487711548805237,
+      "eval_precision": 0.736,
+      "eval_recall": 0.4577114427860697,
+      "eval_runtime": 33.5166,
+      "eval_samples_per_second": 6.683,
+      "eval_steps_per_second": 0.209,
+      "step": 300
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 9.717414664287027e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null