27000

Browse files

Files changed (5) hide show

model.safetensors +1 -1
optimizer.pt +1 -1
rng_state.pth +1 -1
scheduler.pt +1 -1
trainer_state.json +1645 -5

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a589d8f297ce0cb1f4669b9b33fe8fcdc1dad90dda103bf5896f6dcd8849e9e9
 size 437955572

 version https://git-lfs.github.com/spec/v1
+oid sha256:27fbfe65ce71c3fc50df7b71246c83fe9b6da329f9572d957a9355f7d290a1bc
 size 437955572

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f466bee5090bf14a0f63bf11698d910303fa47c7b4e1bfcec82129d6675dbc2d
 size 4735250

 version https://git-lfs.github.com/spec/v1
+oid sha256:06bcda9875d78e84a67823f2816a0b70c9f4ef59eaaf3c751f57fc4c23e1bf7a
 size 4735250

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f29f533dcf5ca51daa42f8c902a3efeaef4392274e0947ca0b572950a8230ea
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:d528da29fcd37f6a0dc448517a000f9d27057f065cda48d9c2f61cad3ea082b2
 size 14180

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80e5dc59d04522e0b163280cdeee9810a4aa398767a7c0437325a0272e0591b6
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:807cda89e32cea0b443893509b253215295b99009aaa01c922bdd6035bfc2f66
 size 1064

trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.4678440617843855,
-  "best_model_checkpoint": "/fsx/anton/cosmopedia/edu_score/bert_snowflake_regression_4/checkpoint-7000",
-  "epoch": 4.247572815533981,
   "eval_steps": 1000,
-  "global_step": 7000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -581,6 +581,1646 @@
       "eval_samples_per_second": 733.432,
       "eval_steps_per_second": 5.743,
       "step": 7000
     }
   ],
   "logging_steps": 100,
@@ -588,7 +2228,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 20,
   "save_steps": 1000,
-  "total_flos": 4.713992160165028e+17,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.4959826756763837,
+  "best_model_checkpoint": "/fsx/anton/cosmopedia/edu_score/bert_snowflake_regression_4/checkpoint-27000",
+  "epoch": 16.383495145631066,
   "eval_steps": 1000,
+  "global_step": 27000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 733.432,
       "eval_steps_per_second": 5.743,
       "step": 7000
+    },
+    {
+      "epoch": 4.308252427184466,
+      "grad_norm": 0.40426695346832275,
+      "learning_rate": 0.000235376213592233,
+      "loss": 0.2722,
+      "step": 7100
+    },
+    {
+      "epoch": 4.368932038834951,
+      "grad_norm": 0.4849171042442322,
+      "learning_rate": 0.0002344660194174757,
+      "loss": 0.273,
+      "step": 7200
+    },
+    {
+      "epoch": 4.429611650485437,
+      "grad_norm": 0.7887744307518005,
+      "learning_rate": 0.00023355582524271844,
+      "loss": 0.2711,
+      "step": 7300
+    },
+    {
+      "epoch": 4.490291262135923,
+      "grad_norm": 1.282893419265747,
+      "learning_rate": 0.00023264563106796115,
+      "loss": 0.2633,
+      "step": 7400
+    },
+    {
+      "epoch": 4.550970873786408,
+      "grad_norm": 0.4942808449268341,
+      "learning_rate": 0.00023173543689320386,
+      "loss": 0.2655,
+      "step": 7500
+    },
+    {
+      "epoch": 4.611650485436893,
+      "grad_norm": 0.4098761975765228,
+      "learning_rate": 0.0002308252427184466,
+      "loss": 0.2719,
+      "step": 7600
+    },
+    {
+      "epoch": 4.672330097087379,
+      "grad_norm": 1.1584999561309814,
+      "learning_rate": 0.0002299150485436893,
+      "loss": 0.2646,
+      "step": 7700
+    },
+    {
+      "epoch": 4.733009708737864,
+      "grad_norm": 0.5956116318702698,
+      "learning_rate": 0.00022900485436893204,
+      "loss": 0.2681,
+      "step": 7800
+    },
+    {
+      "epoch": 4.793689320388349,
+      "grad_norm": 0.7886734008789062,
+      "learning_rate": 0.00022809466019417472,
+      "loss": 0.2648,
+      "step": 7900
+    },
+    {
+      "epoch": 4.854368932038835,
+      "grad_norm": 0.7086551785469055,
+      "learning_rate": 0.00022718446601941746,
+      "loss": 0.2667,
+      "step": 8000
+    },
+    {
+      "epoch": 4.854368932038835,
+      "eval_accuracy": 0.7028826253013848,
+      "eval_f1_macro": 0.4680422447785217,
+      "eval_loss": 0.2663130462169647,
+      "eval_precision": 0.5388642351614853,
+      "eval_recall": 0.4370831407609595,
+      "eval_runtime": 63.9774,
+      "eval_samples_per_second": 732.556,
+      "eval_steps_per_second": 5.736,
+      "step": 8000
+    },
+    {
+      "epoch": 4.915048543689321,
+      "grad_norm": 0.6959311366081238,
+      "learning_rate": 0.0002262742718446602,
+      "loss": 0.2662,
+      "step": 8100
+    },
+    {
+      "epoch": 4.975728155339806,
+      "grad_norm": 1.318164587020874,
+      "learning_rate": 0.0002253640776699029,
+      "loss": 0.2679,
+      "step": 8200
+    },
+    {
+      "epoch": 5.036407766990291,
+      "grad_norm": 0.5080001354217529,
+      "learning_rate": 0.00022445388349514561,
+      "loss": 0.2662,
+      "step": 8300
+    },
+    {
+      "epoch": 5.097087378640777,
+      "grad_norm": 0.40693196654319763,
+      "learning_rate": 0.00022354368932038832,
+      "loss": 0.2641,
+      "step": 8400
+    },
+    {
+      "epoch": 5.157766990291262,
+      "grad_norm": 0.42492175102233887,
+      "learning_rate": 0.00022263349514563106,
+      "loss": 0.2669,
+      "step": 8500
+    },
+    {
+      "epoch": 5.218446601941747,
+      "grad_norm": 0.9580904841423035,
+      "learning_rate": 0.00022172330097087374,
+      "loss": 0.2613,
+      "step": 8600
+    },
+    {
+      "epoch": 5.279126213592233,
+      "grad_norm": 0.573049008846283,
+      "learning_rate": 0.00022081310679611648,
+      "loss": 0.26,
+      "step": 8700
+    },
+    {
+      "epoch": 5.339805825242719,
+      "grad_norm": 0.7355623841285706,
+      "learning_rate": 0.00021990291262135922,
+      "loss": 0.2682,
+      "step": 8800
+    },
+    {
+      "epoch": 5.400485436893204,
+      "grad_norm": 0.5867640972137451,
+      "learning_rate": 0.00021899271844660193,
+      "loss": 0.2677,
+      "step": 8900
+    },
+    {
+      "epoch": 5.461165048543689,
+      "grad_norm": 1.283672571182251,
+      "learning_rate": 0.00021808252427184464,
+      "loss": 0.2582,
+      "step": 9000
+    },
+    {
+      "epoch": 5.461165048543689,
+      "eval_accuracy": 0.7030319841252907,
+      "eval_f1_macro": 0.476191462667983,
+      "eval_loss": 0.2642744779586792,
+      "eval_precision": 0.5389130008234221,
+      "eval_recall": 0.4475692410266268,
+      "eval_runtime": 63.527,
+      "eval_samples_per_second": 737.749,
+      "eval_steps_per_second": 5.777,
+      "step": 9000
+    },
+    {
+      "epoch": 5.521844660194175,
+      "grad_norm": 0.4764248728752136,
+      "learning_rate": 0.00021717233009708735,
+      "loss": 0.2596,
+      "step": 9100
+    },
+    {
+      "epoch": 5.58252427184466,
+      "grad_norm": 0.7470163106918335,
+      "learning_rate": 0.00021626213592233008,
+      "loss": 0.2632,
+      "step": 9200
+    },
+    {
+      "epoch": 5.643203883495145,
+      "grad_norm": 0.7628265023231506,
+      "learning_rate": 0.00021535194174757282,
+      "loss": 0.2583,
+      "step": 9300
+    },
+    {
+      "epoch": 5.703883495145631,
+      "grad_norm": 0.4257694184780121,
+      "learning_rate": 0.0002144417475728155,
+      "loss": 0.2627,
+      "step": 9400
+    },
+    {
+      "epoch": 5.764563106796117,
+      "grad_norm": 0.5351702570915222,
+      "learning_rate": 0.00021353155339805824,
+      "loss": 0.2578,
+      "step": 9500
+    },
+    {
+      "epoch": 5.825242718446602,
+      "grad_norm": 1.9470020532608032,
+      "learning_rate": 0.00021262135922330095,
+      "loss": 0.2599,
+      "step": 9600
+    },
+    {
+      "epoch": 5.885922330097087,
+      "grad_norm": 0.41918280720710754,
+      "learning_rate": 0.00021171116504854369,
+      "loss": 0.2604,
+      "step": 9700
+    },
+    {
+      "epoch": 5.946601941747573,
+      "grad_norm": 0.7866085767745972,
+      "learning_rate": 0.00021080097087378637,
+      "loss": 0.2645,
+      "step": 9800
+    },
+    {
+      "epoch": 6.007281553398058,
+      "grad_norm": 0.773632287979126,
+      "learning_rate": 0.0002098907766990291,
+      "loss": 0.2594,
+      "step": 9900
+    },
+    {
+      "epoch": 6.067961165048544,
+      "grad_norm": 0.905390202999115,
+      "learning_rate": 0.00020898058252427184,
+      "loss": 0.2587,
+      "step": 10000
+    },
+    {
+      "epoch": 6.067961165048544,
+      "eval_accuracy": 0.7069153135468453,
+      "eval_f1_macro": 0.47329615730761665,
+      "eval_loss": 0.26157495379447937,
+      "eval_precision": 0.5382757148939651,
+      "eval_recall": 0.4417990410758896,
+      "eval_runtime": 64.0102,
+      "eval_samples_per_second": 732.181,
+      "eval_steps_per_second": 5.733,
+      "step": 10000
+    },
+    {
+      "epoch": 6.128640776699029,
+      "grad_norm": 0.7645794749259949,
+      "learning_rate": 0.00020807038834951455,
+      "loss": 0.2584,
+      "step": 10100
+    },
+    {
+      "epoch": 6.189320388349515,
+      "grad_norm": 0.80213862657547,
+      "learning_rate": 0.00020716019417475726,
+      "loss": 0.2576,
+      "step": 10200
+    },
+    {
+      "epoch": 6.25,
+      "grad_norm": 0.49435296654701233,
+      "learning_rate": 0.00020624999999999997,
+      "loss": 0.2578,
+      "step": 10300
+    },
+    {
+      "epoch": 6.310679611650485,
+      "grad_norm": 1.2024767398834229,
+      "learning_rate": 0.0002053398058252427,
+      "loss": 0.2628,
+      "step": 10400
+    },
+    {
+      "epoch": 6.371359223300971,
+      "grad_norm": 0.43948036432266235,
+      "learning_rate": 0.0002044296116504854,
+      "loss": 0.2555,
+      "step": 10500
+    },
+    {
+      "epoch": 6.432038834951456,
+      "grad_norm": 1.0257009267807007,
+      "learning_rate": 0.00020351941747572813,
+      "loss": 0.2582,
+      "step": 10600
+    },
+    {
+      "epoch": 6.492718446601942,
+      "grad_norm": 1.2218210697174072,
+      "learning_rate": 0.00020260922330097086,
+      "loss": 0.2603,
+      "step": 10700
+    },
+    {
+      "epoch": 6.553398058252427,
+      "grad_norm": 0.43541598320007324,
+      "learning_rate": 0.00020169902912621357,
+      "loss": 0.2529,
+      "step": 10800
+    },
+    {
+      "epoch": 6.614077669902913,
+      "grad_norm": 0.4533527195453644,
+      "learning_rate": 0.00020078883495145628,
+      "loss": 0.255,
+      "step": 10900
+    },
+    {
+      "epoch": 6.674757281553398,
+      "grad_norm": 0.714527428150177,
+      "learning_rate": 0.000199878640776699,
+      "loss": 0.2524,
+      "step": 11000
+    },
+    {
+      "epoch": 6.674757281553398,
+      "eval_accuracy": 0.7088356412827789,
+      "eval_f1_macro": 0.471743421411692,
+      "eval_loss": 0.2603248357772827,
+      "eval_precision": 0.5487634473468738,
+      "eval_recall": 0.43766522368406974,
+      "eval_runtime": 64.8962,
+      "eval_samples_per_second": 722.184,
+      "eval_steps_per_second": 5.655,
+      "step": 11000
+    },
+    {
+      "epoch": 6.735436893203883,
+      "grad_norm": 0.6983916163444519,
+      "learning_rate": 0.00019896844660194173,
+      "loss": 0.2585,
+      "step": 11100
+    },
+    {
+      "epoch": 6.796116504854369,
+      "grad_norm": 0.8627694845199585,
+      "learning_rate": 0.00019805825242718447,
+      "loss": 0.2557,
+      "step": 11200
+    },
+    {
+      "epoch": 6.856796116504855,
+      "grad_norm": 0.40715476870536804,
+      "learning_rate": 0.00019714805825242715,
+      "loss": 0.2588,
+      "step": 11300
+    },
+    {
+      "epoch": 6.91747572815534,
+      "grad_norm": 1.0038883686065674,
+      "learning_rate": 0.0001962378640776699,
+      "loss": 0.2542,
+      "step": 11400
+    },
+    {
+      "epoch": 6.978155339805825,
+      "grad_norm": 0.941238522529602,
+      "learning_rate": 0.0001953276699029126,
+      "loss": 0.2597,
+      "step": 11500
+    },
+    {
+      "epoch": 7.038834951456311,
+      "grad_norm": 0.6316859722137451,
+      "learning_rate": 0.00019441747572815533,
+      "loss": 0.2576,
+      "step": 11600
+    },
+    {
+      "epoch": 7.099514563106796,
+      "grad_norm": 0.5387765169143677,
+      "learning_rate": 0.00019350728155339804,
+      "loss": 0.2525,
+      "step": 11700
+    },
+    {
+      "epoch": 7.160194174757281,
+      "grad_norm": 0.9042656421661377,
+      "learning_rate": 0.00019259708737864075,
+      "loss": 0.2552,
+      "step": 11800
+    },
+    {
+      "epoch": 7.220873786407767,
+      "grad_norm": 0.6641530990600586,
+      "learning_rate": 0.0001916868932038835,
+      "loss": 0.2495,
+      "step": 11900
+    },
+    {
+      "epoch": 7.281553398058253,
+      "grad_norm": 1.050493836402893,
+      "learning_rate": 0.0001907766990291262,
+      "loss": 0.2538,
+      "step": 12000
+    },
+    {
+      "epoch": 7.281553398058253,
+      "eval_accuracy": 0.7098171421255894,
+      "eval_f1_macro": 0.4800779183645662,
+      "eval_loss": 0.25889766216278076,
+      "eval_precision": 0.5445483450890162,
+      "eval_recall": 0.44845043483484776,
+      "eval_runtime": 63.7915,
+      "eval_samples_per_second": 734.69,
+      "eval_steps_per_second": 5.753,
+      "step": 12000
+    },
+    {
+      "epoch": 7.342233009708738,
+      "grad_norm": 0.7460100054740906,
+      "learning_rate": 0.0001898665048543689,
+      "loss": 0.2576,
+      "step": 12100
+    },
+    {
+      "epoch": 7.402912621359223,
+      "grad_norm": 1.8915176391601562,
+      "learning_rate": 0.00018895631067961165,
+      "loss": 0.2563,
+      "step": 12200
+    },
+    {
+      "epoch": 7.463592233009709,
+      "grad_norm": 0.6642426252365112,
+      "learning_rate": 0.00018804611650485436,
+      "loss": 0.2515,
+      "step": 12300
+    },
+    {
+      "epoch": 7.524271844660194,
+      "grad_norm": 0.7037068009376526,
+      "learning_rate": 0.00018713592233009707,
+      "loss": 0.2525,
+      "step": 12400
+    },
+    {
+      "epoch": 7.584951456310679,
+      "grad_norm": 0.44775909185409546,
+      "learning_rate": 0.00018622572815533978,
+      "loss": 0.2557,
+      "step": 12500
+    },
+    {
+      "epoch": 7.645631067961165,
+      "grad_norm": 1.2254287004470825,
+      "learning_rate": 0.0001853155339805825,
+      "loss": 0.252,
+      "step": 12600
+    },
+    {
+      "epoch": 7.706310679611651,
+      "grad_norm": 0.7916478514671326,
+      "learning_rate": 0.00018440533980582525,
+      "loss": 0.2503,
+      "step": 12700
+    },
+    {
+      "epoch": 7.766990291262136,
+      "grad_norm": 0.5165425539016724,
+      "learning_rate": 0.00018349514563106793,
+      "loss": 0.259,
+      "step": 12800
+    },
+    {
+      "epoch": 7.827669902912621,
+      "grad_norm": 0.45590564608573914,
+      "learning_rate": 0.00018258495145631067,
+      "loss": 0.2536,
+      "step": 12900
+    },
+    {
+      "epoch": 7.888349514563107,
+      "grad_norm": 0.7460587620735168,
+      "learning_rate": 0.00018167475728155338,
+      "loss": 0.2536,
+      "step": 13000
+    },
+    {
+      "epoch": 7.888349514563107,
+      "eval_accuracy": 0.7118014807860542,
+      "eval_f1_macro": 0.48153346170307537,
+      "eval_loss": 0.2587451934814453,
+      "eval_precision": 0.5428621211876972,
+      "eval_recall": 0.44971967808318786,
+      "eval_runtime": 63.3555,
+      "eval_samples_per_second": 739.747,
+      "eval_steps_per_second": 5.793,
+      "step": 13000
+    },
+    {
+      "epoch": 7.949029126213592,
+      "grad_norm": 0.5832739472389221,
+      "learning_rate": 0.00018076456310679612,
+      "loss": 0.2549,
+      "step": 13100
+    },
+    {
+      "epoch": 8.009708737864077,
+      "grad_norm": 0.991656482219696,
+      "learning_rate": 0.0001798543689320388,
+      "loss": 0.2516,
+      "step": 13200
+    },
+    {
+      "epoch": 8.070388349514563,
+      "grad_norm": 0.5339873433113098,
+      "learning_rate": 0.00017894417475728154,
+      "loss": 0.2492,
+      "step": 13300
+    },
+    {
+      "epoch": 8.131067961165048,
+      "grad_norm": 0.5186127424240112,
+      "learning_rate": 0.00017803398058252427,
+      "loss": 0.2521,
+      "step": 13400
+    },
+    {
+      "epoch": 8.191747572815533,
+      "grad_norm": 0.7012351751327515,
+      "learning_rate": 0.00017712378640776698,
+      "loss": 0.247,
+      "step": 13500
+    },
+    {
+      "epoch": 8.25242718446602,
+      "grad_norm": 0.5204672813415527,
+      "learning_rate": 0.0001762135922330097,
+      "loss": 0.2528,
+      "step": 13600
+    },
+    {
+      "epoch": 8.313106796116505,
+      "grad_norm": 0.46670639514923096,
+      "learning_rate": 0.0001753033980582524,
+      "loss": 0.2484,
+      "step": 13700
+    },
+    {
+      "epoch": 8.37378640776699,
+      "grad_norm": 0.8041334748268127,
+      "learning_rate": 0.00017439320388349514,
+      "loss": 0.2534,
+      "step": 13800
+    },
+    {
+      "epoch": 8.434466019417476,
+      "grad_norm": 0.482832133769989,
+      "learning_rate": 0.00017348300970873787,
+      "loss": 0.2463,
+      "step": 13900
+    },
+    {
+      "epoch": 8.495145631067961,
+      "grad_norm": 0.9541172981262207,
+      "learning_rate": 0.00017257281553398056,
+      "loss": 0.2527,
+      "step": 14000
+    },
+    {
+      "epoch": 8.495145631067961,
+      "eval_accuracy": 0.7112040454904304,
+      "eval_f1_macro": 0.4703790685018183,
+      "eval_loss": 0.2594839036464691,
+      "eval_precision": 0.5469933734414426,
+      "eval_recall": 0.43675078934194306,
+      "eval_runtime": 64.5706,
+      "eval_samples_per_second": 725.825,
+      "eval_steps_per_second": 5.684,
+      "step": 14000
+    },
+    {
+      "epoch": 8.555825242718447,
+      "grad_norm": 0.41729798913002014,
+      "learning_rate": 0.0001716626213592233,
+      "loss": 0.2566,
+      "step": 14100
+    },
+    {
+      "epoch": 8.616504854368932,
+      "grad_norm": 1.1643282175064087,
+      "learning_rate": 0.000170752427184466,
+      "loss": 0.2492,
+      "step": 14200
+    },
+    {
+      "epoch": 8.677184466019417,
+      "grad_norm": 0.5015943050384521,
+      "learning_rate": 0.00016984223300970874,
+      "loss": 0.2484,
+      "step": 14300
+    },
+    {
+      "epoch": 8.737864077669903,
+      "grad_norm": 0.6088297963142395,
+      "learning_rate": 0.00016893203883495142,
+      "loss": 0.2481,
+      "step": 14400
+    },
+    {
+      "epoch": 8.798543689320388,
+      "grad_norm": 0.6608941555023193,
+      "learning_rate": 0.00016802184466019416,
+      "loss": 0.2509,
+      "step": 14500
+    },
+    {
+      "epoch": 8.859223300970873,
+      "grad_norm": 0.506313145160675,
+      "learning_rate": 0.0001671116504854369,
+      "loss": 0.2488,
+      "step": 14600
+    },
+    {
+      "epoch": 8.919902912621358,
+      "grad_norm": 0.579694390296936,
+      "learning_rate": 0.00016620145631067958,
+      "loss": 0.252,
+      "step": 14700
+    },
+    {
+      "epoch": 8.980582524271846,
+      "grad_norm": 1.048781156539917,
+      "learning_rate": 0.00016529126213592232,
+      "loss": 0.2569,
+      "step": 14800
+    },
+    {
+      "epoch": 9.04126213592233,
+      "grad_norm": 0.4762475788593292,
+      "learning_rate": 0.00016438106796116503,
+      "loss": 0.247,
+      "step": 14900
+    },
+    {
+      "epoch": 9.101941747572816,
+      "grad_norm": 0.5784612894058228,
+      "learning_rate": 0.00016347087378640776,
+      "loss": 0.249,
+      "step": 15000
+    },
+    {
+      "epoch": 9.101941747572816,
+      "eval_accuracy": 0.7119295026351163,
+      "eval_f1_macro": 0.48462198319681066,
+      "eval_loss": 0.2577269971370697,
+      "eval_precision": 0.6220453203620933,
+      "eval_recall": 0.45259946630146386,
+      "eval_runtime": 63.7117,
+      "eval_samples_per_second": 735.611,
+      "eval_steps_per_second": 5.76,
+      "step": 15000
+    },
+    {
+      "epoch": 9.162621359223301,
+      "grad_norm": 1.0214685201644897,
+      "learning_rate": 0.00016256067961165045,
+      "loss": 0.2449,
+      "step": 15100
+    },
+    {
+      "epoch": 9.223300970873787,
+      "grad_norm": 0.5309824347496033,
+      "learning_rate": 0.00016165048543689318,
+      "loss": 0.2456,
+      "step": 15200
+    },
+    {
+      "epoch": 9.283980582524272,
+      "grad_norm": 2.5317320823669434,
+      "learning_rate": 0.00016074029126213592,
+      "loss": 0.2428,
+      "step": 15300
+    },
+    {
+      "epoch": 9.344660194174757,
+      "grad_norm": 0.588573157787323,
+      "learning_rate": 0.00015983009708737863,
+      "loss": 0.2451,
+      "step": 15400
+    },
+    {
+      "epoch": 9.405339805825243,
+      "grad_norm": 0.687719464302063,
+      "learning_rate": 0.00015891990291262134,
+      "loss": 0.2503,
+      "step": 15500
+    },
+    {
+      "epoch": 9.466019417475728,
+      "grad_norm": 1.0443726778030396,
+      "learning_rate": 0.00015800970873786405,
+      "loss": 0.2485,
+      "step": 15600
+    },
+    {
+      "epoch": 9.526699029126213,
+      "grad_norm": 1.1230727434158325,
+      "learning_rate": 0.00015709951456310679,
+      "loss": 0.2479,
+      "step": 15700
+    },
+    {
+      "epoch": 9.587378640776699,
+      "grad_norm": 0.6641112565994263,
+      "learning_rate": 0.00015618932038834952,
+      "loss": 0.2489,
+      "step": 15800
+    },
+    {
+      "epoch": 9.648058252427184,
+      "grad_norm": 0.4918789863586426,
+      "learning_rate": 0.0001552791262135922,
+      "loss": 0.2481,
+      "step": 15900
+    },
+    {
+      "epoch": 9.70873786407767,
+      "grad_norm": 0.7862838506698608,
+      "learning_rate": 0.00015436893203883494,
+      "loss": 0.2481,
+      "step": 16000
+    },
+    {
+      "epoch": 9.70873786407767,
+      "eval_accuracy": 0.713487101798707,
+      "eval_f1_macro": 0.4839261840621368,
+      "eval_loss": 0.2561655640602112,
+      "eval_precision": 0.6345013597016592,
+      "eval_recall": 0.4492915653199398,
+      "eval_runtime": 63.9745,
+      "eval_samples_per_second": 732.589,
+      "eval_steps_per_second": 5.737,
+      "step": 16000
+    },
+    {
+      "epoch": 9.769417475728154,
+      "grad_norm": 0.8769936561584473,
+      "learning_rate": 0.00015345873786407765,
+      "loss": 0.2479,
+      "step": 16100
+    },
+    {
+      "epoch": 9.830097087378642,
+      "grad_norm": 0.9663941860198975,
+      "learning_rate": 0.0001525485436893204,
+      "loss": 0.2548,
+      "step": 16200
+    },
+    {
+      "epoch": 9.890776699029127,
+      "grad_norm": 0.4475904405117035,
+      "learning_rate": 0.00015163834951456307,
+      "loss": 0.2504,
+      "step": 16300
+    },
+    {
+      "epoch": 9.951456310679612,
+      "grad_norm": 0.9180653691291809,
+      "learning_rate": 0.0001507281553398058,
+      "loss": 0.246,
+      "step": 16400
+    },
+    {
+      "epoch": 10.012135922330097,
+      "grad_norm": 1.1535005569458008,
+      "learning_rate": 0.00014981796116504852,
+      "loss": 0.2463,
+      "step": 16500
+    },
+    {
+      "epoch": 10.072815533980583,
+      "grad_norm": 0.5621392130851746,
+      "learning_rate": 0.00014890776699029125,
+      "loss": 0.2432,
+      "step": 16600
+    },
+    {
+      "epoch": 10.133495145631068,
+      "grad_norm": 0.5198004245758057,
+      "learning_rate": 0.00014799757281553396,
+      "loss": 0.2463,
+      "step": 16700
+    },
+    {
+      "epoch": 10.194174757281553,
+      "grad_norm": 0.7625685930252075,
+      "learning_rate": 0.00014708737864077667,
+      "loss": 0.2474,
+      "step": 16800
+    },
+    {
+      "epoch": 10.254854368932039,
+      "grad_norm": 0.4673856794834137,
+      "learning_rate": 0.0001461771844660194,
+      "loss": 0.244,
+      "step": 16900
+    },
+    {
+      "epoch": 10.315533980582524,
+      "grad_norm": 0.6320896744728088,
+      "learning_rate": 0.00014526699029126212,
+      "loss": 0.241,
+      "step": 17000
+    },
+    {
+      "epoch": 10.315533980582524,
+      "eval_accuracy": 0.7026265816032603,
+      "eval_f1_macro": 0.4873663248833824,
+      "eval_loss": 0.2613597810268402,
+      "eval_precision": 0.5926410330413402,
+      "eval_recall": 0.46290412629796984,
+      "eval_runtime": 63.8686,
+      "eval_samples_per_second": 733.803,
+      "eval_steps_per_second": 5.746,
+      "step": 17000
+    },
+    {
+      "epoch": 10.37621359223301,
+      "grad_norm": 1.3767356872558594,
+      "learning_rate": 0.00014435679611650483,
+      "loss": 0.2431,
+      "step": 17100
+    },
+    {
+      "epoch": 10.436893203883495,
+      "grad_norm": 0.6615713834762573,
+      "learning_rate": 0.00014344660194174757,
+      "loss": 0.2401,
+      "step": 17200
+    },
+    {
+      "epoch": 10.49757281553398,
+      "grad_norm": 0.5104607343673706,
+      "learning_rate": 0.00014253640776699028,
+      "loss": 0.2467,
+      "step": 17300
+    },
+    {
+      "epoch": 10.558252427184467,
+      "grad_norm": 1.2690117359161377,
+      "learning_rate": 0.00014162621359223301,
+      "loss": 0.2474,
+      "step": 17400
+    },
+    {
+      "epoch": 10.618932038834952,
+      "grad_norm": 0.5738195180892944,
+      "learning_rate": 0.00014071601941747572,
+      "loss": 0.2508,
+      "step": 17500
+    },
+    {
+      "epoch": 10.679611650485437,
+      "grad_norm": 0.9724490642547607,
+      "learning_rate": 0.00013980582524271843,
+      "loss": 0.2457,
+      "step": 17600
+    },
+    {
+      "epoch": 10.740291262135923,
+      "grad_norm": 0.5149191617965698,
+      "learning_rate": 0.00013889563106796114,
+      "loss": 0.2453,
+      "step": 17700
+    },
+    {
+      "epoch": 10.800970873786408,
+      "grad_norm": 0.4608076512813568,
+      "learning_rate": 0.00013798543689320388,
+      "loss": 0.2461,
+      "step": 17800
+    },
+    {
+      "epoch": 10.861650485436893,
+      "grad_norm": 0.7955921292304993,
+      "learning_rate": 0.0001370752427184466,
+      "loss": 0.2427,
+      "step": 17900
+    },
+    {
+      "epoch": 10.922330097087379,
+      "grad_norm": 0.75131756067276,
+      "learning_rate": 0.00013616504854368933,
+      "loss": 0.2441,
+      "step": 18000
+    },
+    {
+      "epoch": 10.922330097087379,
+      "eval_accuracy": 0.712249557257772,
+      "eval_f1_macro": 0.48099926256661046,
+      "eval_loss": 0.2561965882778168,
+      "eval_precision": 0.6261557755424023,
+      "eval_recall": 0.44725199588180664,
+      "eval_runtime": 63.857,
+      "eval_samples_per_second": 733.937,
+      "eval_steps_per_second": 5.747,
+      "step": 18000
+    },
+    {
+      "epoch": 10.983009708737864,
+      "grad_norm": 0.791315495967865,
+      "learning_rate": 0.00013525485436893204,
+      "loss": 0.2486,
+      "step": 18100
+    },
+    {
+      "epoch": 11.04368932038835,
+      "grad_norm": 0.7312906980514526,
+      "learning_rate": 0.00013434466019417475,
+      "loss": 0.2431,
+      "step": 18200
+    },
+    {
+      "epoch": 11.104368932038835,
+      "grad_norm": 0.609377384185791,
+      "learning_rate": 0.00013343446601941746,
+      "loss": 0.2399,
+      "step": 18300
+    },
+    {
+      "epoch": 11.16504854368932,
+      "grad_norm": 0.5242405533790588,
+      "learning_rate": 0.0001325242718446602,
+      "loss": 0.2424,
+      "step": 18400
+    },
+    {
+      "epoch": 11.225728155339805,
+      "grad_norm": 0.6860948204994202,
+      "learning_rate": 0.0001316140776699029,
+      "loss": 0.2434,
+      "step": 18500
+    },
+    {
+      "epoch": 11.28640776699029,
+      "grad_norm": 2.105470657348633,
+      "learning_rate": 0.0001307038834951456,
+      "loss": 0.2393,
+      "step": 18600
+    },
+    {
+      "epoch": 11.347087378640778,
+      "grad_norm": 0.990110456943512,
+      "learning_rate": 0.00012979368932038835,
+      "loss": 0.2446,
+      "step": 18700
+    },
+    {
+      "epoch": 11.407766990291263,
+      "grad_norm": 0.5341915488243103,
+      "learning_rate": 0.00012888349514563106,
+      "loss": 0.2449,
+      "step": 18800
+    },
+    {
+      "epoch": 11.468446601941748,
+      "grad_norm": 1.2902977466583252,
+      "learning_rate": 0.00012797330097087377,
+      "loss": 0.245,
+      "step": 18900
+    },
+    {
+      "epoch": 11.529126213592233,
+      "grad_norm": 0.5241170525550842,
+      "learning_rate": 0.00012706310679611648,
+      "loss": 0.2433,
+      "step": 19000
+    },
+    {
+      "epoch": 11.529126213592233,
+      "eval_accuracy": 0.7136791345723004,
+      "eval_f1_macro": 0.47974793179174946,
+      "eval_loss": 0.25500378012657166,
+      "eval_precision": 0.5467676042682321,
+      "eval_recall": 0.44681795057266877,
+      "eval_runtime": 63.4183,
+      "eval_samples_per_second": 739.014,
+      "eval_steps_per_second": 5.787,
+      "step": 19000
+    },
+    {
+      "epoch": 11.589805825242719,
+      "grad_norm": 1.6583833694458008,
+      "learning_rate": 0.00012615291262135922,
+      "loss": 0.2444,
+      "step": 19100
+    },
+    {
+      "epoch": 11.650485436893204,
+      "grad_norm": 0.5068759322166443,
+      "learning_rate": 0.00012524271844660192,
+      "loss": 0.2417,
+      "step": 19200
+    },
+    {
+      "epoch": 11.71116504854369,
+      "grad_norm": 0.8810881972312927,
+      "learning_rate": 0.00012433252427184466,
+      "loss": 0.2443,
+      "step": 19300
+    },
+    {
+      "epoch": 11.771844660194175,
+      "grad_norm": 1.347113847732544,
+      "learning_rate": 0.00012342233009708737,
+      "loss": 0.2408,
+      "step": 19400
+    },
+    {
+      "epoch": 11.83252427184466,
+      "grad_norm": 0.5012452602386475,
+      "learning_rate": 0.00012251213592233008,
+      "loss": 0.2443,
+      "step": 19500
+    },
+    {
+      "epoch": 11.893203883495145,
+      "grad_norm": 0.6998531222343445,
+      "learning_rate": 0.0001216019417475728,
+      "loss": 0.2449,
+      "step": 19600
+    },
+    {
+      "epoch": 11.95388349514563,
+      "grad_norm": 0.9693962335586548,
+      "learning_rate": 0.00012069174757281553,
+      "loss": 0.2415,
+      "step": 19700
+    },
+    {
+      "epoch": 12.014563106796116,
+      "grad_norm": 0.5657163858413696,
+      "learning_rate": 0.00011978155339805824,
+      "loss": 0.2416,
+      "step": 19800
+    },
+    {
+      "epoch": 12.075242718446601,
+      "grad_norm": 0.527268648147583,
+      "learning_rate": 0.00011887135922330096,
+      "loss": 0.2377,
+      "step": 19900
+    },
+    {
+      "epoch": 12.135922330097088,
+      "grad_norm": 0.4967799782752991,
+      "learning_rate": 0.00011796116504854367,
+      "loss": 0.2436,
+      "step": 20000
+    },
+    {
+      "epoch": 12.135922330097088,
+      "eval_accuracy": 0.7124629270062091,
+      "eval_f1_macro": 0.48898241670534826,
+      "eval_loss": 0.2549245059490204,
+      "eval_precision": 0.6280111982698415,
+      "eval_recall": 0.45813565668329703,
+      "eval_runtime": 63.6697,
+      "eval_samples_per_second": 736.095,
+      "eval_steps_per_second": 5.764,
+      "step": 20000
+    },
+    {
+      "epoch": 12.196601941747574,
+      "grad_norm": 0.5225503444671631,
+      "learning_rate": 0.00011705097087378641,
+      "loss": 0.2405,
+      "step": 20100
+    },
+    {
+      "epoch": 12.257281553398059,
+      "grad_norm": 0.7009778022766113,
+      "learning_rate": 0.00011614077669902912,
+      "loss": 0.2375,
+      "step": 20200
+    },
+    {
+      "epoch": 12.317961165048544,
+      "grad_norm": 0.5107778310775757,
+      "learning_rate": 0.00011523058252427184,
+      "loss": 0.2396,
+      "step": 20300
+    },
+    {
+      "epoch": 12.37864077669903,
+      "grad_norm": 0.5113606452941895,
+      "learning_rate": 0.00011432038834951455,
+      "loss": 0.2379,
+      "step": 20400
+    },
+    {
+      "epoch": 12.439320388349515,
+      "grad_norm": 0.6248862743377686,
+      "learning_rate": 0.00011341019417475727,
+      "loss": 0.2453,
+      "step": 20500
+    },
+    {
+      "epoch": 12.5,
+      "grad_norm": 0.5648460984230042,
+      "learning_rate": 0.0001125,
+      "loss": 0.2391,
+      "step": 20600
+    },
+    {
+      "epoch": 12.560679611650485,
+      "grad_norm": 0.7846024632453918,
+      "learning_rate": 0.0001115898058252427,
+      "loss": 0.2445,
+      "step": 20700
+    },
+    {
+      "epoch": 12.62135922330097,
+      "grad_norm": 0.8849174976348877,
+      "learning_rate": 0.00011067961165048543,
+      "loss": 0.2392,
+      "step": 20800
+    },
+    {
+      "epoch": 12.682038834951456,
+      "grad_norm": 0.5515842437744141,
+      "learning_rate": 0.00010976941747572814,
+      "loss": 0.2429,
+      "step": 20900
+    },
+    {
+      "epoch": 12.742718446601941,
+      "grad_norm": 0.9129722118377686,
+      "learning_rate": 0.00010885922330097086,
+      "loss": 0.2459,
+      "step": 21000
+    },
+    {
+      "epoch": 12.742718446601941,
+      "eval_accuracy": 0.7137218085219877,
+      "eval_f1_macro": 0.49319871257798575,
+      "eval_loss": 0.25367996096611023,
+      "eval_precision": 0.6236252217705004,
+      "eval_recall": 0.4640439902470517,
+      "eval_runtime": 63.865,
+      "eval_samples_per_second": 733.844,
+      "eval_steps_per_second": 5.746,
+      "step": 21000
+    },
+    {
+      "epoch": 12.803398058252426,
+      "grad_norm": 0.8533498048782349,
+      "learning_rate": 0.00010794902912621357,
+      "loss": 0.2384,
+      "step": 21100
+    },
+    {
+      "epoch": 12.864077669902912,
+      "grad_norm": 0.5744712352752686,
+      "learning_rate": 0.00010703883495145631,
+      "loss": 0.241,
+      "step": 21200
+    },
+    {
+      "epoch": 12.924757281553399,
+      "grad_norm": 0.9214051961898804,
+      "learning_rate": 0.00010612864077669902,
+      "loss": 0.2437,
+      "step": 21300
+    },
+    {
+      "epoch": 12.985436893203884,
+      "grad_norm": 0.561357319355011,
+      "learning_rate": 0.00010521844660194174,
+      "loss": 0.2394,
+      "step": 21400
+    },
+    {
+      "epoch": 13.04611650485437,
+      "grad_norm": 0.746048629283905,
+      "learning_rate": 0.00010430825242718445,
+      "loss": 0.2367,
+      "step": 21500
+    },
+    {
+      "epoch": 13.106796116504855,
+      "grad_norm": 0.5449076294898987,
+      "learning_rate": 0.00010339805825242718,
+      "loss": 0.2392,
+      "step": 21600
+    },
+    {
+      "epoch": 13.16747572815534,
+      "grad_norm": 0.7307832837104797,
+      "learning_rate": 0.00010248786407766989,
+      "loss": 0.2379,
+      "step": 21700
+    },
+    {
+      "epoch": 13.228155339805825,
+      "grad_norm": 0.9420238137245178,
+      "learning_rate": 0.00010157766990291262,
+      "loss": 0.2348,
+      "step": 21800
+    },
+    {
+      "epoch": 13.28883495145631,
+      "grad_norm": 0.43917521834373474,
+      "learning_rate": 0.00010066747572815533,
+      "loss": 0.2375,
+      "step": 21900
+    },
+    {
+      "epoch": 13.349514563106796,
+      "grad_norm": 0.5659081339836121,
+      "learning_rate": 9.975728155339806e-05,
+      "loss": 0.24,
+      "step": 22000
+    },
+    {
+      "epoch": 13.349514563106796,
+      "eval_accuracy": 0.7130176883521454,
+      "eval_f1_macro": 0.4889124257466886,
+      "eval_loss": 0.254099041223526,
+      "eval_precision": 0.6244022587227488,
+      "eval_recall": 0.4579878521374155,
+      "eval_runtime": 63.8542,
+      "eval_samples_per_second": 733.968,
+      "eval_steps_per_second": 5.747,
+      "step": 22000
+    },
+    {
+      "epoch": 13.410194174757281,
+      "grad_norm": 0.6600030660629272,
+      "learning_rate": 9.884708737864077e-05,
+      "loss": 0.2355,
+      "step": 22100
+    },
+    {
+      "epoch": 13.470873786407767,
+      "grad_norm": 0.49261102080345154,
+      "learning_rate": 9.793689320388349e-05,
+      "loss": 0.2388,
+      "step": 22200
+    },
+    {
+      "epoch": 13.531553398058252,
+      "grad_norm": 0.9407384395599365,
+      "learning_rate": 9.70266990291262e-05,
+      "loss": 0.2384,
+      "step": 22300
+    },
+    {
+      "epoch": 13.592233009708737,
+      "grad_norm": 0.9749634265899658,
+      "learning_rate": 9.611650485436893e-05,
+      "loss": 0.2392,
+      "step": 22400
+    },
+    {
+      "epoch": 13.652912621359224,
+      "grad_norm": 0.5800509452819824,
+      "learning_rate": 9.520631067961164e-05,
+      "loss": 0.2373,
+      "step": 22500
+    },
+    {
+      "epoch": 13.71359223300971,
+      "grad_norm": 0.7015953063964844,
+      "learning_rate": 9.429611650485437e-05,
+      "loss": 0.2384,
+      "step": 22600
+    },
+    {
+      "epoch": 13.774271844660195,
+      "grad_norm": 0.5446757078170776,
+      "learning_rate": 9.338592233009708e-05,
+      "loss": 0.2399,
+      "step": 22700
+    },
+    {
+      "epoch": 13.83495145631068,
+      "grad_norm": 1.1201865673065186,
+      "learning_rate": 9.247572815533979e-05,
+      "loss": 0.2423,
+      "step": 22800
+    },
+    {
+      "epoch": 13.895631067961165,
+      "grad_norm": 0.789397656917572,
+      "learning_rate": 9.156553398058251e-05,
+      "loss": 0.2401,
+      "step": 22900
+    },
+    {
+      "epoch": 13.95631067961165,
+      "grad_norm": 0.9811580777168274,
+      "learning_rate": 9.065533980582523e-05,
+      "loss": 0.2429,
+      "step": 23000
+    },
+    {
+      "epoch": 13.95631067961165,
+      "eval_accuracy": 0.7146819723899546,
+      "eval_f1_macro": 0.4950660124078677,
+      "eval_loss": 0.2540215849876404,
+      "eval_precision": 0.6269585302337652,
+      "eval_recall": 0.4640707919907739,
+      "eval_runtime": 63.4303,
+      "eval_samples_per_second": 738.874,
+      "eval_steps_per_second": 5.786,
+      "step": 23000
+    },
+    {
+      "epoch": 14.016990291262136,
+      "grad_norm": 0.6500277519226074,
+      "learning_rate": 8.974514563106796e-05,
+      "loss": 0.2399,
+      "step": 23100
+    },
+    {
+      "epoch": 14.077669902912621,
+      "grad_norm": 0.7648112177848816,
+      "learning_rate": 8.883495145631067e-05,
+      "loss": 0.2355,
+      "step": 23200
+    },
+    {
+      "epoch": 14.138349514563107,
+      "grad_norm": 0.6670911312103271,
+      "learning_rate": 8.792475728155339e-05,
+      "loss": 0.2371,
+      "step": 23300
+    },
+    {
+      "epoch": 14.199029126213592,
+      "grad_norm": 0.8316827416419983,
+      "learning_rate": 8.70145631067961e-05,
+      "loss": 0.2355,
+      "step": 23400
+    },
+    {
+      "epoch": 14.259708737864077,
+      "grad_norm": 0.4973256587982178,
+      "learning_rate": 8.610436893203884e-05,
+      "loss": 0.24,
+      "step": 23500
+    },
+    {
+      "epoch": 14.320388349514563,
+      "grad_norm": 0.6986468434333801,
+      "learning_rate": 8.519417475728155e-05,
+      "loss": 0.2319,
+      "step": 23600
+    },
+    {
+      "epoch": 14.381067961165048,
+      "grad_norm": 0.5316904783248901,
+      "learning_rate": 8.428398058252427e-05,
+      "loss": 0.2334,
+      "step": 23700
+    },
+    {
+      "epoch": 14.441747572815533,
+      "grad_norm": 0.5285237431526184,
+      "learning_rate": 8.337378640776698e-05,
+      "loss": 0.2372,
+      "step": 23800
+    },
+    {
+      "epoch": 14.50242718446602,
+      "grad_norm": 0.7617068290710449,
+      "learning_rate": 8.24635922330097e-05,
+      "loss": 0.2434,
+      "step": 23900
+    },
+    {
+      "epoch": 14.563106796116505,
+      "grad_norm": 0.4870689809322357,
+      "learning_rate": 8.155339805825241e-05,
+      "loss": 0.2388,
+      "step": 24000
+    },
+    {
+      "epoch": 14.563106796116505,
+      "eval_accuracy": 0.7128896665030832,
+      "eval_f1_macro": 0.48631927316876294,
+      "eval_loss": 0.2543109357357025,
+      "eval_precision": 0.6364589670810381,
+      "eval_recall": 0.451184525833245,
+      "eval_runtime": 63.5544,
+      "eval_samples_per_second": 737.432,
+      "eval_steps_per_second": 5.775,
+      "step": 24000
+    },
+    {
+      "epoch": 14.62378640776699,
+      "grad_norm": 0.48867112398147583,
+      "learning_rate": 8.064320388349515e-05,
+      "loss": 0.2424,
+      "step": 24100
+    },
+    {
+      "epoch": 14.684466019417476,
+      "grad_norm": 1.3717137575149536,
+      "learning_rate": 7.973300970873786e-05,
+      "loss": 0.2373,
+      "step": 24200
+    },
+    {
+      "epoch": 14.745145631067961,
+      "grad_norm": 0.5244446396827698,
+      "learning_rate": 7.882281553398058e-05,
+      "loss": 0.2406,
+      "step": 24300
+    },
+    {
+      "epoch": 14.805825242718447,
+      "grad_norm": 0.49141696095466614,
+      "learning_rate": 7.791262135922329e-05,
+      "loss": 0.2345,
+      "step": 24400
+    },
+    {
+      "epoch": 14.866504854368932,
+      "grad_norm": 0.5758472681045532,
+      "learning_rate": 7.700242718446602e-05,
+      "loss": 0.2372,
+      "step": 24500
+    },
+    {
+      "epoch": 14.927184466019417,
+      "grad_norm": 0.4706755578517914,
+      "learning_rate": 7.609223300970873e-05,
+      "loss": 0.2363,
+      "step": 24600
+    },
+    {
+      "epoch": 14.987864077669903,
+      "grad_norm": 1.1661343574523926,
+      "learning_rate": 7.518203883495146e-05,
+      "loss": 0.2363,
+      "step": 24700
+    },
+    {
+      "epoch": 15.048543689320388,
+      "grad_norm": 0.6530236005783081,
+      "learning_rate": 7.427184466019417e-05,
+      "loss": 0.2371,
+      "step": 24800
+    },
+    {
+      "epoch": 15.109223300970873,
+      "grad_norm": 0.6235638856887817,
+      "learning_rate": 7.336165048543688e-05,
+      "loss": 0.2365,
+      "step": 24900
+    },
+    {
+      "epoch": 15.169902912621358,
+      "grad_norm": 1.0099172592163086,
+      "learning_rate": 7.24514563106796e-05,
+      "loss": 0.2333,
+      "step": 25000
+    },
+    {
+      "epoch": 15.169902912621358,
+      "eval_accuracy": 0.7117374698615231,
+      "eval_f1_macro": 0.4930065435769275,
+      "eval_loss": 0.25366273522377014,
+      "eval_precision": 0.6254110142417604,
+      "eval_recall": 0.4636190323809964,
+      "eval_runtime": 63.6634,
+      "eval_samples_per_second": 736.168,
+      "eval_steps_per_second": 5.765,
+      "step": 25000
+    },
+    {
+      "epoch": 15.230582524271846,
+      "grad_norm": 0.4479919672012329,
+      "learning_rate": 7.154126213592233e-05,
+      "loss": 0.2363,
+      "step": 25100
+    },
+    {
+      "epoch": 15.29126213592233,
+      "grad_norm": 0.5574977993965149,
+      "learning_rate": 7.063106796116504e-05,
+      "loss": 0.2323,
+      "step": 25200
+    },
+    {
+      "epoch": 15.351941747572816,
+      "grad_norm": 0.815531849861145,
+      "learning_rate": 6.972087378640776e-05,
+      "loss": 0.2378,
+      "step": 25300
+    },
+    {
+      "epoch": 15.412621359223301,
+      "grad_norm": 0.47219938039779663,
+      "learning_rate": 6.881067961165048e-05,
+      "loss": 0.2363,
+      "step": 25400
+    },
+    {
+      "epoch": 15.473300970873787,
+      "grad_norm": 1.4584532976150513,
+      "learning_rate": 6.79004854368932e-05,
+      "loss": 0.2323,
+      "step": 25500
+    },
+    {
+      "epoch": 15.533980582524272,
+      "grad_norm": 0.5099394917488098,
+      "learning_rate": 6.699029126213592e-05,
+      "loss": 0.2343,
+      "step": 25600
+    },
+    {
+      "epoch": 15.594660194174757,
+      "grad_norm": 0.624839186668396,
+      "learning_rate": 6.608009708737864e-05,
+      "loss": 0.2357,
+      "step": 25700
+    },
+    {
+      "epoch": 15.655339805825243,
+      "grad_norm": 0.9318602085113525,
+      "learning_rate": 6.516990291262135e-05,
+      "loss": 0.2331,
+      "step": 25800
+    },
+    {
+      "epoch": 15.716019417475728,
+      "grad_norm": 0.6715418100357056,
+      "learning_rate": 6.425970873786407e-05,
+      "loss": 0.2365,
+      "step": 25900
+    },
+    {
+      "epoch": 15.776699029126213,
+      "grad_norm": 0.48603758215904236,
+      "learning_rate": 6.334951456310678e-05,
+      "loss": 0.2392,
+      "step": 26000
+    },
+    {
+      "epoch": 15.776699029126213,
+      "eval_accuracy": 0.7145326135660486,
+      "eval_f1_macro": 0.49345940490874235,
+      "eval_loss": 0.2531893253326416,
+      "eval_precision": 0.6264577154052439,
+      "eval_recall": 0.4631683363045007,
+      "eval_runtime": 63.9314,
+      "eval_samples_per_second": 733.082,
+      "eval_steps_per_second": 5.741,
+      "step": 26000
+    },
+    {
+      "epoch": 15.837378640776699,
+      "grad_norm": 1.03753662109375,
+      "learning_rate": 6.243932038834951e-05,
+      "loss": 0.234,
+      "step": 26100
+    },
+    {
+      "epoch": 15.898058252427184,
+      "grad_norm": 0.7353742718696594,
+      "learning_rate": 6.152912621359223e-05,
+      "loss": 0.2381,
+      "step": 26200
+    },
+    {
+      "epoch": 15.95873786407767,
+      "grad_norm": 0.8260138034820557,
+      "learning_rate": 6.061893203883495e-05,
+      "loss": 0.2394,
+      "step": 26300
+    },
+    {
+      "epoch": 16.019417475728154,
+      "grad_norm": 0.7960408926010132,
+      "learning_rate": 5.9708737864077663e-05,
+      "loss": 0.2377,
+      "step": 26400
+    },
+    {
+      "epoch": 16.08009708737864,
+      "grad_norm": 0.5640716552734375,
+      "learning_rate": 5.879854368932038e-05,
+      "loss": 0.2374,
+      "step": 26500
+    },
+    {
+      "epoch": 16.140776699029125,
+      "grad_norm": 0.8281972408294678,
+      "learning_rate": 5.78883495145631e-05,
+      "loss": 0.2369,
+      "step": 26600
+    },
+    {
+      "epoch": 16.20145631067961,
+      "grad_norm": 0.49466079473495483,
+      "learning_rate": 5.697815533980582e-05,
+      "loss": 0.2352,
+      "step": 26700
+    },
+    {
+      "epoch": 16.262135922330096,
+      "grad_norm": 0.5278394818305969,
+      "learning_rate": 5.6067961165048536e-05,
+      "loss": 0.2321,
+      "step": 26800
+    },
+    {
+      "epoch": 16.32281553398058,
+      "grad_norm": 1.5943635702133179,
+      "learning_rate": 5.515776699029126e-05,
+      "loss": 0.2368,
+      "step": 26900
+    },
+    {
+      "epoch": 16.383495145631066,
+      "grad_norm": 0.7204076647758484,
+      "learning_rate": 5.4247572815533976e-05,
+      "loss": 0.2344,
+      "step": 27000
+    },
+    {
+      "epoch": 16.383495145631066,
+      "eval_accuracy": 0.7135511127232381,
+      "eval_f1_macro": 0.4959826756763837,
+      "eval_loss": 0.2531072497367859,
+      "eval_precision": 0.5967354989597543,
+      "eval_recall": 0.4670103239766295,
+      "eval_runtime": 63.8776,
+      "eval_samples_per_second": 733.7,
+      "eval_steps_per_second": 5.745,
+      "step": 27000
     }
   ],
   "logging_steps": 100,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 20,
   "save_steps": 1000,
+  "total_flos": 1.8182410386600591e+18,
   "train_batch_size": 256,
   "trial_name": null,
   "trial_params": null