cilorku commited on
Commit
e500f96
·
verified ·
1 Parent(s): 110d528

Training in progress, step 600, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e228b17a73bc3f81947c086347fce87ac063d7350d4c76e1f3155aca666ddba5
3
  size 295488936
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7ebf9523ced4cd841390ae63e532fa706d54acc659271afe17daf4fe46a0fd81
3
  size 295488936
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:484b5ff183c7d02282937a1fb0b6a0beb0819da03c3b077a457d1db88a133e6f
3
  size 150487412
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:32fef6dc43e6ccba98378b739fc38b21a34b8c1abf8063665b01be9c8534559b
3
  size 150487412
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5aa4de7450a948b9728f964c952892496ba1ad747b45f21e3f4394cdc4b34487
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6135eda0e32d9cea2b960aff951c19589d3553b1f9b09a87975dc58dcbdb2c43
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:97217b203f1ec36d5ff0b43e1fbe7c384792a66d6e8afc16c5c4e545b12b1358
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c4b7d5ebd1d82824f6c080341b10910a5587a67df516cd4ded83038671436c74
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
- "best_metric": 0.8408719301223755,
3
- "best_model_checkpoint": "miner_id_24/checkpoint-300",
4
- "epoch": 0.3018867924528302,
5
  "eval_steps": 150,
6
- "global_step": 300,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -2131,6 +2131,2122 @@
2131
  "eval_samples_per_second": 46.421,
2132
  "eval_steps_per_second": 11.609,
2133
  "step": 300
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
2134
  }
2135
  ],
2136
  "logging_steps": 1,
@@ -2154,12 +4270,12 @@
2154
  "should_evaluate": false,
2155
  "should_log": false,
2156
  "should_save": true,
2157
- "should_training_stop": false
2158
  },
2159
  "attributes": {}
2160
  }
2161
  },
2162
- "total_flos": 1.7158725269716992e+17,
2163
  "train_batch_size": 16,
2164
  "trial_name": null,
2165
  "trial_params": null
 
1
  {
2
+ "best_metric": 0.7933821678161621,
3
+ "best_model_checkpoint": "miner_id_24/checkpoint-600",
4
+ "epoch": 0.6037735849056604,
5
  "eval_steps": 150,
6
+ "global_step": 600,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
2131
  "eval_samples_per_second": 46.421,
2132
  "eval_steps_per_second": 11.609,
2133
  "step": 300
2134
+ },
2135
+ {
2136
+ "epoch": 0.30289308176100627,
2137
+ "grad_norm": 0.2989448010921478,
2138
+ "learning_rate": 8.999753262144806e-05,
2139
+ "loss": 0.555,
2140
+ "step": 301
2141
+ },
2142
+ {
2143
+ "epoch": 0.3038993710691824,
2144
+ "grad_norm": 0.33250898122787476,
2145
+ "learning_rate": 8.999013075636805e-05,
2146
+ "loss": 0.6292,
2147
+ "step": 302
2148
+ },
2149
+ {
2150
+ "epoch": 0.3049056603773585,
2151
+ "grad_norm": 0.33274582028388977,
2152
+ "learning_rate": 8.997779521645793e-05,
2153
+ "loss": 0.6798,
2154
+ "step": 303
2155
+ },
2156
+ {
2157
+ "epoch": 0.3059119496855346,
2158
+ "grad_norm": 0.26289069652557373,
2159
+ "learning_rate": 8.996052735444863e-05,
2160
+ "loss": 0.6443,
2161
+ "step": 304
2162
+ },
2163
+ {
2164
+ "epoch": 0.3069182389937107,
2165
+ "grad_norm": 0.24797621369361877,
2166
+ "learning_rate": 8.993832906395582e-05,
2167
+ "loss": 0.6181,
2168
+ "step": 305
2169
+ },
2170
+ {
2171
+ "epoch": 0.30792452830188677,
2172
+ "grad_norm": 0.2333655059337616,
2173
+ "learning_rate": 8.991120277927223e-05,
2174
+ "loss": 0.6594,
2175
+ "step": 306
2176
+ },
2177
+ {
2178
+ "epoch": 0.3089308176100629,
2179
+ "grad_norm": 0.23653578758239746,
2180
+ "learning_rate": 8.987915147510061e-05,
2181
+ "loss": 0.5947,
2182
+ "step": 307
2183
+ },
2184
+ {
2185
+ "epoch": 0.309937106918239,
2186
+ "grad_norm": 0.2812041938304901,
2187
+ "learning_rate": 8.98421786662277e-05,
2188
+ "loss": 0.7297,
2189
+ "step": 308
2190
+ },
2191
+ {
2192
+ "epoch": 0.3109433962264151,
2193
+ "grad_norm": 0.28146234154701233,
2194
+ "learning_rate": 8.98002884071386e-05,
2195
+ "loss": 0.6798,
2196
+ "step": 309
2197
+ },
2198
+ {
2199
+ "epoch": 0.3119496855345912,
2200
+ "grad_norm": 0.2789071798324585,
2201
+ "learning_rate": 8.97534852915723e-05,
2202
+ "loss": 0.7207,
2203
+ "step": 310
2204
+ },
2205
+ {
2206
+ "epoch": 0.31295597484276727,
2207
+ "grad_norm": 0.27146562933921814,
2208
+ "learning_rate": 8.970177445201784e-05,
2209
+ "loss": 0.7418,
2210
+ "step": 311
2211
+ },
2212
+ {
2213
+ "epoch": 0.3139622641509434,
2214
+ "grad_norm": 0.27337393164634705,
2215
+ "learning_rate": 8.964516155915151e-05,
2216
+ "loss": 0.7257,
2217
+ "step": 312
2218
+ },
2219
+ {
2220
+ "epoch": 0.3149685534591195,
2221
+ "grad_norm": 0.29097968339920044,
2222
+ "learning_rate": 8.958365282121497e-05,
2223
+ "loss": 0.8054,
2224
+ "step": 313
2225
+ },
2226
+ {
2227
+ "epoch": 0.3159748427672956,
2228
+ "grad_norm": 0.29273757338523865,
2229
+ "learning_rate": 8.951725498333449e-05,
2230
+ "loss": 0.7513,
2231
+ "step": 314
2232
+ },
2233
+ {
2234
+ "epoch": 0.3169811320754717,
2235
+ "grad_norm": 0.27156925201416016,
2236
+ "learning_rate": 8.94459753267812e-05,
2237
+ "loss": 0.7676,
2238
+ "step": 315
2239
+ },
2240
+ {
2241
+ "epoch": 0.3179874213836478,
2242
+ "grad_norm": 0.2903954088687897,
2243
+ "learning_rate": 8.936982166817273e-05,
2244
+ "loss": 0.8394,
2245
+ "step": 316
2246
+ },
2247
+ {
2248
+ "epoch": 0.3189937106918239,
2249
+ "grad_norm": 0.30967020988464355,
2250
+ "learning_rate": 8.928880235861588e-05,
2251
+ "loss": 0.8251,
2252
+ "step": 317
2253
+ },
2254
+ {
2255
+ "epoch": 0.32,
2256
+ "grad_norm": 0.302234411239624,
2257
+ "learning_rate": 8.9202926282791e-05,
2258
+ "loss": 0.789,
2259
+ "step": 318
2260
+ },
2261
+ {
2262
+ "epoch": 0.3210062893081761,
2263
+ "grad_norm": 0.3056583106517792,
2264
+ "learning_rate": 8.911220285797748e-05,
2265
+ "loss": 0.815,
2266
+ "step": 319
2267
+ },
2268
+ {
2269
+ "epoch": 0.3220125786163522,
2270
+ "grad_norm": 0.3035435974597931,
2271
+ "learning_rate": 8.901664203302126e-05,
2272
+ "loss": 0.819,
2273
+ "step": 320
2274
+ },
2275
+ {
2276
+ "epoch": 0.3230188679245283,
2277
+ "grad_norm": 0.3102681636810303,
2278
+ "learning_rate": 8.891625428724365e-05,
2279
+ "loss": 0.8169,
2280
+ "step": 321
2281
+ },
2282
+ {
2283
+ "epoch": 0.3240251572327044,
2284
+ "grad_norm": 0.2978799045085907,
2285
+ "learning_rate": 8.881105062929222e-05,
2286
+ "loss": 0.7624,
2287
+ "step": 322
2288
+ },
2289
+ {
2290
+ "epoch": 0.3250314465408805,
2291
+ "grad_norm": 0.32888859510421753,
2292
+ "learning_rate": 8.870104259593363e-05,
2293
+ "loss": 0.8504,
2294
+ "step": 323
2295
+ },
2296
+ {
2297
+ "epoch": 0.3260377358490566,
2298
+ "grad_norm": 0.32155942916870117,
2299
+ "learning_rate": 8.858624225078841e-05,
2300
+ "loss": 0.7412,
2301
+ "step": 324
2302
+ },
2303
+ {
2304
+ "epoch": 0.3270440251572327,
2305
+ "grad_norm": 0.312429279088974,
2306
+ "learning_rate": 8.846666218300807e-05,
2307
+ "loss": 0.8747,
2308
+ "step": 325
2309
+ },
2310
+ {
2311
+ "epoch": 0.32805031446540883,
2312
+ "grad_norm": 0.3254411518573761,
2313
+ "learning_rate": 8.834231550589462e-05,
2314
+ "loss": 0.8664,
2315
+ "step": 326
2316
+ },
2317
+ {
2318
+ "epoch": 0.3290566037735849,
2319
+ "grad_norm": 0.354501336812973,
2320
+ "learning_rate": 8.821321585546244e-05,
2321
+ "loss": 0.8942,
2322
+ "step": 327
2323
+ },
2324
+ {
2325
+ "epoch": 0.330062893081761,
2326
+ "grad_norm": 0.3486211597919464,
2327
+ "learning_rate": 8.807937738894302e-05,
2328
+ "loss": 0.8619,
2329
+ "step": 328
2330
+ },
2331
+ {
2332
+ "epoch": 0.3310691823899371,
2333
+ "grad_norm": 0.34248775243759155,
2334
+ "learning_rate": 8.794081478323246e-05,
2335
+ "loss": 0.8448,
2336
+ "step": 329
2337
+ },
2338
+ {
2339
+ "epoch": 0.3320754716981132,
2340
+ "grad_norm": 0.34060388803482056,
2341
+ "learning_rate": 8.779754323328193e-05,
2342
+ "loss": 0.7516,
2343
+ "step": 330
2344
+ },
2345
+ {
2346
+ "epoch": 0.33308176100628933,
2347
+ "grad_norm": 0.3704814016819,
2348
+ "learning_rate": 8.764957845043137e-05,
2349
+ "loss": 0.8106,
2350
+ "step": 331
2351
+ },
2352
+ {
2353
+ "epoch": 0.3340880503144654,
2354
+ "grad_norm": 1.31474769115448,
2355
+ "learning_rate": 8.749693666068665e-05,
2356
+ "loss": 0.8051,
2357
+ "step": 332
2358
+ },
2359
+ {
2360
+ "epoch": 0.3350943396226415,
2361
+ "grad_norm": 0.3882513642311096,
2362
+ "learning_rate": 8.733963460294016e-05,
2363
+ "loss": 0.8016,
2364
+ "step": 333
2365
+ },
2366
+ {
2367
+ "epoch": 0.3361006289308176,
2368
+ "grad_norm": 0.438913494348526,
2369
+ "learning_rate": 8.717768952713513e-05,
2370
+ "loss": 0.8598,
2371
+ "step": 334
2372
+ },
2373
+ {
2374
+ "epoch": 0.3371069182389937,
2375
+ "grad_norm": 0.4014555513858795,
2376
+ "learning_rate": 8.701111919237408e-05,
2377
+ "loss": 0.8749,
2378
+ "step": 335
2379
+ },
2380
+ {
2381
+ "epoch": 0.33811320754716984,
2382
+ "grad_norm": 0.41690000891685486,
2383
+ "learning_rate": 8.683994186497131e-05,
2384
+ "loss": 0.8127,
2385
+ "step": 336
2386
+ },
2387
+ {
2388
+ "epoch": 0.3391194968553459,
2389
+ "grad_norm": 0.456018328666687,
2390
+ "learning_rate": 8.666417631644977e-05,
2391
+ "loss": 0.8541,
2392
+ "step": 337
2393
+ },
2394
+ {
2395
+ "epoch": 0.340125786163522,
2396
+ "grad_norm": 0.4461841881275177,
2397
+ "learning_rate": 8.648384182148252e-05,
2398
+ "loss": 0.7593,
2399
+ "step": 338
2400
+ },
2401
+ {
2402
+ "epoch": 0.3411320754716981,
2403
+ "grad_norm": 0.5013781189918518,
2404
+ "learning_rate": 8.629895815577916e-05,
2405
+ "loss": 0.8718,
2406
+ "step": 339
2407
+ },
2408
+ {
2409
+ "epoch": 0.3421383647798742,
2410
+ "grad_norm": 0.5359609723091125,
2411
+ "learning_rate": 8.610954559391704e-05,
2412
+ "loss": 0.809,
2413
+ "step": 340
2414
+ },
2415
+ {
2416
+ "epoch": 0.34314465408805034,
2417
+ "grad_norm": 0.5478375554084778,
2418
+ "learning_rate": 8.59156249071181e-05,
2419
+ "loss": 0.9652,
2420
+ "step": 341
2421
+ },
2422
+ {
2423
+ "epoch": 0.3441509433962264,
2424
+ "grad_norm": 0.6687819361686707,
2425
+ "learning_rate": 8.571721736097089e-05,
2426
+ "loss": 0.9975,
2427
+ "step": 342
2428
+ },
2429
+ {
2430
+ "epoch": 0.3451572327044025,
2431
+ "grad_norm": 0.6184760332107544,
2432
+ "learning_rate": 8.551434471309872e-05,
2433
+ "loss": 1.0351,
2434
+ "step": 343
2435
+ },
2436
+ {
2437
+ "epoch": 0.3461635220125786,
2438
+ "grad_norm": 0.6045582294464111,
2439
+ "learning_rate": 8.530702921077359e-05,
2440
+ "loss": 0.8445,
2441
+ "step": 344
2442
+ },
2443
+ {
2444
+ "epoch": 0.3471698113207547,
2445
+ "grad_norm": 0.6508563160896301,
2446
+ "learning_rate": 8.509529358847655e-05,
2447
+ "loss": 0.9425,
2448
+ "step": 345
2449
+ },
2450
+ {
2451
+ "epoch": 0.34817610062893084,
2452
+ "grad_norm": 0.6897462606430054,
2453
+ "learning_rate": 8.487916106540466e-05,
2454
+ "loss": 0.945,
2455
+ "step": 346
2456
+ },
2457
+ {
2458
+ "epoch": 0.34918238993710693,
2459
+ "grad_norm": 0.7266098856925964,
2460
+ "learning_rate": 8.465865534292465e-05,
2461
+ "loss": 0.9754,
2462
+ "step": 347
2463
+ },
2464
+ {
2465
+ "epoch": 0.350188679245283,
2466
+ "grad_norm": 0.796158492565155,
2467
+ "learning_rate": 8.443380060197386e-05,
2468
+ "loss": 0.9235,
2469
+ "step": 348
2470
+ },
2471
+ {
2472
+ "epoch": 0.3511949685534591,
2473
+ "grad_norm": 1.028557300567627,
2474
+ "learning_rate": 8.420462150040853e-05,
2475
+ "loss": 1.0911,
2476
+ "step": 349
2477
+ },
2478
+ {
2479
+ "epoch": 0.3522012578616352,
2480
+ "grad_norm": 1.4935519695281982,
2481
+ "learning_rate": 8.397114317029975e-05,
2482
+ "loss": 1.034,
2483
+ "step": 350
2484
+ },
2485
+ {
2486
+ "epoch": 0.35320754716981134,
2487
+ "grad_norm": 0.3518058955669403,
2488
+ "learning_rate": 8.373339121517747e-05,
2489
+ "loss": 0.6323,
2490
+ "step": 351
2491
+ },
2492
+ {
2493
+ "epoch": 0.35421383647798743,
2494
+ "grad_norm": 0.3483763039112091,
2495
+ "learning_rate": 8.34913917072228e-05,
2496
+ "loss": 0.559,
2497
+ "step": 352
2498
+ },
2499
+ {
2500
+ "epoch": 0.3552201257861635,
2501
+ "grad_norm": 0.33547666668891907,
2502
+ "learning_rate": 8.324517118440889e-05,
2503
+ "loss": 0.5886,
2504
+ "step": 353
2505
+ },
2506
+ {
2507
+ "epoch": 0.3562264150943396,
2508
+ "grad_norm": 0.2576180696487427,
2509
+ "learning_rate": 8.299475664759068e-05,
2510
+ "loss": 0.674,
2511
+ "step": 354
2512
+ },
2513
+ {
2514
+ "epoch": 0.3572327044025157,
2515
+ "grad_norm": 0.21154595911502838,
2516
+ "learning_rate": 8.274017555754409e-05,
2517
+ "loss": 0.6139,
2518
+ "step": 355
2519
+ },
2520
+ {
2521
+ "epoch": 0.35823899371069184,
2522
+ "grad_norm": 0.23689445853233337,
2523
+ "learning_rate": 8.248145583195448e-05,
2524
+ "loss": 0.6871,
2525
+ "step": 356
2526
+ },
2527
+ {
2528
+ "epoch": 0.35924528301886793,
2529
+ "grad_norm": 0.2390032261610031,
2530
+ "learning_rate": 8.221862584235528e-05,
2531
+ "loss": 0.6175,
2532
+ "step": 357
2533
+ },
2534
+ {
2535
+ "epoch": 0.360251572327044,
2536
+ "grad_norm": 0.26824384927749634,
2537
+ "learning_rate": 8.195171441101669e-05,
2538
+ "loss": 0.7,
2539
+ "step": 358
2540
+ },
2541
+ {
2542
+ "epoch": 0.3612578616352201,
2543
+ "grad_norm": 0.2665193974971771,
2544
+ "learning_rate": 8.168075080778494e-05,
2545
+ "loss": 0.671,
2546
+ "step": 359
2547
+ },
2548
+ {
2549
+ "epoch": 0.3622641509433962,
2550
+ "grad_norm": 0.2973785698413849,
2551
+ "learning_rate": 8.140576474687264e-05,
2552
+ "loss": 0.7634,
2553
+ "step": 360
2554
+ },
2555
+ {
2556
+ "epoch": 0.36327044025157235,
2557
+ "grad_norm": 0.2718108296394348,
2558
+ "learning_rate": 8.112678638360016e-05,
2559
+ "loss": 0.6838,
2560
+ "step": 361
2561
+ },
2562
+ {
2563
+ "epoch": 0.36427672955974844,
2564
+ "grad_norm": 0.27566713094711304,
2565
+ "learning_rate": 8.084384631108883e-05,
2566
+ "loss": 0.6967,
2567
+ "step": 362
2568
+ },
2569
+ {
2570
+ "epoch": 0.3652830188679245,
2571
+ "grad_norm": 0.24386361241340637,
2572
+ "learning_rate": 8.055697555690607e-05,
2573
+ "loss": 0.6934,
2574
+ "step": 363
2575
+ },
2576
+ {
2577
+ "epoch": 0.3662893081761006,
2578
+ "grad_norm": 0.28102463483810425,
2579
+ "learning_rate": 8.02662055796628e-05,
2580
+ "loss": 0.7469,
2581
+ "step": 364
2582
+ },
2583
+ {
2584
+ "epoch": 0.3672955974842767,
2585
+ "grad_norm": 0.27854305505752563,
2586
+ "learning_rate": 7.99715682655637e-05,
2587
+ "loss": 0.76,
2588
+ "step": 365
2589
+ },
2590
+ {
2591
+ "epoch": 0.36830188679245285,
2592
+ "grad_norm": 0.32097896933555603,
2593
+ "learning_rate": 7.967309592491052e-05,
2594
+ "loss": 0.8277,
2595
+ "step": 366
2596
+ },
2597
+ {
2598
+ "epoch": 0.36930817610062894,
2599
+ "grad_norm": 0.338775098323822,
2600
+ "learning_rate": 7.937082128855891e-05,
2601
+ "loss": 0.8518,
2602
+ "step": 367
2603
+ },
2604
+ {
2605
+ "epoch": 0.370314465408805,
2606
+ "grad_norm": 0.3111404478549957,
2607
+ "learning_rate": 7.906477750432904e-05,
2608
+ "loss": 0.8281,
2609
+ "step": 368
2610
+ },
2611
+ {
2612
+ "epoch": 0.3713207547169811,
2613
+ "grad_norm": 0.29169967770576477,
2614
+ "learning_rate": 7.875499813337069e-05,
2615
+ "loss": 0.7992,
2616
+ "step": 369
2617
+ },
2618
+ {
2619
+ "epoch": 0.3723270440251572,
2620
+ "grad_norm": 0.2766212522983551,
2621
+ "learning_rate": 7.844151714648274e-05,
2622
+ "loss": 0.7662,
2623
+ "step": 370
2624
+ },
2625
+ {
2626
+ "epoch": 0.37333333333333335,
2627
+ "grad_norm": 0.2962402403354645,
2628
+ "learning_rate": 7.812436892038805e-05,
2629
+ "loss": 0.8313,
2630
+ "step": 371
2631
+ },
2632
+ {
2633
+ "epoch": 0.37433962264150944,
2634
+ "grad_norm": 0.292148619890213,
2635
+ "learning_rate": 7.780358823396352e-05,
2636
+ "loss": 0.8729,
2637
+ "step": 372
2638
+ },
2639
+ {
2640
+ "epoch": 0.37534591194968553,
2641
+ "grad_norm": 0.3062426447868347,
2642
+ "learning_rate": 7.747921026442631e-05,
2643
+ "loss": 0.8486,
2644
+ "step": 373
2645
+ },
2646
+ {
2647
+ "epoch": 0.3763522012578616,
2648
+ "grad_norm": 0.3405818045139313,
2649
+ "learning_rate": 7.715127058347615e-05,
2650
+ "loss": 0.8567,
2651
+ "step": 374
2652
+ },
2653
+ {
2654
+ "epoch": 0.37735849056603776,
2655
+ "grad_norm": 0.3373412489891052,
2656
+ "learning_rate": 7.681980515339464e-05,
2657
+ "loss": 0.8583,
2658
+ "step": 375
2659
+ },
2660
+ {
2661
+ "epoch": 0.37836477987421385,
2662
+ "grad_norm": 0.33258765935897827,
2663
+ "learning_rate": 7.648485032310145e-05,
2664
+ "loss": 0.8829,
2665
+ "step": 376
2666
+ },
2667
+ {
2668
+ "epoch": 0.37937106918238994,
2669
+ "grad_norm": 0.3391346037387848,
2670
+ "learning_rate": 7.614644282416831e-05,
2671
+ "loss": 0.871,
2672
+ "step": 377
2673
+ },
2674
+ {
2675
+ "epoch": 0.38037735849056603,
2676
+ "grad_norm": 0.35854992270469666,
2677
+ "learning_rate": 7.5804619766791e-05,
2678
+ "loss": 0.8654,
2679
+ "step": 378
2680
+ },
2681
+ {
2682
+ "epoch": 0.3813836477987421,
2683
+ "grad_norm": 0.3469408452510834,
2684
+ "learning_rate": 7.545941863571974e-05,
2685
+ "loss": 0.8359,
2686
+ "step": 379
2687
+ },
2688
+ {
2689
+ "epoch": 0.38238993710691827,
2690
+ "grad_norm": 0.3572901785373688,
2691
+ "learning_rate": 7.511087728614862e-05,
2692
+ "loss": 0.8464,
2693
+ "step": 380
2694
+ },
2695
+ {
2696
+ "epoch": 0.38339622641509435,
2697
+ "grad_norm": 0.35687223076820374,
2698
+ "learning_rate": 7.475903393956434e-05,
2699
+ "loss": 0.7826,
2700
+ "step": 381
2701
+ },
2702
+ {
2703
+ "epoch": 0.38440251572327044,
2704
+ "grad_norm": 0.3538658022880554,
2705
+ "learning_rate": 7.440392717955476e-05,
2706
+ "loss": 0.8013,
2707
+ "step": 382
2708
+ },
2709
+ {
2710
+ "epoch": 0.38540880503144653,
2711
+ "grad_norm": 0.39203977584838867,
2712
+ "learning_rate": 7.404559594757779e-05,
2713
+ "loss": 0.8344,
2714
+ "step": 383
2715
+ },
2716
+ {
2717
+ "epoch": 0.3864150943396226,
2718
+ "grad_norm": 0.4001169502735138,
2719
+ "learning_rate": 7.368407953869104e-05,
2720
+ "loss": 0.7899,
2721
+ "step": 384
2722
+ },
2723
+ {
2724
+ "epoch": 0.38742138364779877,
2725
+ "grad_norm": 0.41093799471855164,
2726
+ "learning_rate": 7.33194175972427e-05,
2727
+ "loss": 0.9041,
2728
+ "step": 385
2729
+ },
2730
+ {
2731
+ "epoch": 0.38842767295597486,
2732
+ "grad_norm": 0.4247496724128723,
2733
+ "learning_rate": 7.295165011252397e-05,
2734
+ "loss": 0.8063,
2735
+ "step": 386
2736
+ },
2737
+ {
2738
+ "epoch": 0.38943396226415095,
2739
+ "grad_norm": 0.4747501313686371,
2740
+ "learning_rate": 7.258081741438396e-05,
2741
+ "loss": 0.8265,
2742
+ "step": 387
2743
+ },
2744
+ {
2745
+ "epoch": 0.39044025157232704,
2746
+ "grad_norm": 0.4680624008178711,
2747
+ "learning_rate": 7.220696016880688e-05,
2748
+ "loss": 0.8525,
2749
+ "step": 388
2750
+ },
2751
+ {
2752
+ "epoch": 0.3914465408805031,
2753
+ "grad_norm": 0.45939162373542786,
2754
+ "learning_rate": 7.183011937345271e-05,
2755
+ "loss": 0.8456,
2756
+ "step": 389
2757
+ },
2758
+ {
2759
+ "epoch": 0.39245283018867927,
2760
+ "grad_norm": 0.5063957571983337,
2761
+ "learning_rate": 7.14503363531613e-05,
2762
+ "loss": 0.89,
2763
+ "step": 390
2764
+ },
2765
+ {
2766
+ "epoch": 0.39345911949685536,
2767
+ "grad_norm": 0.5353115797042847,
2768
+ "learning_rate": 7.106765275542055e-05,
2769
+ "loss": 0.8865,
2770
+ "step": 391
2771
+ },
2772
+ {
2773
+ "epoch": 0.39446540880503145,
2774
+ "grad_norm": 0.6021161079406738,
2775
+ "learning_rate": 7.068211054579944e-05,
2776
+ "loss": 0.9897,
2777
+ "step": 392
2778
+ },
2779
+ {
2780
+ "epoch": 0.39547169811320754,
2781
+ "grad_norm": 0.6731549501419067,
2782
+ "learning_rate": 7.029375200334588e-05,
2783
+ "loss": 0.9746,
2784
+ "step": 393
2785
+ },
2786
+ {
2787
+ "epoch": 0.3964779874213836,
2788
+ "grad_norm": 0.6880476474761963,
2789
+ "learning_rate": 6.99026197159505e-05,
2790
+ "loss": 1.0113,
2791
+ "step": 394
2792
+ },
2793
+ {
2794
+ "epoch": 0.39748427672955977,
2795
+ "grad_norm": 0.5883579254150391,
2796
+ "learning_rate": 6.950875657567623e-05,
2797
+ "loss": 0.9356,
2798
+ "step": 395
2799
+ },
2800
+ {
2801
+ "epoch": 0.39849056603773586,
2802
+ "grad_norm": 0.7087289094924927,
2803
+ "learning_rate": 6.911220577405484e-05,
2804
+ "loss": 0.9998,
2805
+ "step": 396
2806
+ },
2807
+ {
2808
+ "epoch": 0.39949685534591195,
2809
+ "grad_norm": 0.7184171676635742,
2810
+ "learning_rate": 6.87130107973505e-05,
2811
+ "loss": 0.9281,
2812
+ "step": 397
2813
+ },
2814
+ {
2815
+ "epoch": 0.40050314465408804,
2816
+ "grad_norm": 0.7750122547149658,
2817
+ "learning_rate": 6.831121542179087e-05,
2818
+ "loss": 0.9402,
2819
+ "step": 398
2820
+ },
2821
+ {
2822
+ "epoch": 0.40150943396226413,
2823
+ "grad_norm": 0.8327257633209229,
2824
+ "learning_rate": 6.790686370876671e-05,
2825
+ "loss": 0.9312,
2826
+ "step": 399
2827
+ },
2828
+ {
2829
+ "epoch": 0.4025157232704403,
2830
+ "grad_norm": 1.3496246337890625,
2831
+ "learning_rate": 6.75e-05,
2832
+ "loss": 0.8687,
2833
+ "step": 400
2834
+ },
2835
+ {
2836
+ "epoch": 0.40352201257861636,
2837
+ "grad_norm": 0.22164778411388397,
2838
+ "learning_rate": 6.709066891268135e-05,
2839
+ "loss": 0.5538,
2840
+ "step": 401
2841
+ },
2842
+ {
2843
+ "epoch": 0.40452830188679245,
2844
+ "grad_norm": 0.2639901340007782,
2845
+ "learning_rate": 6.667891533457719e-05,
2846
+ "loss": 0.6009,
2847
+ "step": 402
2848
+ },
2849
+ {
2850
+ "epoch": 0.40553459119496854,
2851
+ "grad_norm": 0.2394772469997406,
2852
+ "learning_rate": 6.626478441910744e-05,
2853
+ "loss": 0.5637,
2854
+ "step": 403
2855
+ },
2856
+ {
2857
+ "epoch": 0.40654088050314463,
2858
+ "grad_norm": 0.2308882623910904,
2859
+ "learning_rate": 6.584832158039378e-05,
2860
+ "loss": 0.6271,
2861
+ "step": 404
2862
+ },
2863
+ {
2864
+ "epoch": 0.4075471698113208,
2865
+ "grad_norm": 0.22672177851200104,
2866
+ "learning_rate": 6.542957248827961e-05,
2867
+ "loss": 0.6491,
2868
+ "step": 405
2869
+ },
2870
+ {
2871
+ "epoch": 0.40855345911949686,
2872
+ "grad_norm": 0.21780024468898773,
2873
+ "learning_rate": 6.500858306332174e-05,
2874
+ "loss": 0.5769,
2875
+ "step": 406
2876
+ },
2877
+ {
2878
+ "epoch": 0.40955974842767295,
2879
+ "grad_norm": 0.2447304129600525,
2880
+ "learning_rate": 6.458539947175475e-05,
2881
+ "loss": 0.6887,
2882
+ "step": 407
2883
+ },
2884
+ {
2885
+ "epoch": 0.41056603773584904,
2886
+ "grad_norm": 0.2344241440296173,
2887
+ "learning_rate": 6.416006812042828e-05,
2888
+ "loss": 0.7118,
2889
+ "step": 408
2890
+ },
2891
+ {
2892
+ "epoch": 0.41157232704402513,
2893
+ "grad_norm": 0.2348852902650833,
2894
+ "learning_rate": 6.373263565171806e-05,
2895
+ "loss": 0.7149,
2896
+ "step": 409
2897
+ },
2898
+ {
2899
+ "epoch": 0.4125786163522013,
2900
+ "grad_norm": 0.24856218695640564,
2901
+ "learning_rate": 6.330314893841102e-05,
2902
+ "loss": 0.7624,
2903
+ "step": 410
2904
+ },
2905
+ {
2906
+ "epoch": 0.41358490566037737,
2907
+ "grad_norm": 0.2626706063747406,
2908
+ "learning_rate": 6.287165507856512e-05,
2909
+ "loss": 0.77,
2910
+ "step": 411
2911
+ },
2912
+ {
2913
+ "epoch": 0.41459119496855346,
2914
+ "grad_norm": 0.2993844449520111,
2915
+ "learning_rate": 6.243820139034464e-05,
2916
+ "loss": 0.737,
2917
+ "step": 412
2918
+ },
2919
+ {
2920
+ "epoch": 0.41559748427672955,
2921
+ "grad_norm": 0.245309978723526,
2922
+ "learning_rate": 6.200283540683103e-05,
2923
+ "loss": 0.6663,
2924
+ "step": 413
2925
+ },
2926
+ {
2927
+ "epoch": 0.41660377358490563,
2928
+ "grad_norm": 0.303198903799057,
2929
+ "learning_rate": 6.156560487081051e-05,
2930
+ "loss": 0.887,
2931
+ "step": 414
2932
+ },
2933
+ {
2934
+ "epoch": 0.4176100628930818,
2935
+ "grad_norm": 0.26473936438560486,
2936
+ "learning_rate": 6.112655772953851e-05,
2937
+ "loss": 0.75,
2938
+ "step": 415
2939
+ },
2940
+ {
2941
+ "epoch": 0.41861635220125787,
2942
+ "grad_norm": 0.2525455057621002,
2943
+ "learning_rate": 6.068574212948169e-05,
2944
+ "loss": 0.7307,
2945
+ "step": 416
2946
+ },
2947
+ {
2948
+ "epoch": 0.41962264150943396,
2949
+ "grad_norm": 0.2966090738773346,
2950
+ "learning_rate": 6.024320641103812e-05,
2951
+ "loss": 0.8675,
2952
+ "step": 417
2953
+ },
2954
+ {
2955
+ "epoch": 0.42062893081761005,
2956
+ "grad_norm": 0.29838553071022034,
2957
+ "learning_rate": 5.979899910323625e-05,
2958
+ "loss": 0.8116,
2959
+ "step": 418
2960
+ },
2961
+ {
2962
+ "epoch": 0.42163522012578614,
2963
+ "grad_norm": 0.2876933813095093,
2964
+ "learning_rate": 5.935316891841316e-05,
2965
+ "loss": 0.8379,
2966
+ "step": 419
2967
+ },
2968
+ {
2969
+ "epoch": 0.4226415094339623,
2970
+ "grad_norm": 0.31865549087524414,
2971
+ "learning_rate": 5.890576474687264e-05,
2972
+ "loss": 0.8156,
2973
+ "step": 420
2974
+ },
2975
+ {
2976
+ "epoch": 0.42364779874213837,
2977
+ "grad_norm": 0.3124519884586334,
2978
+ "learning_rate": 5.845683565152391e-05,
2979
+ "loss": 0.8597,
2980
+ "step": 421
2981
+ },
2982
+ {
2983
+ "epoch": 0.42465408805031446,
2984
+ "grad_norm": 0.30120527744293213,
2985
+ "learning_rate": 5.800643086250122e-05,
2986
+ "loss": 0.8902,
2987
+ "step": 422
2988
+ },
2989
+ {
2990
+ "epoch": 0.42566037735849055,
2991
+ "grad_norm": 0.2954394817352295,
2992
+ "learning_rate": 5.7554599771765325e-05,
2993
+ "loss": 0.8416,
2994
+ "step": 423
2995
+ },
2996
+ {
2997
+ "epoch": 0.4266666666666667,
2998
+ "grad_norm": 0.3026507496833801,
2999
+ "learning_rate": 5.710139192768696e-05,
3000
+ "loss": 0.872,
3001
+ "step": 424
3002
+ },
3003
+ {
3004
+ "epoch": 0.4276729559748428,
3005
+ "grad_norm": 0.32046762108802795,
3006
+ "learning_rate": 5.6646857029613434e-05,
3007
+ "loss": 0.7951,
3008
+ "step": 425
3009
+ },
3010
+ {
3011
+ "epoch": 0.4286792452830189,
3012
+ "grad_norm": 0.3316304087638855,
3013
+ "learning_rate": 5.6191044922418485e-05,
3014
+ "loss": 0.8383,
3015
+ "step": 426
3016
+ },
3017
+ {
3018
+ "epoch": 0.42968553459119496,
3019
+ "grad_norm": 0.33417731523513794,
3020
+ "learning_rate": 5.5734005591036144e-05,
3021
+ "loss": 0.8762,
3022
+ "step": 427
3023
+ },
3024
+ {
3025
+ "epoch": 0.43069182389937105,
3026
+ "grad_norm": 0.34470945596694946,
3027
+ "learning_rate": 5.527578915497952e-05,
3028
+ "loss": 0.9325,
3029
+ "step": 428
3030
+ },
3031
+ {
3032
+ "epoch": 0.4316981132075472,
3033
+ "grad_norm": 0.34728768467903137,
3034
+ "learning_rate": 5.4816445862844426e-05,
3035
+ "loss": 0.8731,
3036
+ "step": 429
3037
+ },
3038
+ {
3039
+ "epoch": 0.4327044025157233,
3040
+ "grad_norm": 0.36172977089881897,
3041
+ "learning_rate": 5.435602608679916e-05,
3042
+ "loss": 0.7652,
3043
+ "step": 430
3044
+ },
3045
+ {
3046
+ "epoch": 0.4337106918238994,
3047
+ "grad_norm": 0.3733101487159729,
3048
+ "learning_rate": 5.3894580317060684e-05,
3049
+ "loss": 0.7679,
3050
+ "step": 431
3051
+ },
3052
+ {
3053
+ "epoch": 0.43471698113207546,
3054
+ "grad_norm": 0.3756862282752991,
3055
+ "learning_rate": 5.343215915635762e-05,
3056
+ "loss": 0.8794,
3057
+ "step": 432
3058
+ },
3059
+ {
3060
+ "epoch": 0.43572327044025155,
3061
+ "grad_norm": 0.4108087122440338,
3062
+ "learning_rate": 5.2968813314381255e-05,
3063
+ "loss": 0.8592,
3064
+ "step": 433
3065
+ },
3066
+ {
3067
+ "epoch": 0.4367295597484277,
3068
+ "grad_norm": 0.41381314396858215,
3069
+ "learning_rate": 5.250459360222461e-05,
3070
+ "loss": 0.9277,
3071
+ "step": 434
3072
+ },
3073
+ {
3074
+ "epoch": 0.4377358490566038,
3075
+ "grad_norm": 0.39701637625694275,
3076
+ "learning_rate": 5.20395509268104e-05,
3077
+ "loss": 0.779,
3078
+ "step": 435
3079
+ },
3080
+ {
3081
+ "epoch": 0.4387421383647799,
3082
+ "grad_norm": 0.39671677350997925,
3083
+ "learning_rate": 5.157373628530853e-05,
3084
+ "loss": 0.7655,
3085
+ "step": 436
3086
+ },
3087
+ {
3088
+ "epoch": 0.43974842767295597,
3089
+ "grad_norm": 0.4550817906856537,
3090
+ "learning_rate": 5.1107200759543704e-05,
3091
+ "loss": 0.8008,
3092
+ "step": 437
3093
+ },
3094
+ {
3095
+ "epoch": 0.44075471698113206,
3096
+ "grad_norm": 0.4520381987094879,
3097
+ "learning_rate": 5.06399955103937e-05,
3098
+ "loss": 0.9125,
3099
+ "step": 438
3100
+ },
3101
+ {
3102
+ "epoch": 0.4417610062893082,
3103
+ "grad_norm": 0.49547475576400757,
3104
+ "learning_rate": 5.017217177217901e-05,
3105
+ "loss": 0.9307,
3106
+ "step": 439
3107
+ },
3108
+ {
3109
+ "epoch": 0.4427672955974843,
3110
+ "grad_norm": 0.5199328660964966,
3111
+ "learning_rate": 4.9703780847044415e-05,
3112
+ "loss": 0.8968,
3113
+ "step": 440
3114
+ },
3115
+ {
3116
+ "epoch": 0.4437735849056604,
3117
+ "grad_norm": 0.4823533594608307,
3118
+ "learning_rate": 4.923487409933316e-05,
3119
+ "loss": 0.836,
3120
+ "step": 441
3121
+ },
3122
+ {
3123
+ "epoch": 0.44477987421383647,
3124
+ "grad_norm": 0.573940634727478,
3125
+ "learning_rate": 4.876550294995421e-05,
3126
+ "loss": 0.9542,
3127
+ "step": 442
3128
+ },
3129
+ {
3130
+ "epoch": 0.44578616352201256,
3131
+ "grad_norm": 0.6316177248954773,
3132
+ "learning_rate": 4.829571887074343e-05,
3133
+ "loss": 1.0012,
3134
+ "step": 443
3135
+ },
3136
+ {
3137
+ "epoch": 0.4467924528301887,
3138
+ "grad_norm": 0.6314241886138916,
3139
+ "learning_rate": 4.782557337881911e-05,
3140
+ "loss": 0.9749,
3141
+ "step": 444
3142
+ },
3143
+ {
3144
+ "epoch": 0.4477987421383648,
3145
+ "grad_norm": 0.5996174216270447,
3146
+ "learning_rate": 4.7355118030932484e-05,
3147
+ "loss": 0.7982,
3148
+ "step": 445
3149
+ },
3150
+ {
3151
+ "epoch": 0.4488050314465409,
3152
+ "grad_norm": 0.6762143969535828,
3153
+ "learning_rate": 4.688440441781398e-05,
3154
+ "loss": 1.026,
3155
+ "step": 446
3156
+ },
3157
+ {
3158
+ "epoch": 0.44981132075471697,
3159
+ "grad_norm": 0.7565874457359314,
3160
+ "learning_rate": 4.6413484158515774e-05,
3161
+ "loss": 0.877,
3162
+ "step": 447
3163
+ },
3164
+ {
3165
+ "epoch": 0.45081761006289306,
3166
+ "grad_norm": 0.6773599982261658,
3167
+ "learning_rate": 4.594240889475107e-05,
3168
+ "loss": 0.8928,
3169
+ "step": 448
3170
+ },
3171
+ {
3172
+ "epoch": 0.4518238993710692,
3173
+ "grad_norm": 0.9175851345062256,
3174
+ "learning_rate": 4.547123028523106e-05,
3175
+ "loss": 0.9389,
3176
+ "step": 449
3177
+ },
3178
+ {
3179
+ "epoch": 0.4528301886792453,
3180
+ "grad_norm": 1.3272944688796997,
3181
+ "learning_rate": 4.5e-05,
3182
+ "loss": 0.9653,
3183
+ "step": 450
3184
+ },
3185
+ {
3186
+ "epoch": 0.4528301886792453,
3187
+ "eval_loss": 0.8040257692337036,
3188
+ "eval_runtime": 72.3709,
3189
+ "eval_samples_per_second": 46.248,
3190
+ "eval_steps_per_second": 11.565,
3191
+ "step": 450
3192
+ },
3193
+ {
3194
+ "epoch": 0.4538364779874214,
3195
+ "grad_norm": 0.20471110939979553,
3196
+ "learning_rate": 4.452876971476896e-05,
3197
+ "loss": 0.4702,
3198
+ "step": 451
3199
+ },
3200
+ {
3201
+ "epoch": 0.45484276729559747,
3202
+ "grad_norm": 0.25521793961524963,
3203
+ "learning_rate": 4.4057591105248945e-05,
3204
+ "loss": 0.6283,
3205
+ "step": 452
3206
+ },
3207
+ {
3208
+ "epoch": 0.45584905660377356,
3209
+ "grad_norm": 0.1867275834083557,
3210
+ "learning_rate": 4.358651584148423e-05,
3211
+ "loss": 0.5012,
3212
+ "step": 453
3213
+ },
3214
+ {
3215
+ "epoch": 0.4568553459119497,
3216
+ "grad_norm": 0.20557887852191925,
3217
+ "learning_rate": 4.311559558218603e-05,
3218
+ "loss": 0.5983,
3219
+ "step": 454
3220
+ },
3221
+ {
3222
+ "epoch": 0.4578616352201258,
3223
+ "grad_norm": 0.2151852697134018,
3224
+ "learning_rate": 4.264488196906753e-05,
3225
+ "loss": 0.6148,
3226
+ "step": 455
3227
+ },
3228
+ {
3229
+ "epoch": 0.4588679245283019,
3230
+ "grad_norm": 0.20975513756275177,
3231
+ "learning_rate": 4.21744266211809e-05,
3232
+ "loss": 0.5828,
3233
+ "step": 456
3234
+ },
3235
+ {
3236
+ "epoch": 0.459874213836478,
3237
+ "grad_norm": 0.2262539118528366,
3238
+ "learning_rate": 4.1704281129256585e-05,
3239
+ "loss": 0.6302,
3240
+ "step": 457
3241
+ },
3242
+ {
3243
+ "epoch": 0.46088050314465406,
3244
+ "grad_norm": 0.24988995492458344,
3245
+ "learning_rate": 4.1234497050045815e-05,
3246
+ "loss": 0.7265,
3247
+ "step": 458
3248
+ },
3249
+ {
3250
+ "epoch": 0.4618867924528302,
3251
+ "grad_norm": 0.259901762008667,
3252
+ "learning_rate": 4.076512590066686e-05,
3253
+ "loss": 0.7655,
3254
+ "step": 459
3255
+ },
3256
+ {
3257
+ "epoch": 0.4628930817610063,
3258
+ "grad_norm": 0.2539641559123993,
3259
+ "learning_rate": 4.0296219152955604e-05,
3260
+ "loss": 0.6835,
3261
+ "step": 460
3262
+ },
3263
+ {
3264
+ "epoch": 0.4638993710691824,
3265
+ "grad_norm": 0.2466258704662323,
3266
+ "learning_rate": 3.982782822782101e-05,
3267
+ "loss": 0.6605,
3268
+ "step": 461
3269
+ },
3270
+ {
3271
+ "epoch": 0.4649056603773585,
3272
+ "grad_norm": 0.2474479377269745,
3273
+ "learning_rate": 3.936000448960631e-05,
3274
+ "loss": 0.7396,
3275
+ "step": 462
3276
+ },
3277
+ {
3278
+ "epoch": 0.46591194968553457,
3279
+ "grad_norm": 0.2521885335445404,
3280
+ "learning_rate": 3.889279924045631e-05,
3281
+ "loss": 0.7581,
3282
+ "step": 463
3283
+ },
3284
+ {
3285
+ "epoch": 0.4669182389937107,
3286
+ "grad_norm": 0.2826155722141266,
3287
+ "learning_rate": 3.842626371469148e-05,
3288
+ "loss": 0.8262,
3289
+ "step": 464
3290
+ },
3291
+ {
3292
+ "epoch": 0.4679245283018868,
3293
+ "grad_norm": 0.2689575254917145,
3294
+ "learning_rate": 3.796044907318961e-05,
3295
+ "loss": 0.7999,
3296
+ "step": 465
3297
+ },
3298
+ {
3299
+ "epoch": 0.4689308176100629,
3300
+ "grad_norm": 0.26612672209739685,
3301
+ "learning_rate": 3.74954063977754e-05,
3302
+ "loss": 0.7519,
3303
+ "step": 466
3304
+ },
3305
+ {
3306
+ "epoch": 0.469937106918239,
3307
+ "grad_norm": 0.26734238862991333,
3308
+ "learning_rate": 3.703118668561876e-05,
3309
+ "loss": 0.7494,
3310
+ "step": 467
3311
+ },
3312
+ {
3313
+ "epoch": 0.47094339622641507,
3314
+ "grad_norm": 0.27751103043556213,
3315
+ "learning_rate": 3.6567840843642385e-05,
3316
+ "loss": 0.7699,
3317
+ "step": 468
3318
+ },
3319
+ {
3320
+ "epoch": 0.4719496855345912,
3321
+ "grad_norm": 0.2924068570137024,
3322
+ "learning_rate": 3.610541968293932e-05,
3323
+ "loss": 0.8906,
3324
+ "step": 469
3325
+ },
3326
+ {
3327
+ "epoch": 0.4729559748427673,
3328
+ "grad_norm": 0.3333476185798645,
3329
+ "learning_rate": 3.564397391320084e-05,
3330
+ "loss": 0.8296,
3331
+ "step": 470
3332
+ },
3333
+ {
3334
+ "epoch": 0.4739622641509434,
3335
+ "grad_norm": 0.2821838855743408,
3336
+ "learning_rate": 3.51835541371556e-05,
3337
+ "loss": 0.7995,
3338
+ "step": 471
3339
+ },
3340
+ {
3341
+ "epoch": 0.4749685534591195,
3342
+ "grad_norm": 0.29105469584465027,
3343
+ "learning_rate": 3.472421084502049e-05,
3344
+ "loss": 0.8302,
3345
+ "step": 472
3346
+ },
3347
+ {
3348
+ "epoch": 0.4759748427672956,
3349
+ "grad_norm": 0.3232196867465973,
3350
+ "learning_rate": 3.426599440896387e-05,
3351
+ "loss": 0.8682,
3352
+ "step": 473
3353
+ },
3354
+ {
3355
+ "epoch": 0.4769811320754717,
3356
+ "grad_norm": 0.3052535355091095,
3357
+ "learning_rate": 3.380895507758154e-05,
3358
+ "loss": 0.8917,
3359
+ "step": 474
3360
+ },
3361
+ {
3362
+ "epoch": 0.4779874213836478,
3363
+ "grad_norm": 0.31709784269332886,
3364
+ "learning_rate": 3.3353142970386565e-05,
3365
+ "loss": 0.9024,
3366
+ "step": 475
3367
+ },
3368
+ {
3369
+ "epoch": 0.4789937106918239,
3370
+ "grad_norm": 0.30279234051704407,
3371
+ "learning_rate": 3.2898608072313045e-05,
3372
+ "loss": 0.8268,
3373
+ "step": 476
3374
+ },
3375
+ {
3376
+ "epoch": 0.48,
3377
+ "grad_norm": 0.31982421875,
3378
+ "learning_rate": 3.244540022823469e-05,
3379
+ "loss": 0.8574,
3380
+ "step": 477
3381
+ },
3382
+ {
3383
+ "epoch": 0.4810062893081761,
3384
+ "grad_norm": 0.34274452924728394,
3385
+ "learning_rate": 3.199356913749877e-05,
3386
+ "loss": 0.8376,
3387
+ "step": 478
3388
+ },
3389
+ {
3390
+ "epoch": 0.4820125786163522,
3391
+ "grad_norm": 0.3448265790939331,
3392
+ "learning_rate": 3.1543164348476105e-05,
3393
+ "loss": 0.8395,
3394
+ "step": 479
3395
+ },
3396
+ {
3397
+ "epoch": 0.4830188679245283,
3398
+ "grad_norm": 0.3254213333129883,
3399
+ "learning_rate": 3.1094235253127374e-05,
3400
+ "loss": 0.7239,
3401
+ "step": 480
3402
+ },
3403
+ {
3404
+ "epoch": 0.4840251572327044,
3405
+ "grad_norm": 0.3562363386154175,
3406
+ "learning_rate": 3.064683108158685e-05,
3407
+ "loss": 0.8632,
3408
+ "step": 481
3409
+ },
3410
+ {
3411
+ "epoch": 0.4850314465408805,
3412
+ "grad_norm": 0.36696115136146545,
3413
+ "learning_rate": 3.0201000896763757e-05,
3414
+ "loss": 0.8333,
3415
+ "step": 482
3416
+ },
3417
+ {
3418
+ "epoch": 0.48603773584905663,
3419
+ "grad_norm": 0.39277511835098267,
3420
+ "learning_rate": 2.975679358896189e-05,
3421
+ "loss": 0.799,
3422
+ "step": 483
3423
+ },
3424
+ {
3425
+ "epoch": 0.4870440251572327,
3426
+ "grad_norm": 0.3960510790348053,
3427
+ "learning_rate": 2.9314257870518325e-05,
3428
+ "loss": 0.8517,
3429
+ "step": 484
3430
+ },
3431
+ {
3432
+ "epoch": 0.4880503144654088,
3433
+ "grad_norm": 0.40880805253982544,
3434
+ "learning_rate": 2.887344227046149e-05,
3435
+ "loss": 0.768,
3436
+ "step": 485
3437
+ },
3438
+ {
3439
+ "epoch": 0.4890566037735849,
3440
+ "grad_norm": 0.4367224872112274,
3441
+ "learning_rate": 2.8434395129189495e-05,
3442
+ "loss": 0.8494,
3443
+ "step": 486
3444
+ },
3445
+ {
3446
+ "epoch": 0.490062893081761,
3447
+ "grad_norm": 0.41261956095695496,
3448
+ "learning_rate": 2.7997164593168986e-05,
3449
+ "loss": 0.772,
3450
+ "step": 487
3451
+ },
3452
+ {
3453
+ "epoch": 0.49106918238993713,
3454
+ "grad_norm": 0.4327767491340637,
3455
+ "learning_rate": 2.756179860965537e-05,
3456
+ "loss": 0.8299,
3457
+ "step": 488
3458
+ },
3459
+ {
3460
+ "epoch": 0.4920754716981132,
3461
+ "grad_norm": 0.5124357342720032,
3462
+ "learning_rate": 2.7128344921434877e-05,
3463
+ "loss": 0.9382,
3464
+ "step": 489
3465
+ },
3466
+ {
3467
+ "epoch": 0.4930817610062893,
3468
+ "grad_norm": 0.47919076681137085,
3469
+ "learning_rate": 2.6696851061589e-05,
3470
+ "loss": 0.7916,
3471
+ "step": 490
3472
+ },
3473
+ {
3474
+ "epoch": 0.4940880503144654,
3475
+ "grad_norm": 0.5297518968582153,
3476
+ "learning_rate": 2.6267364348281954e-05,
3477
+ "loss": 0.8588,
3478
+ "step": 491
3479
+ },
3480
+ {
3481
+ "epoch": 0.4950943396226415,
3482
+ "grad_norm": 0.5296423435211182,
3483
+ "learning_rate": 2.5839931879571733e-05,
3484
+ "loss": 0.851,
3485
+ "step": 492
3486
+ },
3487
+ {
3488
+ "epoch": 0.49610062893081763,
3489
+ "grad_norm": 0.5914133191108704,
3490
+ "learning_rate": 2.541460052824527e-05,
3491
+ "loss": 0.9017,
3492
+ "step": 493
3493
+ },
3494
+ {
3495
+ "epoch": 0.4971069182389937,
3496
+ "grad_norm": 0.6070476174354553,
3497
+ "learning_rate": 2.4991416936678276e-05,
3498
+ "loss": 0.8965,
3499
+ "step": 494
3500
+ },
3501
+ {
3502
+ "epoch": 0.4981132075471698,
3503
+ "grad_norm": 0.6474441289901733,
3504
+ "learning_rate": 2.4570427511720398e-05,
3505
+ "loss": 0.9863,
3506
+ "step": 495
3507
+ },
3508
+ {
3509
+ "epoch": 0.4991194968553459,
3510
+ "grad_norm": 0.6955735683441162,
3511
+ "learning_rate": 2.4151678419606235e-05,
3512
+ "loss": 0.9854,
3513
+ "step": 496
3514
+ },
3515
+ {
3516
+ "epoch": 0.500125786163522,
3517
+ "grad_norm": 0.6878324747085571,
3518
+ "learning_rate": 2.3735215580892577e-05,
3519
+ "loss": 0.8784,
3520
+ "step": 497
3521
+ },
3522
+ {
3523
+ "epoch": 0.5011320754716981,
3524
+ "grad_norm": 0.7594687938690186,
3525
+ "learning_rate": 2.3321084665422807e-05,
3526
+ "loss": 1.0182,
3527
+ "step": 498
3528
+ },
3529
+ {
3530
+ "epoch": 0.5021383647798742,
3531
+ "grad_norm": 0.902470588684082,
3532
+ "learning_rate": 2.2909331087318664e-05,
3533
+ "loss": 0.8469,
3534
+ "step": 499
3535
+ },
3536
+ {
3537
+ "epoch": 0.5031446540880503,
3538
+ "grad_norm": 1.4358625411987305,
3539
+ "learning_rate": 2.250000000000001e-05,
3540
+ "loss": 0.8747,
3541
+ "step": 500
3542
+ },
3543
+ {
3544
+ "epoch": 0.5041509433962265,
3545
+ "grad_norm": 0.23904839158058167,
3546
+ "learning_rate": 2.209313629123329e-05,
3547
+ "loss": 0.5938,
3548
+ "step": 501
3549
+ },
3550
+ {
3551
+ "epoch": 0.5051572327044025,
3552
+ "grad_norm": 0.20867227017879486,
3553
+ "learning_rate": 2.168878457820915e-05,
3554
+ "loss": 0.5036,
3555
+ "step": 502
3556
+ },
3557
+ {
3558
+ "epoch": 0.5061635220125786,
3559
+ "grad_norm": 0.2144133299589157,
3560
+ "learning_rate": 2.128698920264951e-05,
3561
+ "loss": 0.6249,
3562
+ "step": 503
3563
+ },
3564
+ {
3565
+ "epoch": 0.5071698113207547,
3566
+ "grad_norm": 0.20212629437446594,
3567
+ "learning_rate": 2.088779422594514e-05,
3568
+ "loss": 0.6889,
3569
+ "step": 504
3570
+ },
3571
+ {
3572
+ "epoch": 0.5081761006289308,
3573
+ "grad_norm": 0.18371202051639557,
3574
+ "learning_rate": 2.0491243424323783e-05,
3575
+ "loss": 0.6188,
3576
+ "step": 505
3577
+ },
3578
+ {
3579
+ "epoch": 0.509182389937107,
3580
+ "grad_norm": 0.2056654989719391,
3581
+ "learning_rate": 2.009738028404952e-05,
3582
+ "loss": 0.6117,
3583
+ "step": 506
3584
+ },
3585
+ {
3586
+ "epoch": 0.510188679245283,
3587
+ "grad_norm": 0.21647100150585175,
3588
+ "learning_rate": 1.9706247996654134e-05,
3589
+ "loss": 0.6288,
3590
+ "step": 507
3591
+ },
3592
+ {
3593
+ "epoch": 0.5111949685534591,
3594
+ "grad_norm": 0.2186782956123352,
3595
+ "learning_rate": 1.9317889454200578e-05,
3596
+ "loss": 0.6399,
3597
+ "step": 508
3598
+ },
3599
+ {
3600
+ "epoch": 0.5122012578616352,
3601
+ "grad_norm": 0.23389363288879395,
3602
+ "learning_rate": 1.8932347244579463e-05,
3603
+ "loss": 0.7042,
3604
+ "step": 509
3605
+ },
3606
+ {
3607
+ "epoch": 0.5132075471698113,
3608
+ "grad_norm": 0.24194186925888062,
3609
+ "learning_rate": 1.8549663646838714e-05,
3610
+ "loss": 0.7191,
3611
+ "step": 510
3612
+ },
3613
+ {
3614
+ "epoch": 0.5142138364779875,
3615
+ "grad_norm": 0.24342100322246552,
3616
+ "learning_rate": 1.8169880626547285e-05,
3617
+ "loss": 0.7147,
3618
+ "step": 511
3619
+ },
3620
+ {
3621
+ "epoch": 0.5152201257861635,
3622
+ "grad_norm": 0.2450750470161438,
3623
+ "learning_rate": 1.7793039831193134e-05,
3624
+ "loss": 0.7187,
3625
+ "step": 512
3626
+ },
3627
+ {
3628
+ "epoch": 0.5162264150943396,
3629
+ "grad_norm": 0.26462146639823914,
3630
+ "learning_rate": 1.741918258561607e-05,
3631
+ "loss": 0.8313,
3632
+ "step": 513
3633
+ },
3634
+ {
3635
+ "epoch": 0.5172327044025157,
3636
+ "grad_norm": 0.26424697041511536,
3637
+ "learning_rate": 1.7048349887476038e-05,
3638
+ "loss": 0.7624,
3639
+ "step": 514
3640
+ },
3641
+ {
3642
+ "epoch": 0.5182389937106918,
3643
+ "grad_norm": 0.2656416594982147,
3644
+ "learning_rate": 1.6680582402757324e-05,
3645
+ "loss": 0.7959,
3646
+ "step": 515
3647
+ },
3648
+ {
3649
+ "epoch": 0.519245283018868,
3650
+ "grad_norm": 0.27823954820632935,
3651
+ "learning_rate": 1.631592046130896e-05,
3652
+ "loss": 0.7825,
3653
+ "step": 516
3654
+ },
3655
+ {
3656
+ "epoch": 0.520251572327044,
3657
+ "grad_norm": 0.26520705223083496,
3658
+ "learning_rate": 1.5954404052422217e-05,
3659
+ "loss": 0.7833,
3660
+ "step": 517
3661
+ },
3662
+ {
3663
+ "epoch": 0.5212578616352201,
3664
+ "grad_norm": 0.3015387952327728,
3665
+ "learning_rate": 1.5596072820445255e-05,
3666
+ "loss": 0.8261,
3667
+ "step": 518
3668
+ },
3669
+ {
3670
+ "epoch": 0.5222641509433962,
3671
+ "grad_norm": 0.28979843854904175,
3672
+ "learning_rate": 1.5240966060435674e-05,
3673
+ "loss": 0.785,
3674
+ "step": 519
3675
+ },
3676
+ {
3677
+ "epoch": 0.5232704402515723,
3678
+ "grad_norm": 0.2958517372608185,
3679
+ "learning_rate": 1.4889122713851395e-05,
3680
+ "loss": 0.7631,
3681
+ "step": 520
3682
+ },
3683
+ {
3684
+ "epoch": 0.5242767295597485,
3685
+ "grad_norm": 0.2933093011379242,
3686
+ "learning_rate": 1.4540581364280274e-05,
3687
+ "loss": 0.8831,
3688
+ "step": 521
3689
+ },
3690
+ {
3691
+ "epoch": 0.5252830188679245,
3692
+ "grad_norm": 0.27697688341140747,
3693
+ "learning_rate": 1.4195380233209009e-05,
3694
+ "loss": 0.7368,
3695
+ "step": 522
3696
+ },
3697
+ {
3698
+ "epoch": 0.5262893081761006,
3699
+ "grad_norm": 0.3134765326976776,
3700
+ "learning_rate": 1.38535571758317e-05,
3701
+ "loss": 0.8383,
3702
+ "step": 523
3703
+ },
3704
+ {
3705
+ "epoch": 0.5272955974842767,
3706
+ "grad_norm": 0.28508156538009644,
3707
+ "learning_rate": 1.3515149676898551e-05,
3708
+ "loss": 0.778,
3709
+ "step": 524
3710
+ },
3711
+ {
3712
+ "epoch": 0.5283018867924528,
3713
+ "grad_norm": 0.31699931621551514,
3714
+ "learning_rate": 1.3180194846605365e-05,
3715
+ "loss": 0.8089,
3716
+ "step": 525
3717
+ },
3718
+ {
3719
+ "epoch": 0.529308176100629,
3720
+ "grad_norm": 0.3305254876613617,
3721
+ "learning_rate": 1.284872941652386e-05,
3722
+ "loss": 0.831,
3723
+ "step": 526
3724
+ },
3725
+ {
3726
+ "epoch": 0.530314465408805,
3727
+ "grad_norm": 0.31761541962623596,
3728
+ "learning_rate": 1.2520789735573703e-05,
3729
+ "loss": 0.8284,
3730
+ "step": 527
3731
+ },
3732
+ {
3733
+ "epoch": 0.5313207547169811,
3734
+ "grad_norm": 0.31628575921058655,
3735
+ "learning_rate": 1.2196411766036491e-05,
3736
+ "loss": 0.7306,
3737
+ "step": 528
3738
+ },
3739
+ {
3740
+ "epoch": 0.5323270440251572,
3741
+ "grad_norm": 0.352816104888916,
3742
+ "learning_rate": 1.1875631079611956e-05,
3743
+ "loss": 0.8164,
3744
+ "step": 529
3745
+ },
3746
+ {
3747
+ "epoch": 0.5333333333333333,
3748
+ "grad_norm": 0.35125187039375305,
3749
+ "learning_rate": 1.1558482853517254e-05,
3750
+ "loss": 0.8364,
3751
+ "step": 530
3752
+ },
3753
+ {
3754
+ "epoch": 0.5343396226415095,
3755
+ "grad_norm": 0.3974522352218628,
3756
+ "learning_rate": 1.124500186662932e-05,
3757
+ "loss": 0.8929,
3758
+ "step": 531
3759
+ },
3760
+ {
3761
+ "epoch": 0.5353459119496855,
3762
+ "grad_norm": 0.3924785256385803,
3763
+ "learning_rate": 1.0935222495670969e-05,
3764
+ "loss": 0.8117,
3765
+ "step": 532
3766
+ },
3767
+ {
3768
+ "epoch": 0.5363522012578616,
3769
+ "grad_norm": 0.37499430775642395,
3770
+ "learning_rate": 1.0629178711441115e-05,
3771
+ "loss": 0.8571,
3772
+ "step": 533
3773
+ },
3774
+ {
3775
+ "epoch": 0.5373584905660377,
3776
+ "grad_norm": 0.4152454137802124,
3777
+ "learning_rate": 1.032690407508949e-05,
3778
+ "loss": 0.8176,
3779
+ "step": 534
3780
+ },
3781
+ {
3782
+ "epoch": 0.5383647798742138,
3783
+ "grad_norm": 0.4613153040409088,
3784
+ "learning_rate": 1.002843173443631e-05,
3785
+ "loss": 0.8914,
3786
+ "step": 535
3787
+ },
3788
+ {
3789
+ "epoch": 0.53937106918239,
3790
+ "grad_norm": 0.4119192659854889,
3791
+ "learning_rate": 9.733794420337214e-06,
3792
+ "loss": 0.7557,
3793
+ "step": 536
3794
+ },
3795
+ {
3796
+ "epoch": 0.540377358490566,
3797
+ "grad_norm": 0.47877928614616394,
3798
+ "learning_rate": 9.443024443093932e-06,
3799
+ "loss": 0.7729,
3800
+ "step": 537
3801
+ },
3802
+ {
3803
+ "epoch": 0.5413836477987422,
3804
+ "grad_norm": 0.5126065611839294,
3805
+ "learning_rate": 9.15615368891117e-06,
3806
+ "loss": 0.8311,
3807
+ "step": 538
3808
+ },
3809
+ {
3810
+ "epoch": 0.5423899371069182,
3811
+ "grad_norm": 0.48336324095726013,
3812
+ "learning_rate": 8.873213616399854e-06,
3813
+ "loss": 0.8465,
3814
+ "step": 539
3815
+ },
3816
+ {
3817
+ "epoch": 0.5433962264150943,
3818
+ "grad_norm": 0.5260478258132935,
3819
+ "learning_rate": 8.59423525312737e-06,
3820
+ "loss": 0.8989,
3821
+ "step": 540
3822
+ },
3823
+ {
3824
+ "epoch": 0.5444025157232705,
3825
+ "grad_norm": 0.6092353463172913,
3826
+ "learning_rate": 8.319249192215056e-06,
3827
+ "loss": 0.92,
3828
+ "step": 541
3829
+ },
3830
+ {
3831
+ "epoch": 0.5454088050314465,
3832
+ "grad_norm": 0.5647766590118408,
3833
+ "learning_rate": 8.04828558898332e-06,
3834
+ "loss": 0.9122,
3835
+ "step": 542
3836
+ },
3837
+ {
3838
+ "epoch": 0.5464150943396227,
3839
+ "grad_norm": 0.6063531041145325,
3840
+ "learning_rate": 7.781374157644714e-06,
3841
+ "loss": 1.0103,
3842
+ "step": 543
3843
+ },
3844
+ {
3845
+ "epoch": 0.5474213836477987,
3846
+ "grad_norm": 1.2413952350616455,
3847
+ "learning_rate": 7.518544168045526e-06,
3848
+ "loss": 0.7649,
3849
+ "step": 544
3850
+ },
3851
+ {
3852
+ "epoch": 0.5484276729559748,
3853
+ "grad_norm": 0.634516716003418,
3854
+ "learning_rate": 7.259824442455923e-06,
3855
+ "loss": 1.0046,
3856
+ "step": 545
3857
+ },
3858
+ {
3859
+ "epoch": 0.549433962264151,
3860
+ "grad_norm": 0.7817690968513489,
3861
+ "learning_rate": 7.005243352409332e-06,
3862
+ "loss": 1.0795,
3863
+ "step": 546
3864
+ },
3865
+ {
3866
+ "epoch": 0.550440251572327,
3867
+ "grad_norm": 0.7421931624412537,
3868
+ "learning_rate": 6.754828815591131e-06,
3869
+ "loss": 0.9726,
3870
+ "step": 547
3871
+ },
3872
+ {
3873
+ "epoch": 0.5514465408805032,
3874
+ "grad_norm": 0.8387755155563354,
3875
+ "learning_rate": 6.508608292777203e-06,
3876
+ "loss": 0.9694,
3877
+ "step": 548
3878
+ },
3879
+ {
3880
+ "epoch": 0.5524528301886793,
3881
+ "grad_norm": 0.8762068748474121,
3882
+ "learning_rate": 6.266608784822542e-06,
3883
+ "loss": 0.9576,
3884
+ "step": 549
3885
+ },
3886
+ {
3887
+ "epoch": 0.5534591194968553,
3888
+ "grad_norm": 1.0989902019500732,
3889
+ "learning_rate": 6.028856829700258e-06,
3890
+ "loss": 0.9774,
3891
+ "step": 550
3892
+ },
3893
+ {
3894
+ "epoch": 0.5544654088050315,
3895
+ "grad_norm": 0.19267253577709198,
3896
+ "learning_rate": 5.795378499591479e-06,
3897
+ "loss": 0.5068,
3898
+ "step": 551
3899
+ },
3900
+ {
3901
+ "epoch": 0.5554716981132075,
3902
+ "grad_norm": 0.20570369064807892,
3903
+ "learning_rate": 5.566199398026149e-06,
3904
+ "loss": 0.4821,
3905
+ "step": 552
3906
+ },
3907
+ {
3908
+ "epoch": 0.5564779874213837,
3909
+ "grad_norm": 0.2014710158109665,
3910
+ "learning_rate": 5.341344657075353e-06,
3911
+ "loss": 0.5268,
3912
+ "step": 553
3913
+ },
3914
+ {
3915
+ "epoch": 0.5574842767295598,
3916
+ "grad_norm": 0.17889411747455597,
3917
+ "learning_rate": 5.120838934595337e-06,
3918
+ "loss": 0.5612,
3919
+ "step": 554
3920
+ },
3921
+ {
3922
+ "epoch": 0.5584905660377358,
3923
+ "grad_norm": 0.1814723163843155,
3924
+ "learning_rate": 4.90470641152345e-06,
3925
+ "loss": 0.6024,
3926
+ "step": 555
3927
+ },
3928
+ {
3929
+ "epoch": 0.559496855345912,
3930
+ "grad_norm": 0.19090139865875244,
3931
+ "learning_rate": 4.69297078922642e-06,
3932
+ "loss": 0.6081,
3933
+ "step": 556
3934
+ },
3935
+ {
3936
+ "epoch": 0.560503144654088,
3937
+ "grad_norm": 0.21327486634254456,
3938
+ "learning_rate": 4.485655286901292e-06,
3939
+ "loss": 0.6522,
3940
+ "step": 557
3941
+ },
3942
+ {
3943
+ "epoch": 0.5615094339622642,
3944
+ "grad_norm": 0.20898205041885376,
3945
+ "learning_rate": 4.28278263902913e-06,
3946
+ "loss": 0.6344,
3947
+ "step": 558
3948
+ },
3949
+ {
3950
+ "epoch": 0.5625157232704403,
3951
+ "grad_norm": 0.22488388419151306,
3952
+ "learning_rate": 4.084375092881916e-06,
3953
+ "loss": 0.6422,
3954
+ "step": 559
3955
+ },
3956
+ {
3957
+ "epoch": 0.5635220125786163,
3958
+ "grad_norm": 0.2517217695713043,
3959
+ "learning_rate": 3.890454406082956e-06,
3960
+ "loss": 0.7872,
3961
+ "step": 560
3962
+ },
3963
+ {
3964
+ "epoch": 0.5645283018867925,
3965
+ "grad_norm": 0.23601284623146057,
3966
+ "learning_rate": 3.701041844220849e-06,
3967
+ "loss": 0.677,
3968
+ "step": 561
3969
+ },
3970
+ {
3971
+ "epoch": 0.5655345911949685,
3972
+ "grad_norm": 0.2342206984758377,
3973
+ "learning_rate": 3.516158178517482e-06,
3974
+ "loss": 0.6674,
3975
+ "step": 562
3976
+ },
3977
+ {
3978
+ "epoch": 0.5665408805031447,
3979
+ "grad_norm": 0.2706093192100525,
3980
+ "learning_rate": 3.335823683550237e-06,
3981
+ "loss": 0.7669,
3982
+ "step": 563
3983
+ },
3984
+ {
3985
+ "epoch": 0.5675471698113208,
3986
+ "grad_norm": 0.25333014130592346,
3987
+ "learning_rate": 3.1600581350286897e-06,
3988
+ "loss": 0.7338,
3989
+ "step": 564
3990
+ },
3991
+ {
3992
+ "epoch": 0.5685534591194968,
3993
+ "grad_norm": 0.2653476595878601,
3994
+ "learning_rate": 2.9888808076259267e-06,
3995
+ "loss": 0.782,
3996
+ "step": 565
3997
+ },
3998
+ {
3999
+ "epoch": 0.569559748427673,
4000
+ "grad_norm": 0.27972614765167236,
4001
+ "learning_rate": 2.822310472864885e-06,
4002
+ "loss": 0.7923,
4003
+ "step": 566
4004
+ },
4005
+ {
4006
+ "epoch": 0.570566037735849,
4007
+ "grad_norm": 0.26939818263053894,
4008
+ "learning_rate": 2.660365397059855e-06,
4009
+ "loss": 0.7194,
4010
+ "step": 567
4011
+ },
4012
+ {
4013
+ "epoch": 0.5715723270440252,
4014
+ "grad_norm": 0.28501391410827637,
4015
+ "learning_rate": 2.503063339313355e-06,
4016
+ "loss": 0.824,
4017
+ "step": 568
4018
+ },
4019
+ {
4020
+ "epoch": 0.5725786163522013,
4021
+ "grad_norm": 0.2938201427459717,
4022
+ "learning_rate": 2.3504215495686498e-06,
4023
+ "loss": 0.8437,
4024
+ "step": 569
4025
+ },
4026
+ {
4027
+ "epoch": 0.5735849056603773,
4028
+ "grad_norm": 0.28671878576278687,
4029
+ "learning_rate": 2.2024567667180914e-06,
4030
+ "loss": 0.8355,
4031
+ "step": 570
4032
+ },
4033
+ {
4034
+ "epoch": 0.5745911949685535,
4035
+ "grad_norm": 0.29585692286491394,
4036
+ "learning_rate": 2.059185216767543e-06,
4037
+ "loss": 0.8325,
4038
+ "step": 571
4039
+ },
4040
+ {
4041
+ "epoch": 0.5755974842767295,
4042
+ "grad_norm": 0.3155832886695862,
4043
+ "learning_rate": 1.9206226110569742e-06,
4044
+ "loss": 0.7434,
4045
+ "step": 572
4046
+ },
4047
+ {
4048
+ "epoch": 0.5766037735849057,
4049
+ "grad_norm": 0.29947665333747864,
4050
+ "learning_rate": 1.7867841445375621e-06,
4051
+ "loss": 0.8107,
4052
+ "step": 573
4053
+ },
4054
+ {
4055
+ "epoch": 0.5776100628930818,
4056
+ "grad_norm": 0.3051373362541199,
4057
+ "learning_rate": 1.6576844941053854e-06,
4058
+ "loss": 0.789,
4059
+ "step": 574
4060
+ },
4061
+ {
4062
+ "epoch": 0.5786163522012578,
4063
+ "grad_norm": 0.31009525060653687,
4064
+ "learning_rate": 1.533337816991931e-06,
4065
+ "loss": 0.8255,
4066
+ "step": 575
4067
+ },
4068
+ {
4069
+ "epoch": 0.579622641509434,
4070
+ "grad_norm": 0.3172381818294525,
4071
+ "learning_rate": 1.4137577492116016e-06,
4072
+ "loss": 0.8534,
4073
+ "step": 576
4074
+ },
4075
+ {
4076
+ "epoch": 0.58062893081761,
4077
+ "grad_norm": 0.3247847557067871,
4078
+ "learning_rate": 1.2989574040663816e-06,
4079
+ "loss": 0.7678,
4080
+ "step": 577
4081
+ },
4082
+ {
4083
+ "epoch": 0.5816352201257862,
4084
+ "grad_norm": 0.3526797592639923,
4085
+ "learning_rate": 1.188949370707787e-06,
4086
+ "loss": 0.8184,
4087
+ "step": 578
4088
+ },
4089
+ {
4090
+ "epoch": 0.5826415094339623,
4091
+ "grad_norm": 0.3355388641357422,
4092
+ "learning_rate": 1.0837457127563656e-06,
4093
+ "loss": 0.7369,
4094
+ "step": 579
4095
+ },
4096
+ {
4097
+ "epoch": 0.5836477987421383,
4098
+ "grad_norm": 0.35080787539482117,
4099
+ "learning_rate": 9.83357966978744e-07,
4100
+ "loss": 0.7977,
4101
+ "step": 580
4102
+ },
4103
+ {
4104
+ "epoch": 0.5846540880503145,
4105
+ "grad_norm": 0.3781813681125641,
4106
+ "learning_rate": 8.877971420225212e-07,
4107
+ "loss": 0.8562,
4108
+ "step": 581
4109
+ },
4110
+ {
4111
+ "epoch": 0.5856603773584905,
4112
+ "grad_norm": 0.3460877537727356,
4113
+ "learning_rate": 7.970737172090126e-07,
4114
+ "loss": 0.7582,
4115
+ "step": 582
4116
+ },
4117
+ {
4118
+ "epoch": 0.5866666666666667,
4119
+ "grad_norm": 0.40400418639183044,
4120
+ "learning_rate": 7.111976413841153e-07,
4121
+ "loss": 0.8586,
4122
+ "step": 583
4123
+ },
4124
+ {
4125
+ "epoch": 0.5876729559748428,
4126
+ "grad_norm": 0.3923444449901581,
4127
+ "learning_rate": 6.301783318272809e-07,
4128
+ "loss": 0.769,
4129
+ "step": 584
4130
+ },
4131
+ {
4132
+ "epoch": 0.5886792452830188,
4133
+ "grad_norm": 0.45618340373039246,
4134
+ "learning_rate": 5.540246732188054e-07,
4135
+ "loss": 0.8698,
4136
+ "step": 585
4137
+ },
4138
+ {
4139
+ "epoch": 0.589685534591195,
4140
+ "grad_norm": 0.4493141174316406,
4141
+ "learning_rate": 4.827450166655251e-07,
4142
+ "loss": 0.774,
4143
+ "step": 586
4144
+ },
4145
+ {
4146
+ "epoch": 0.590691823899371,
4147
+ "grad_norm": 0.4435656666755676,
4148
+ "learning_rate": 4.1634717878503816e-07,
4149
+ "loss": 0.7854,
4150
+ "step": 587
4151
+ },
4152
+ {
4153
+ "epoch": 0.5916981132075472,
4154
+ "grad_norm": 0.4567503035068512,
4155
+ "learning_rate": 3.548384408485006e-07,
4156
+ "loss": 0.8518,
4157
+ "step": 588
4158
+ },
4159
+ {
4160
+ "epoch": 0.5927044025157233,
4161
+ "grad_norm": 0.4994966387748718,
4162
+ "learning_rate": 2.9822554798215994e-07,
4163
+ "loss": 0.8974,
4164
+ "step": 589
4165
+ },
4166
+ {
4167
+ "epoch": 0.5937106918238994,
4168
+ "grad_norm": 0.5203002095222473,
4169
+ "learning_rate": 2.4651470842770196e-07,
4170
+ "loss": 0.8934,
4171
+ "step": 590
4172
+ },
4173
+ {
4174
+ "epoch": 0.5947169811320755,
4175
+ "grad_norm": 0.5493276119232178,
4176
+ "learning_rate": 1.9971159286140017e-07,
4177
+ "loss": 0.9349,
4178
+ "step": 591
4179
+ },
4180
+ {
4181
+ "epoch": 0.5957232704402515,
4182
+ "grad_norm": 0.611061692237854,
4183
+ "learning_rate": 1.5782133377230334e-07,
4184
+ "loss": 0.909,
4185
+ "step": 592
4186
+ },
4187
+ {
4188
+ "epoch": 0.5967295597484277,
4189
+ "grad_norm": 0.5774553418159485,
4190
+ "learning_rate": 1.208485248993857e-07,
4191
+ "loss": 0.9196,
4192
+ "step": 593
4193
+ },
4194
+ {
4195
+ "epoch": 0.5977358490566038,
4196
+ "grad_norm": 0.6194422841072083,
4197
+ "learning_rate": 8.879722072777986e-08,
4198
+ "loss": 0.9283,
4199
+ "step": 594
4200
+ },
4201
+ {
4202
+ "epoch": 0.5987421383647799,
4203
+ "grad_norm": 0.7021675705909729,
4204
+ "learning_rate": 6.167093604417751e-08,
4205
+ "loss": 1.0583,
4206
+ "step": 595
4207
+ },
4208
+ {
4209
+ "epoch": 0.599748427672956,
4210
+ "grad_norm": 0.6871606707572937,
4211
+ "learning_rate": 3.9472645551372757e-08,
4212
+ "loss": 0.9733,
4213
+ "step": 596
4214
+ },
4215
+ {
4216
+ "epoch": 0.600754716981132,
4217
+ "grad_norm": 0.7465012669563293,
4218
+ "learning_rate": 2.2204783542078e-08,
4219
+ "loss": 0.9695,
4220
+ "step": 597
4221
+ },
4222
+ {
4223
+ "epoch": 0.6017610062893082,
4224
+ "grad_norm": 0.8198745250701904,
4225
+ "learning_rate": 9.869243631952518e-09,
4226
+ "loss": 0.9072,
4227
+ "step": 598
4228
+ },
4229
+ {
4230
+ "epoch": 0.6027672955974843,
4231
+ "grad_norm": 0.9207664132118225,
4232
+ "learning_rate": 2.467378551953559e-09,
4233
+ "loss": 0.9067,
4234
+ "step": 599
4235
+ },
4236
+ {
4237
+ "epoch": 0.6037735849056604,
4238
+ "grad_norm": 1.3537120819091797,
4239
+ "learning_rate": 0.0,
4240
+ "loss": 0.8588,
4241
+ "step": 600
4242
+ },
4243
+ {
4244
+ "epoch": 0.6037735849056604,
4245
+ "eval_loss": 0.7933821678161621,
4246
+ "eval_runtime": 72.1908,
4247
+ "eval_samples_per_second": 46.363,
4248
+ "eval_steps_per_second": 11.594,
4249
+ "step": 600
4250
  }
4251
  ],
4252
  "logging_steps": 1,
 
4270
  "should_evaluate": false,
4271
  "should_log": false,
4272
  "should_save": true,
4273
+ "should_training_stop": true
4274
  },
4275
  "attributes": {}
4276
  }
4277
  },
4278
+ "total_flos": 3.430384330289971e+17,
4279
  "train_batch_size": 16,
4280
  "trial_name": null,
4281
  "trial_params": null