{
  "best_metric": null,
  "best_model_checkpoint": null,
  "epoch": 0.1111111111111111,
  "eval_steps": 9000,
  "global_step": 5000,
  "is_hyper_param_search": false,
  "is_local_process_zero": true,
  "is_world_process_zero": true,
  "log_history": [
    {
      "epoch": 2.2222222222222223e-05,
      "grad_norm": 2.0185797214508057,
      "learning_rate": 2e-05,
      "loss": 3.2618,
      "step": 1
    },
    {
      "epoch": 4.4444444444444447e-05,
      "grad_norm": 1.7432889938354492,
      "learning_rate": 4e-05,
      "loss": 3.3564,
      "step": 2
    },
    {
      "epoch": 6.666666666666667e-05,
      "grad_norm": 1.9091120958328247,
      "learning_rate": 6e-05,
      "loss": 3.0943,
      "step": 3
    },
    {
      "epoch": 8.888888888888889e-05,
      "grad_norm": 2.1515886783599854,
      "learning_rate": 8e-05,
      "loss": 3.59,
      "step": 4
    },
    {
      "epoch": 0.00011111111111111112,
      "grad_norm": 1.7237238883972168,
      "learning_rate": 0.0001,
      "loss": 3.4605,
      "step": 5
    },
    {
      "epoch": 0.00013333333333333334,
      "grad_norm": 1.9830104112625122,
      "learning_rate": 0.00012,
      "loss": 3.2866,
      "step": 6
    },
    {
      "epoch": 0.00015555555555555556,
      "grad_norm": 1.3985366821289062,
      "learning_rate": 0.00014,
      "loss": 2.9885,
      "step": 7
    },
    {
      "epoch": 0.00017777777777777779,
      "grad_norm": 1.373055100440979,
      "learning_rate": 0.00016,
      "loss": 2.912,
      "step": 8
    },
    {
      "epoch": 0.0002,
      "grad_norm": 1.2396327257156372,
      "learning_rate": 0.00018,
      "loss": 3.0742,
      "step": 9
    },
    {
      "epoch": 0.00022222222222222223,
      "grad_norm": 1.1442056894302368,
      "learning_rate": 0.0002,
      "loss": 2.78,
      "step": 10
    },
    {
      "epoch": 0.00024444444444444443,
      "grad_norm": 1.284921646118164,
      "learning_rate": 0.00019999555456768172,
      "loss": 3.1471,
      "step": 11
    },
    {
      "epoch": 0.0002666666666666667,
      "grad_norm": 1.205655574798584,
      "learning_rate": 0.00019999110913536343,
      "loss": 2.4173,
      "step": 12
    },
    {
      "epoch": 0.0002888888888888889,
      "grad_norm": 1.5106496810913086,
      "learning_rate": 0.00019998666370304514,
      "loss": 2.5291,
      "step": 13
    },
    {
      "epoch": 0.0003111111111111111,
      "grad_norm": 1.3649957180023193,
      "learning_rate": 0.00019998221827072682,
      "loss": 2.6059,
      "step": 14
    },
    {
      "epoch": 0.0003333333333333333,
      "grad_norm": 0.9807085990905762,
      "learning_rate": 0.00019997777283840856,
      "loss": 2.081,
      "step": 15
    },
    {
      "epoch": 0.00035555555555555557,
      "grad_norm": 1.188325047492981,
      "learning_rate": 0.00019997332740609024,
      "loss": 2.4606,
      "step": 16
    },
    {
      "epoch": 0.00037777777777777777,
      "grad_norm": 1.1331664323806763,
      "learning_rate": 0.00019996888197377195,
      "loss": 2.5574,
      "step": 17
    },
    {
      "epoch": 0.0004,
      "grad_norm": 1.0140057802200317,
      "learning_rate": 0.00019996443654145366,
      "loss": 2.252,
      "step": 18
    },
    {
      "epoch": 0.0004222222222222222,
      "grad_norm": 1.0648610591888428,
      "learning_rate": 0.00019995999110913537,
      "loss": 2.3768,
      "step": 19
    },
    {
      "epoch": 0.00044444444444444447,
      "grad_norm": 1.0701093673706055,
      "learning_rate": 0.00019995554567681708,
      "loss": 2.1406,
      "step": 20
    },
    {
      "epoch": 0.00046666666666666666,
      "grad_norm": 1.1271121501922607,
      "learning_rate": 0.0001999511002444988,
      "loss": 2.6222,
      "step": 21
    },
    {
      "epoch": 0.0004888888888888889,
      "grad_norm": 0.9573381543159485,
      "learning_rate": 0.0001999466548121805,
      "loss": 2.4028,
      "step": 22
    },
    {
      "epoch": 0.0005111111111111112,
      "grad_norm": 1.0101866722106934,
      "learning_rate": 0.0001999422093798622,
      "loss": 2.0944,
      "step": 23
    },
    {
      "epoch": 0.0005333333333333334,
      "grad_norm": 1.0080087184906006,
      "learning_rate": 0.00019993776394754392,
      "loss": 2.1232,
      "step": 24
    },
    {
      "epoch": 0.0005555555555555556,
      "grad_norm": 1.2665172815322876,
      "learning_rate": 0.0001999333185152256,
      "loss": 2.2484,
      "step": 25
    },
    {
      "epoch": 0.0005777777777777778,
      "grad_norm": 1.3734925985336304,
      "learning_rate": 0.00019992887308290734,
      "loss": 2.2124,
      "step": 26
    },
    {
      "epoch": 0.0006,
      "grad_norm": 0.9276817440986633,
      "learning_rate": 0.00019992442765058902,
      "loss": 1.9483,
      "step": 27
    },
    {
      "epoch": 0.0006222222222222223,
      "grad_norm": 1.1612797975540161,
      "learning_rate": 0.00019991998221827073,
      "loss": 2.4238,
      "step": 28
    },
    {
      "epoch": 0.0006444444444444444,
      "grad_norm": 1.1764159202575684,
      "learning_rate": 0.00019991553678595244,
      "loss": 2.2082,
      "step": 29
    },
    {
      "epoch": 0.0006666666666666666,
      "grad_norm": 1.1657731533050537,
      "learning_rate": 0.00019991109135363415,
      "loss": 2.5774,
      "step": 30
    },
    {
      "epoch": 0.0006888888888888888,
      "grad_norm": 1.1365610361099243,
      "learning_rate": 0.00019990664592131586,
      "loss": 2.255,
      "step": 31
    },
    {
      "epoch": 0.0007111111111111111,
      "grad_norm": 1.0857913494110107,
      "learning_rate": 0.00019990220048899757,
      "loss": 2.1554,
      "step": 32
    },
    {
      "epoch": 0.0007333333333333333,
      "grad_norm": 1.1258957386016846,
      "learning_rate": 0.00019989775505667928,
      "loss": 2.3615,
      "step": 33
    },
    {
      "epoch": 0.0007555555555555555,
      "grad_norm": 1.1459455490112305,
      "learning_rate": 0.00019989330962436096,
      "loss": 2.0614,
      "step": 34
    },
    {
      "epoch": 0.0007777777777777777,
      "grad_norm": 1.2175862789154053,
      "learning_rate": 0.0001998888641920427,
      "loss": 2.5134,
      "step": 35
    },
    {
      "epoch": 0.0008,
      "grad_norm": 1.15297532081604,
      "learning_rate": 0.00019988441875972438,
      "loss": 2.131,
      "step": 36
    },
    {
      "epoch": 0.0008222222222222222,
      "grad_norm": 1.2607117891311646,
      "learning_rate": 0.0001998799733274061,
      "loss": 2.55,
      "step": 37
    },
    {
      "epoch": 0.0008444444444444444,
      "grad_norm": 1.2785695791244507,
      "learning_rate": 0.0001998755278950878,
      "loss": 2.2228,
      "step": 38
    },
    {
      "epoch": 0.0008666666666666666,
      "grad_norm": 1.3944299221038818,
      "learning_rate": 0.0001998710824627695,
      "loss": 2.1888,
      "step": 39
    },
    {
      "epoch": 0.0008888888888888889,
      "grad_norm": 1.207436203956604,
      "learning_rate": 0.00019986663703045124,
      "loss": 2.3371,
      "step": 40
    },
    {
      "epoch": 0.0009111111111111111,
      "grad_norm": 1.114500641822815,
      "learning_rate": 0.00019986219159813293,
      "loss": 1.9219,
      "step": 41
    },
    {
      "epoch": 0.0009333333333333333,
      "grad_norm": 1.1595293283462524,
      "learning_rate": 0.00019985774616581464,
      "loss": 2.3528,
      "step": 42
    },
    {
      "epoch": 0.0009555555555555555,
      "grad_norm": 1.482299566268921,
      "learning_rate": 0.00019985330073349635,
      "loss": 2.1761,
      "step": 43
    },
    {
      "epoch": 0.0009777777777777777,
      "grad_norm": 1.19706130027771,
      "learning_rate": 0.00019984885530117806,
      "loss": 1.9884,
      "step": 44
    },
    {
      "epoch": 0.001,
      "grad_norm": 1.2986372709274292,
      "learning_rate": 0.00019984440986885974,
      "loss": 2.0929,
      "step": 45
    },
    {
      "epoch": 0.0010222222222222223,
      "grad_norm": 1.2313750982284546,
      "learning_rate": 0.00019983996443654147,
      "loss": 2.0196,
      "step": 46
    },
    {
      "epoch": 0.0010444444444444444,
      "grad_norm": 1.4543802738189697,
      "learning_rate": 0.00019983551900422318,
      "loss": 2.5609,
      "step": 47
    },
    {
      "epoch": 0.0010666666666666667,
      "grad_norm": 1.598586082458496,
      "learning_rate": 0.00019983107357190487,
      "loss": 2.2982,
      "step": 48
    },
    {
      "epoch": 0.0010888888888888888,
      "grad_norm": 1.8242489099502563,
      "learning_rate": 0.0001998266281395866,
      "loss": 2.5548,
      "step": 49
    },
    {
      "epoch": 0.0011111111111111111,
      "grad_norm": 1.455721378326416,
      "learning_rate": 0.00019982218270726829,
      "loss": 2.0304,
      "step": 50
    },
    {
      "epoch": 0.0011333333333333334,
      "grad_norm": 0.9750809073448181,
      "learning_rate": 0.00019981773727495,
      "loss": 2.6573,
      "step": 51
    },
    {
      "epoch": 0.0011555555555555555,
      "grad_norm": 0.989897608757019,
      "learning_rate": 0.0001998132918426317,
      "loss": 2.4163,
      "step": 52
    },
    {
      "epoch": 0.0011777777777777778,
      "grad_norm": 1.0368322134017944,
      "learning_rate": 0.00019980884641031341,
      "loss": 2.4216,
      "step": 53
    },
    {
      "epoch": 0.0012,
      "grad_norm": 1.0627018213272095,
      "learning_rate": 0.0001998044009779951,
      "loss": 1.8118,
      "step": 54
    },
    {
      "epoch": 0.0012222222222222222,
      "grad_norm": 1.1870719194412231,
      "learning_rate": 0.00019979995554567683,
      "loss": 2.5546,
      "step": 55
    },
    {
      "epoch": 0.0012444444444444445,
      "grad_norm": 0.931128978729248,
      "learning_rate": 0.00019979551011335854,
      "loss": 2.5249,
      "step": 56
    },
    {
      "epoch": 0.0012666666666666666,
      "grad_norm": 0.9158191084861755,
      "learning_rate": 0.00019979106468104023,
      "loss": 2.5717,
      "step": 57
    },
    {
      "epoch": 0.001288888888888889,
      "grad_norm": 0.9137040972709656,
      "learning_rate": 0.00019978661924872196,
      "loss": 2.1914,
      "step": 58
    },
    {
      "epoch": 0.0013111111111111112,
      "grad_norm": 1.376840591430664,
      "learning_rate": 0.00019978217381640365,
      "loss": 2.4341,
      "step": 59
    },
    {
      "epoch": 0.0013333333333333333,
      "grad_norm": 1.404250144958496,
      "learning_rate": 0.00019977772838408538,
      "loss": 2.5547,
      "step": 60
    },
    {
      "epoch": 0.0013555555555555556,
      "grad_norm": 1.5059726238250732,
      "learning_rate": 0.00019977328295176706,
      "loss": 2.5984,
      "step": 61
    },
    {
      "epoch": 0.0013777777777777777,
      "grad_norm": 1.6965712308883667,
      "learning_rate": 0.00019976883751944877,
      "loss": 2.6359,
      "step": 62
    },
    {
      "epoch": 0.0014,
      "grad_norm": 1.3054988384246826,
      "learning_rate": 0.00019976439208713048,
      "loss": 2.295,
      "step": 63
    },
    {
      "epoch": 0.0014222222222222223,
      "grad_norm": 1.1799784898757935,
      "learning_rate": 0.0001997599466548122,
      "loss": 2.1869,
      "step": 64
    },
    {
      "epoch": 0.0014444444444444444,
      "grad_norm": 1.0440560579299927,
      "learning_rate": 0.0001997555012224939,
      "loss": 1.866,
      "step": 65
    },
    {
      "epoch": 0.0014666666666666667,
      "grad_norm": 0.9532372951507568,
      "learning_rate": 0.0001997510557901756,
      "loss": 2.4219,
      "step": 66
    },
    {
      "epoch": 0.001488888888888889,
      "grad_norm": 0.9747480750083923,
      "learning_rate": 0.00019974661035785732,
      "loss": 2.2124,
      "step": 67
    },
    {
      "epoch": 0.001511111111111111,
      "grad_norm": 1.0619615316390991,
      "learning_rate": 0.000199742164925539,
      "loss": 1.8204,
      "step": 68
    },
    {
      "epoch": 0.0015333333333333334,
      "grad_norm": 1.6607592105865479,
      "learning_rate": 0.00019973771949322074,
      "loss": 2.2274,
      "step": 69
    },
    {
      "epoch": 0.0015555555555555555,
      "grad_norm": 1.3055371046066284,
      "learning_rate": 0.00019973327406090242,
      "loss": 2.2607,
      "step": 70
    },
    {
      "epoch": 0.0015777777777777778,
      "grad_norm": 1.2005525827407837,
      "learning_rate": 0.00019972882862858413,
      "loss": 2.0241,
      "step": 71
    },
    {
      "epoch": 0.0016,
      "grad_norm": 1.1328130960464478,
      "learning_rate": 0.00019972438319626584,
      "loss": 2.386,
      "step": 72
    },
    {
      "epoch": 0.0016222222222222222,
      "grad_norm": 1.0630085468292236,
      "learning_rate": 0.00019971993776394755,
      "loss": 2.0699,
      "step": 73
    },
    {
      "epoch": 0.0016444444444444445,
      "grad_norm": 1.115866780281067,
      "learning_rate": 0.00019971549233162926,
      "loss": 2.063,
      "step": 74
    },
    {
      "epoch": 0.0016666666666666668,
      "grad_norm": 1.1004247665405273,
      "learning_rate": 0.00019971104689931097,
      "loss": 2.1662,
      "step": 75
    },
    {
      "epoch": 0.0016888888888888889,
      "grad_norm": 1.0936720371246338,
      "learning_rate": 0.00019970660146699268,
      "loss": 1.9738,
      "step": 76
    },
    {
      "epoch": 0.0017111111111111112,
      "grad_norm": 1.2349518537521362,
      "learning_rate": 0.0001997021560346744,
      "loss": 1.5752,
      "step": 77
    },
    {
      "epoch": 0.0017333333333333333,
      "grad_norm": 1.0439680814743042,
      "learning_rate": 0.0001996977106023561,
      "loss": 1.9034,
      "step": 78
    },
    {
      "epoch": 0.0017555555555555556,
      "grad_norm": 0.9948009252548218,
      "learning_rate": 0.00019969326517003778,
      "loss": 1.8501,
      "step": 79
    },
    {
      "epoch": 0.0017777777777777779,
      "grad_norm": 1.0389902591705322,
      "learning_rate": 0.00019968881973771952,
      "loss": 2.1502,
      "step": 80
    },
    {
      "epoch": 0.0018,
      "grad_norm": 1.0846196413040161,
      "learning_rate": 0.0001996843743054012,
      "loss": 2.108,
      "step": 81
    },
    {
      "epoch": 0.0018222222222222223,
      "grad_norm": 1.234468936920166,
      "learning_rate": 0.0001996799288730829,
      "loss": 2.0001,
      "step": 82
    },
    {
      "epoch": 0.0018444444444444443,
      "grad_norm": 1.2024580240249634,
      "learning_rate": 0.00019967548344076462,
      "loss": 2.3106,
      "step": 83
    },
    {
      "epoch": 0.0018666666666666666,
      "grad_norm": 1.201183557510376,
      "learning_rate": 0.00019967103800844633,
      "loss": 1.9006,
      "step": 84
    },
    {
      "epoch": 0.001888888888888889,
      "grad_norm": 1.0216937065124512,
      "learning_rate": 0.00019966659257612804,
      "loss": 1.6863,
      "step": 85
    },
    {
      "epoch": 0.001911111111111111,
      "grad_norm": 1.1731654405593872,
      "learning_rate": 0.00019966214714380975,
      "loss": 2.3693,
      "step": 86
    },
    {
      "epoch": 0.0019333333333333333,
      "grad_norm": 1.063701868057251,
      "learning_rate": 0.00019965770171149146,
      "loss": 1.988,
      "step": 87
    },
    {
      "epoch": 0.0019555555555555554,
      "grad_norm": 1.2443939447402954,
      "learning_rate": 0.00019965325627917314,
      "loss": 1.4262,
      "step": 88
    },
    {
      "epoch": 0.001977777777777778,
      "grad_norm": 1.5228159427642822,
      "learning_rate": 0.00019964881084685488,
      "loss": 1.9502,
      "step": 89
    },
    {
      "epoch": 0.002,
      "grad_norm": 1.217005729675293,
      "learning_rate": 0.00019964436541453656,
      "loss": 2.0106,
      "step": 90
    },
    {
      "epoch": 0.002022222222222222,
      "grad_norm": 1.1886168718338013,
      "learning_rate": 0.00019963991998221827,
      "loss": 2.0472,
      "step": 91
    },
    {
      "epoch": 0.0020444444444444447,
      "grad_norm": 1.2553871870040894,
      "learning_rate": 0.00019963547454989998,
      "loss": 2.1674,
      "step": 92
    },
    {
      "epoch": 0.0020666666666666667,
      "grad_norm": 1.221604347229004,
      "learning_rate": 0.0001996310291175817,
      "loss": 1.8596,
      "step": 93
    },
    {
      "epoch": 0.002088888888888889,
      "grad_norm": 1.43986177444458,
      "learning_rate": 0.0001996265836852634,
      "loss": 2.1683,
      "step": 94
    },
    {
      "epoch": 0.002111111111111111,
      "grad_norm": 1.3448739051818848,
      "learning_rate": 0.0001996221382529451,
      "loss": 2.3144,
      "step": 95
    },
    {
      "epoch": 0.0021333333333333334,
      "grad_norm": 1.3225668668746948,
      "learning_rate": 0.00019961769282062682,
      "loss": 2.1214,
      "step": 96
    },
    {
      "epoch": 0.0021555555555555555,
      "grad_norm": 1.2970373630523682,
      "learning_rate": 0.00019961324738830853,
      "loss": 1.8806,
      "step": 97
    },
    {
      "epoch": 0.0021777777777777776,
      "grad_norm": 1.3479090929031372,
      "learning_rate": 0.00019960880195599024,
      "loss": 2.0935,
      "step": 98
    },
    {
      "epoch": 0.0022,
      "grad_norm": 1.3814531564712524,
      "learning_rate": 0.00019960435652367192,
      "loss": 2.0354,
      "step": 99
    },
    {
      "epoch": 0.0022222222222222222,
      "grad_norm": 1.3102446794509888,
      "learning_rate": 0.00019959991109135366,
      "loss": 1.2051,
      "step": 100
    },
    {
      "epoch": 0.0022444444444444443,
      "grad_norm": 0.9198299050331116,
      "learning_rate": 0.00019959546565903534,
      "loss": 2.6,
      "step": 101
    },
    {
      "epoch": 0.002266666666666667,
      "grad_norm": 0.8828571438789368,
      "learning_rate": 0.00019959102022671705,
      "loss": 2.1932,
      "step": 102
    },
    {
      "epoch": 0.002288888888888889,
      "grad_norm": 0.9989007711410522,
      "learning_rate": 0.00019958657479439876,
      "loss": 2.681,
      "step": 103
    },
    {
      "epoch": 0.002311111111111111,
      "grad_norm": 0.8256343007087708,
      "learning_rate": 0.00019958212936208047,
      "loss": 2.2186,
      "step": 104
    },
    {
      "epoch": 0.0023333333333333335,
      "grad_norm": 0.9154222011566162,
      "learning_rate": 0.00019957768392976218,
      "loss": 2.4561,
      "step": 105
    },
    {
      "epoch": 0.0023555555555555556,
      "grad_norm": 0.9879103899002075,
      "learning_rate": 0.0001995732384974439,
      "loss": 2.3361,
      "step": 106
    },
    {
      "epoch": 0.0023777777777777777,
      "grad_norm": 0.9192826151847839,
      "learning_rate": 0.0001995687930651256,
      "loss": 2.199,
      "step": 107
    },
    {
      "epoch": 0.0024,
      "grad_norm": 0.7983688116073608,
      "learning_rate": 0.00019956434763280728,
      "loss": 2.302,
      "step": 108
    },
    {
      "epoch": 0.0024222222222222223,
      "grad_norm": 1.095608115196228,
      "learning_rate": 0.00019955990220048902,
      "loss": 2.0953,
      "step": 109
    },
    {
      "epoch": 0.0024444444444444444,
      "grad_norm": 0.9284802079200745,
      "learning_rate": 0.0001995554567681707,
      "loss": 2.2772,
      "step": 110
    },
    {
      "epoch": 0.0024666666666666665,
      "grad_norm": 0.9606927633285522,
      "learning_rate": 0.0001995510113358524,
      "loss": 2.1875,
      "step": 111
    },
    {
      "epoch": 0.002488888888888889,
      "grad_norm": 1.0119353532791138,
      "learning_rate": 0.00019954656590353412,
      "loss": 2.5585,
      "step": 112
    },
    {
      "epoch": 0.002511111111111111,
      "grad_norm": 1.0580315589904785,
      "learning_rate": 0.00019954212047121583,
      "loss": 1.9465,
      "step": 113
    },
    {
      "epoch": 0.002533333333333333,
      "grad_norm": 1.0393487215042114,
      "learning_rate": 0.00019953767503889754,
      "loss": 2.4296,
      "step": 114
    },
    {
      "epoch": 0.0025555555555555557,
      "grad_norm": 0.9013755321502686,
      "learning_rate": 0.00019953322960657925,
      "loss": 2.1599,
      "step": 115
    },
    {
      "epoch": 0.002577777777777778,
      "grad_norm": 0.9927599430084229,
      "learning_rate": 0.00019952878417426096,
      "loss": 2.229,
      "step": 116
    },
    {
      "epoch": 0.0026,
      "grad_norm": 0.980317234992981,
      "learning_rate": 0.00019952433874194267,
      "loss": 2.2677,
      "step": 117
    },
    {
      "epoch": 0.0026222222222222224,
      "grad_norm": 0.9289875626564026,
      "learning_rate": 0.00019951989330962438,
      "loss": 2.0434,
      "step": 118
    },
    {
      "epoch": 0.0026444444444444445,
      "grad_norm": 1.0189963579177856,
      "learning_rate": 0.00019951544787730606,
      "loss": 2.3035,
      "step": 119
    },
    {
      "epoch": 0.0026666666666666666,
      "grad_norm": 0.948377788066864,
      "learning_rate": 0.0001995110024449878,
      "loss": 2.393,
      "step": 120
    },
    {
      "epoch": 0.002688888888888889,
      "grad_norm": 1.0509932041168213,
      "learning_rate": 0.0001995065570126695,
      "loss": 2.0819,
      "step": 121
    },
    {
      "epoch": 0.002711111111111111,
      "grad_norm": 1.1264628171920776,
      "learning_rate": 0.0001995021115803512,
      "loss": 2.4757,
      "step": 122
    },
    {
      "epoch": 0.0027333333333333333,
      "grad_norm": 1.0365453958511353,
      "learning_rate": 0.00019949766614803293,
      "loss": 1.8598,
      "step": 123
    },
    {
      "epoch": 0.0027555555555555554,
      "grad_norm": 1.0879734754562378,
      "learning_rate": 0.0001994932207157146,
      "loss": 1.755,
      "step": 124
    },
    {
      "epoch": 0.002777777777777778,
      "grad_norm": 1.0849332809448242,
      "learning_rate": 0.00019948877528339632,
      "loss": 2.301,
      "step": 125
    },
    {
      "epoch": 0.0028,
      "grad_norm": 1.2393407821655273,
      "learning_rate": 0.00019948432985107803,
      "loss": 2.4259,
      "step": 126
    },
    {
      "epoch": 0.002822222222222222,
      "grad_norm": 1.0852195024490356,
      "learning_rate": 0.00019947988441875974,
      "loss": 2.2987,
      "step": 127
    },
    {
      "epoch": 0.0028444444444444446,
      "grad_norm": 1.0208133459091187,
      "learning_rate": 0.00019947543898644142,
      "loss": 2.0007,
      "step": 128
    },
    {
      "epoch": 0.0028666666666666667,
      "grad_norm": 1.3235000371932983,
      "learning_rate": 0.00019947099355412316,
      "loss": 1.823,
      "step": 129
    },
    {
      "epoch": 0.0028888888888888888,
      "grad_norm": 1.0890294313430786,
      "learning_rate": 0.00019946654812180487,
      "loss": 1.9903,
      "step": 130
    },
    {
      "epoch": 0.0029111111111111113,
      "grad_norm": 1.0155043601989746,
      "learning_rate": 0.00019946210268948655,
      "loss": 2.187,
      "step": 131
    },
    {
      "epoch": 0.0029333333333333334,
      "grad_norm": 0.9742645025253296,
      "learning_rate": 0.00019945765725716828,
      "loss": 1.7798,
      "step": 132
    },
    {
      "epoch": 0.0029555555555555555,
      "grad_norm": 1.1656670570373535,
      "learning_rate": 0.00019945321182484997,
      "loss": 2.091,
      "step": 133
    },
    {
      "epoch": 0.002977777777777778,
      "grad_norm": 1.167108178138733,
      "learning_rate": 0.0001994487663925317,
      "loss": 1.8146,
      "step": 134
    },
    {
      "epoch": 0.003,
      "grad_norm": 1.1924433708190918,
      "learning_rate": 0.0001994443209602134,
      "loss": 2.3853,
      "step": 135
    },
    {
      "epoch": 0.003022222222222222,
      "grad_norm": 1.0378752946853638,
      "learning_rate": 0.0001994398755278951,
      "loss": 2.0718,
      "step": 136
    },
    {
      "epoch": 0.0030444444444444442,
      "grad_norm": 1.1159776449203491,
      "learning_rate": 0.0001994354300955768,
      "loss": 2.0957,
      "step": 137
    },
    {
      "epoch": 0.0030666666666666668,
      "grad_norm": 1.1870075464248657,
      "learning_rate": 0.00019943098466325852,
      "loss": 2.35,
      "step": 138
    },
    {
      "epoch": 0.003088888888888889,
      "grad_norm": 1.035266637802124,
      "learning_rate": 0.00019942653923094023,
      "loss": 1.8653,
      "step": 139
    },
    {
      "epoch": 0.003111111111111111,
      "grad_norm": 1.1399930715560913,
      "learning_rate": 0.00019942209379862193,
      "loss": 1.9809,
      "step": 140
    },
    {
      "epoch": 0.0031333333333333335,
      "grad_norm": 1.3499666452407837,
      "learning_rate": 0.00019941764836630364,
      "loss": 2.2888,
      "step": 141
    },
    {
      "epoch": 0.0031555555555555555,
      "grad_norm": 1.0297796726226807,
      "learning_rate": 0.00019941320293398533,
      "loss": 1.7906,
      "step": 142
    },
    {
      "epoch": 0.0031777777777777776,
      "grad_norm": 1.1028872728347778,
      "learning_rate": 0.00019940875750166706,
      "loss": 2.1624,
      "step": 143
    },
    {
      "epoch": 0.0032,
      "grad_norm": 1.206077218055725,
      "learning_rate": 0.00019940431206934875,
      "loss": 2.1504,
      "step": 144
    },
    {
      "epoch": 0.0032222222222222222,
      "grad_norm": 1.2086775302886963,
      "learning_rate": 0.00019939986663703046,
      "loss": 2.3128,
      "step": 145
    },
    {
      "epoch": 0.0032444444444444443,
      "grad_norm": 1.1570020914077759,
      "learning_rate": 0.00019939542120471217,
      "loss": 2.0801,
      "step": 146
    },
    {
      "epoch": 0.003266666666666667,
      "grad_norm": 1.0718797445297241,
      "learning_rate": 0.00019939097577239388,
      "loss": 2.065,
      "step": 147
    },
    {
      "epoch": 0.003288888888888889,
      "grad_norm": 1.1464978456497192,
      "learning_rate": 0.00019938653034007558,
      "loss": 1.9657,
      "step": 148
    },
    {
      "epoch": 0.003311111111111111,
      "grad_norm": 1.1516777276992798,
      "learning_rate": 0.0001993820849077573,
      "loss": 2.0504,
      "step": 149
    },
    {
      "epoch": 0.0033333333333333335,
      "grad_norm": 1.5645363330841064,
      "learning_rate": 0.000199377639475439,
      "loss": 1.5633,
      "step": 150
    },
    {
      "epoch": 0.0033555555555555556,
      "grad_norm": 1.1891536712646484,
      "learning_rate": 0.00019937319404312069,
      "loss": 3.123,
      "step": 151
    },
    {
      "epoch": 0.0033777777777777777,
      "grad_norm": 0.9136642813682556,
      "learning_rate": 0.00019936874861080242,
      "loss": 2.5287,
      "step": 152
    },
    {
      "epoch": 0.0034,
      "grad_norm": 0.8435269594192505,
      "learning_rate": 0.0001993643031784841,
      "loss": 2.0756,
      "step": 153
    },
    {
      "epoch": 0.0034222222222222223,
      "grad_norm": 0.9647784233093262,
      "learning_rate": 0.00019935985774616584,
      "loss": 2.6655,
      "step": 154
    },
    {
      "epoch": 0.0034444444444444444,
      "grad_norm": 0.9868387579917908,
      "learning_rate": 0.00019935541231384752,
      "loss": 2.2848,
      "step": 155
    },
    {
      "epoch": 0.0034666666666666665,
      "grad_norm": 0.9726805686950684,
      "learning_rate": 0.00019935096688152923,
      "loss": 2.4014,
      "step": 156
    },
    {
      "epoch": 0.003488888888888889,
      "grad_norm": 0.9441511034965515,
      "learning_rate": 0.00019934652144921094,
      "loss": 2.5675,
      "step": 157
    },
    {
      "epoch": 0.003511111111111111,
      "grad_norm": 0.9878379106521606,
      "learning_rate": 0.00019934207601689265,
      "loss": 2.6569,
      "step": 158
    },
    {
      "epoch": 0.003533333333333333,
      "grad_norm": 0.8798769116401672,
      "learning_rate": 0.00019933763058457436,
      "loss": 2.0542,
      "step": 159
    },
    {
      "epoch": 0.0035555555555555557,
      "grad_norm": 0.9095421433448792,
      "learning_rate": 0.00019933318515225607,
      "loss": 2.285,
      "step": 160
    },
    {
      "epoch": 0.003577777777777778,
      "grad_norm": 0.9291555881500244,
      "learning_rate": 0.00019932873971993778,
      "loss": 1.9679,
      "step": 161
    },
    {
      "epoch": 0.0036,
      "grad_norm": 0.9357460737228394,
      "learning_rate": 0.00019932429428761947,
      "loss": 2.3933,
      "step": 162
    },
    {
      "epoch": 0.0036222222222222224,
      "grad_norm": 0.8855668902397156,
      "learning_rate": 0.0001993198488553012,
      "loss": 1.9916,
      "step": 163
    },
    {
      "epoch": 0.0036444444444444445,
      "grad_norm": 0.9187053442001343,
      "learning_rate": 0.00019931540342298288,
      "loss": 2.0824,
      "step": 164
    },
    {
      "epoch": 0.0036666666666666666,
      "grad_norm": 1.1022460460662842,
      "learning_rate": 0.0001993109579906646,
      "loss": 2.568,
      "step": 165
    },
    {
      "epoch": 0.0036888888888888887,
      "grad_norm": 0.9649732708930969,
      "learning_rate": 0.0001993065125583463,
      "loss": 2.2971,
      "step": 166
    },
    {
      "epoch": 0.003711111111111111,
      "grad_norm": 1.0184253454208374,
      "learning_rate": 0.000199302067126028,
      "loss": 1.7719,
      "step": 167
    },
    {
      "epoch": 0.0037333333333333333,
      "grad_norm": 0.9337177872657776,
      "learning_rate": 0.00019929762169370972,
      "loss": 2.2636,
      "step": 168
    },
    {
      "epoch": 0.0037555555555555554,
      "grad_norm": 1.0286427736282349,
      "learning_rate": 0.00019929317626139143,
      "loss": 2.2228,
      "step": 169
    },
    {
      "epoch": 0.003777777777777778,
      "grad_norm": 1.1010359525680542,
      "learning_rate": 0.00019928873082907314,
      "loss": 2.1194,
      "step": 170
    },
    {
      "epoch": 0.0038,
      "grad_norm": 0.9902762174606323,
      "learning_rate": 0.00019928428539675482,
      "loss": 2.0477,
      "step": 171
    },
    {
      "epoch": 0.003822222222222222,
      "grad_norm": 1.027158498764038,
      "learning_rate": 0.00019927983996443656,
      "loss": 2.2227,
      "step": 172
    },
    {
      "epoch": 0.0038444444444444446,
      "grad_norm": 1.1360422372817993,
      "learning_rate": 0.00019927539453211824,
      "loss": 2.1383,
      "step": 173
    },
    {
      "epoch": 0.0038666666666666667,
      "grad_norm": 1.079567790031433,
      "learning_rate": 0.00019927094909979998,
      "loss": 2.0045,
      "step": 174
    },
    {
      "epoch": 0.0038888888888888888,
      "grad_norm": 1.1772125959396362,
      "learning_rate": 0.00019926650366748166,
      "loss": 2.391,
      "step": 175
    },
    {
      "epoch": 0.003911111111111111,
      "grad_norm": 1.141251564025879,
      "learning_rate": 0.00019926205823516337,
      "loss": 2.3594,
      "step": 176
    },
    {
      "epoch": 0.003933333333333333,
      "grad_norm": 1.1975033283233643,
      "learning_rate": 0.00019925761280284508,
      "loss": 2.3618,
      "step": 177
    },
    {
      "epoch": 0.003955555555555556,
      "grad_norm": 1.1129261255264282,
      "learning_rate": 0.0001992531673705268,
      "loss": 2.2306,
      "step": 178
    },
    {
      "epoch": 0.003977777777777778,
      "grad_norm": 1.1002864837646484,
      "learning_rate": 0.0001992487219382085,
      "loss": 1.8381,
      "step": 179
    },
    {
      "epoch": 0.004,
      "grad_norm": 1.1377021074295044,
      "learning_rate": 0.0001992442765058902,
      "loss": 2.0356,
      "step": 180
    },
    {
      "epoch": 0.004022222222222222,
      "grad_norm": 1.4153897762298584,
      "learning_rate": 0.00019923983107357192,
      "loss": 2.7178,
      "step": 181
    },
    {
      "epoch": 0.004044444444444444,
      "grad_norm": 1.2157433032989502,
      "learning_rate": 0.0001992353856412536,
      "loss": 2.4506,
      "step": 182
    },
    {
      "epoch": 0.004066666666666666,
      "grad_norm": 0.9832949638366699,
      "learning_rate": 0.00019923094020893534,
      "loss": 1.741,
      "step": 183
    },
    {
      "epoch": 0.004088888888888889,
      "grad_norm": 1.001465916633606,
      "learning_rate": 0.00019922649477661702,
      "loss": 2.0157,
      "step": 184
    },
    {
      "epoch": 0.004111111111111111,
      "grad_norm": 1.265584945678711,
      "learning_rate": 0.00019922204934429873,
      "loss": 1.9393,
      "step": 185
    },
    {
      "epoch": 0.0041333333333333335,
      "grad_norm": 0.9340965747833252,
      "learning_rate": 0.00019921760391198044,
      "loss": 1.5743,
      "step": 186
    },
    {
      "epoch": 0.0041555555555555556,
      "grad_norm": 1.1283515691757202,
      "learning_rate": 0.00019921315847966215,
      "loss": 2.1761,
      "step": 187
    },
    {
      "epoch": 0.004177777777777778,
      "grad_norm": 1.1578409671783447,
      "learning_rate": 0.00019920871304734386,
      "loss": 1.9808,
      "step": 188
    },
    {
      "epoch": 0.0042,
      "grad_norm": 1.1886849403381348,
      "learning_rate": 0.00019920426761502557,
      "loss": 2.0558,
      "step": 189
    },
    {
      "epoch": 0.004222222222222222,
      "grad_norm": 1.1597763299942017,
      "learning_rate": 0.00019919982218270728,
      "loss": 1.7477,
      "step": 190
    },
    {
      "epoch": 0.004244444444444445,
      "grad_norm": 1.3805791139602661,
      "learning_rate": 0.000199195376750389,
      "loss": 2.417,
      "step": 191
    },
    {
      "epoch": 0.004266666666666667,
      "grad_norm": 1.0003913640975952,
      "learning_rate": 0.0001991909313180707,
      "loss": 1.6218,
      "step": 192
    },
    {
      "epoch": 0.004288888888888889,
      "grad_norm": 1.3551957607269287,
      "learning_rate": 0.00019918648588575238,
      "loss": 1.9898,
      "step": 193
    },
    {
      "epoch": 0.004311111111111111,
      "grad_norm": 1.1434892416000366,
      "learning_rate": 0.00019918204045343412,
      "loss": 1.9191,
      "step": 194
    },
    {
      "epoch": 0.004333333333333333,
      "grad_norm": 1.4276580810546875,
      "learning_rate": 0.00019917759502111583,
      "loss": 2.6117,
      "step": 195
    },
    {
      "epoch": 0.004355555555555555,
      "grad_norm": 1.2569234371185303,
      "learning_rate": 0.0001991731495887975,
      "loss": 2.3478,
      "step": 196
    },
    {
      "epoch": 0.004377777777777778,
      "grad_norm": 1.2063052654266357,
      "learning_rate": 0.00019916870415647925,
      "loss": 1.7194,
      "step": 197
    },
    {
      "epoch": 0.0044,
      "grad_norm": 1.2578668594360352,
      "learning_rate": 0.00019916425872416093,
      "loss": 1.8399,
      "step": 198
    },
    {
      "epoch": 0.004422222222222222,
      "grad_norm": 1.3557889461517334,
      "learning_rate": 0.00019915981329184264,
      "loss": 1.7986,
      "step": 199
    },
    {
      "epoch": 0.0044444444444444444,
      "grad_norm": 1.1643545627593994,
      "learning_rate": 0.00019915536785952435,
      "loss": 0.9736,
      "step": 200
    },
    {
      "epoch": 0.0044666666666666665,
      "grad_norm": 0.8325818777084351,
      "learning_rate": 0.00019915092242720606,
      "loss": 2.4007,
      "step": 201
    },
    {
      "epoch": 0.004488888888888889,
      "grad_norm": 0.8650193810462952,
      "learning_rate": 0.00019914647699488774,
      "loss": 2.5101,
      "step": 202
    },
    {
      "epoch": 0.004511111111111111,
      "grad_norm": 0.9151462912559509,
      "learning_rate": 0.00019914203156256948,
      "loss": 2.5409,
      "step": 203
    },
    {
      "epoch": 0.004533333333333334,
      "grad_norm": 0.9534851312637329,
      "learning_rate": 0.0001991375861302512,
      "loss": 2.5584,
      "step": 204
    },
    {
      "epoch": 0.004555555555555556,
      "grad_norm": 1.0231379270553589,
      "learning_rate": 0.00019913314069793287,
      "loss": 2.6602,
      "step": 205
    },
    {
      "epoch": 0.004577777777777778,
      "grad_norm": 0.9632158875465393,
      "learning_rate": 0.0001991286952656146,
      "loss": 2.6002,
      "step": 206
    },
    {
      "epoch": 0.0046,
      "grad_norm": 1.0429253578186035,
      "learning_rate": 0.0001991242498332963,
      "loss": 2.6089,
      "step": 207
    },
    {
      "epoch": 0.004622222222222222,
      "grad_norm": 0.9749168753623962,
      "learning_rate": 0.000199119804400978,
      "loss": 2.3811,
      "step": 208
    },
    {
      "epoch": 0.004644444444444444,
      "grad_norm": 0.9203815460205078,
      "learning_rate": 0.0001991153589686597,
      "loss": 2.1381,
      "step": 209
    },
    {
      "epoch": 0.004666666666666667,
      "grad_norm": 0.9455024600028992,
      "learning_rate": 0.00019911091353634142,
      "loss": 2.146,
      "step": 210
    },
    {
      "epoch": 0.004688888888888889,
      "grad_norm": 0.9243069291114807,
      "learning_rate": 0.00019910646810402313,
      "loss": 2.1003,
      "step": 211
    },
    {
      "epoch": 0.004711111111111111,
      "grad_norm": 1.0209660530090332,
      "learning_rate": 0.00019910202267170484,
      "loss": 2.071,
      "step": 212
    },
    {
      "epoch": 0.004733333333333333,
      "grad_norm": 1.012393593788147,
      "learning_rate": 0.00019909757723938655,
      "loss": 2.2602,
      "step": 213
    },
    {
      "epoch": 0.004755555555555555,
      "grad_norm": 0.9024783372879028,
      "learning_rate": 0.00019909313180706826,
      "loss": 2.0416,
      "step": 214
    },
    {
      "epoch": 0.0047777777777777775,
      "grad_norm": 0.9131224155426025,
      "learning_rate": 0.00019908868637474997,
      "loss": 2.0136,
      "step": 215
    },
    {
      "epoch": 0.0048,
      "grad_norm": 1.0129530429840088,
      "learning_rate": 0.00019908424094243165,
      "loss": 2.1961,
      "step": 216
    },
    {
      "epoch": 0.0048222222222222225,
      "grad_norm": 1.032002568244934,
      "learning_rate": 0.00019907979551011339,
      "loss": 2.4571,
      "step": 217
    },
    {
      "epoch": 0.004844444444444445,
      "grad_norm": 1.0772045850753784,
      "learning_rate": 0.00019907535007779507,
      "loss": 2.4692,
      "step": 218
    },
    {
      "epoch": 0.004866666666666667,
      "grad_norm": 1.191462516784668,
      "learning_rate": 0.00019907090464547678,
      "loss": 2.4173,
      "step": 219
    },
    {
      "epoch": 0.004888888888888889,
      "grad_norm": 0.932000458240509,
      "learning_rate": 0.0001990664592131585,
      "loss": 1.8604,
      "step": 220
    },
    {
      "epoch": 0.004911111111111111,
      "grad_norm": 0.981555163860321,
      "learning_rate": 0.0001990620137808402,
      "loss": 2.0899,
      "step": 221
    },
    {
      "epoch": 0.004933333333333333,
      "grad_norm": 1.1891900300979614,
      "learning_rate": 0.0001990575683485219,
      "loss": 2.5571,
      "step": 222
    },
    {
      "epoch": 0.004955555555555556,
      "grad_norm": 1.1692445278167725,
      "learning_rate": 0.00019905312291620362,
      "loss": 2.5805,
      "step": 223
    },
    {
      "epoch": 0.004977777777777778,
      "grad_norm": 1.0407524108886719,
      "learning_rate": 0.00019904867748388533,
      "loss": 2.2875,
      "step": 224
    },
    {
      "epoch": 0.005,
      "grad_norm": 1.0695056915283203,
      "learning_rate": 0.000199044232051567,
      "loss": 2.0416,
      "step": 225
    },
    {
      "epoch": 0.005022222222222222,
      "grad_norm": 1.0115299224853516,
      "learning_rate": 0.00019903978661924875,
      "loss": 1.7508,
      "step": 226
    },
    {
      "epoch": 0.005044444444444444,
      "grad_norm": 1.1566762924194336,
      "learning_rate": 0.00019903534118693043,
      "loss": 2.4423,
      "step": 227
    },
    {
      "epoch": 0.005066666666666666,
      "grad_norm": 0.9989776015281677,
      "learning_rate": 0.00019903089575461216,
      "loss": 2.151,
      "step": 228
    },
    {
      "epoch": 0.005088888888888889,
      "grad_norm": 1.2262234687805176,
      "learning_rate": 0.00019902645032229385,
      "loss": 2.2061,
      "step": 229
    },
    {
      "epoch": 0.005111111111111111,
      "grad_norm": 1.2781702280044556,
      "learning_rate": 0.00019902200488997556,
      "loss": 2.2511,
      "step": 230
    },
    {
      "epoch": 0.0051333333333333335,
      "grad_norm": 1.030868411064148,
      "learning_rate": 0.00019901755945765727,
      "loss": 1.8807,
      "step": 231
    },
    {
      "epoch": 0.005155555555555556,
      "grad_norm": 1.1099014282226562,
      "learning_rate": 0.00019901311402533898,
      "loss": 1.851,
      "step": 232
    },
    {
      "epoch": 0.005177777777777778,
      "grad_norm": 1.1968982219696045,
      "learning_rate": 0.00019900866859302069,
      "loss": 2.3074,
      "step": 233
    },
    {
      "epoch": 0.0052,
      "grad_norm": 4.037053108215332,
      "learning_rate": 0.0001990042231607024,
      "loss": 1.2435,
      "step": 234
    },
    {
      "epoch": 0.005222222222222222,
      "grad_norm": 1.3485006093978882,
      "learning_rate": 0.0001989997777283841,
      "loss": 2.6664,
      "step": 235
    },
    {
      "epoch": 0.005244444444444445,
      "grad_norm": 1.3291981220245361,
      "learning_rate": 0.0001989953322960658,
      "loss": 2.6971,
      "step": 236
    },
    {
      "epoch": 0.005266666666666667,
      "grad_norm": 1.1521776914596558,
      "learning_rate": 0.00019899088686374752,
      "loss": 1.7944,
      "step": 237
    },
    {
      "epoch": 0.005288888888888889,
      "grad_norm": 1.2484724521636963,
      "learning_rate": 0.0001989864414314292,
      "loss": 2.0471,
      "step": 238
    },
    {
      "epoch": 0.005311111111111111,
      "grad_norm": 1.1432991027832031,
      "learning_rate": 0.00019898199599911092,
      "loss": 1.7747,
      "step": 239
    },
    {
      "epoch": 0.005333333333333333,
      "grad_norm": 1.2061238288879395,
      "learning_rate": 0.00019897755056679263,
      "loss": 2.0491,
      "step": 240
    },
    {
      "epoch": 0.005355555555555555,
      "grad_norm": 1.239780068397522,
      "learning_rate": 0.00019897310513447434,
      "loss": 1.9352,
      "step": 241
    },
    {
      "epoch": 0.005377777777777778,
      "grad_norm": 1.127219319343567,
      "learning_rate": 0.00019896865970215604,
      "loss": 1.8506,
      "step": 242
    },
    {
      "epoch": 0.0054,
      "grad_norm": 1.2166545391082764,
      "learning_rate": 0.00019896421426983775,
      "loss": 1.9212,
      "step": 243
    },
    {
      "epoch": 0.005422222222222222,
      "grad_norm": 1.2617690563201904,
      "learning_rate": 0.00019895976883751946,
      "loss": 2.2364,
      "step": 244
    },
    {
      "epoch": 0.0054444444444444445,
      "grad_norm": 1.1415480375289917,
      "learning_rate": 0.00019895532340520115,
      "loss": 1.6936,
      "step": 245
    },
    {
      "epoch": 0.0054666666666666665,
      "grad_norm": 1.3354425430297852,
      "learning_rate": 0.00019895087797288288,
      "loss": 2.2787,
      "step": 246
    },
    {
      "epoch": 0.005488888888888889,
      "grad_norm": 1.2059561014175415,
      "learning_rate": 0.00019894643254056457,
      "loss": 1.8052,
      "step": 247
    },
    {
      "epoch": 0.005511111111111111,
      "grad_norm": 1.4655388593673706,
      "learning_rate": 0.0001989419871082463,
      "loss": 2.0077,
      "step": 248
    },
    {
      "epoch": 0.005533333333333334,
      "grad_norm": 1.3460962772369385,
      "learning_rate": 0.00019893754167592799,
      "loss": 1.5681,
      "step": 249
    },
    {
      "epoch": 0.005555555555555556,
      "grad_norm": 1.3929909467697144,
      "learning_rate": 0.0001989330962436097,
      "loss": 1.0755,
      "step": 250
    },
    {
      "epoch": 0.005577777777777778,
      "grad_norm": 0.882461667060852,
      "learning_rate": 0.0001989286508112914,
      "loss": 2.3571,
      "step": 251
    },
    {
      "epoch": 0.0056,
      "grad_norm": 0.8160984516143799,
      "learning_rate": 0.00019892420537897311,
      "loss": 2.1735,
      "step": 252
    },
    {
      "epoch": 0.005622222222222222,
      "grad_norm": 0.960930585861206,
      "learning_rate": 0.00019891975994665482,
      "loss": 2.6054,
      "step": 253
    },
    {
      "epoch": 0.005644444444444444,
      "grad_norm": 0.8251810669898987,
      "learning_rate": 0.00019891531451433653,
      "loss": 2.0065,
      "step": 254
    },
    {
      "epoch": 0.005666666666666667,
      "grad_norm": 1.0334161520004272,
      "learning_rate": 0.00019891086908201824,
      "loss": 2.6611,
      "step": 255
    },
    {
      "epoch": 0.005688888888888889,
      "grad_norm": 0.842257559299469,
      "learning_rate": 0.00019890642364969993,
      "loss": 2.4828,
      "step": 256
    },
    {
      "epoch": 0.005711111111111111,
      "grad_norm": 0.9164858460426331,
      "learning_rate": 0.00019890197821738166,
      "loss": 2.1206,
      "step": 257
    },
    {
      "epoch": 0.005733333333333333,
      "grad_norm": 0.9651452898979187,
      "learning_rate": 0.00019889753278506334,
      "loss": 2.4083,
      "step": 258
    },
    {
      "epoch": 0.005755555555555555,
      "grad_norm": 0.9866958260536194,
      "learning_rate": 0.00019889308735274505,
      "loss": 2.1013,
      "step": 259
    },
    {
      "epoch": 0.0057777777777777775,
      "grad_norm": 1.070527195930481,
      "learning_rate": 0.00019888864192042676,
      "loss": 2.2968,
      "step": 260
    },
    {
      "epoch": 0.0058,
      "grad_norm": 0.9571377038955688,
      "learning_rate": 0.00019888419648810847,
      "loss": 2.1576,
      "step": 261
    },
    {
      "epoch": 0.0058222222222222226,
      "grad_norm": 0.9992108345031738,
      "learning_rate": 0.00019887975105579018,
      "loss": 2.2888,
      "step": 262
    },
    {
      "epoch": 0.005844444444444445,
      "grad_norm": 1.1087584495544434,
      "learning_rate": 0.0001988753056234719,
      "loss": 2.5346,
      "step": 263
    },
    {
      "epoch": 0.005866666666666667,
      "grad_norm": 0.9204451441764832,
      "learning_rate": 0.0001988708601911536,
      "loss": 2.1632,
      "step": 264
    },
    {
      "epoch": 0.005888888888888889,
      "grad_norm": 1.0632692575454712,
      "learning_rate": 0.00019886641475883528,
      "loss": 2.0163,
      "step": 265
    },
    {
      "epoch": 0.005911111111111111,
      "grad_norm": 0.8824703693389893,
      "learning_rate": 0.00019886196932651702,
      "loss": 2.1842,
      "step": 266
    },
    {
      "epoch": 0.005933333333333333,
      "grad_norm": 0.9968849420547485,
      "learning_rate": 0.0001988575238941987,
      "loss": 1.759,
      "step": 267
    },
    {
      "epoch": 0.005955555555555556,
      "grad_norm": 0.8787574768066406,
      "learning_rate": 0.00019885307846188044,
      "loss": 1.9331,
      "step": 268
    },
    {
      "epoch": 0.005977777777777778,
      "grad_norm": 0.9968923926353455,
      "learning_rate": 0.00019884863302956215,
      "loss": 2.1228,
      "step": 269
    },
    {
      "epoch": 0.006,
      "grad_norm": 1.0544264316558838,
      "learning_rate": 0.00019884418759724383,
      "loss": 2.2878,
      "step": 270
    },
    {
      "epoch": 0.006022222222222222,
      "grad_norm": 1.1249428987503052,
      "learning_rate": 0.00019883974216492557,
      "loss": 2.7626,
      "step": 271
    },
    {
      "epoch": 0.006044444444444444,
      "grad_norm": 1.0347892045974731,
      "learning_rate": 0.00019883529673260725,
      "loss": 2.0306,
      "step": 272
    },
    {
      "epoch": 0.006066666666666666,
      "grad_norm": 1.2068800926208496,
      "learning_rate": 0.00019883085130028896,
      "loss": 2.2855,
      "step": 273
    },
    {
      "epoch": 0.0060888888888888885,
      "grad_norm": 1.149796485900879,
      "learning_rate": 0.00019882640586797067,
      "loss": 2.152,
      "step": 274
    },
    {
      "epoch": 0.006111111111111111,
      "grad_norm": 1.0143542289733887,
      "learning_rate": 0.00019882196043565238,
      "loss": 2.0048,
      "step": 275
    },
    {
      "epoch": 0.0061333333333333335,
      "grad_norm": 1.0721570253372192,
      "learning_rate": 0.00019881751500333406,
      "loss": 1.7903,
      "step": 276
    },
    {
      "epoch": 0.006155555555555556,
      "grad_norm": 1.0670387744903564,
      "learning_rate": 0.0001988130695710158,
      "loss": 2.0941,
      "step": 277
    },
    {
      "epoch": 0.006177777777777778,
      "grad_norm": 1.0809588432312012,
      "learning_rate": 0.0001988086241386975,
      "loss": 1.9082,
      "step": 278
    },
    {
      "epoch": 0.0062,
      "grad_norm": 1.0367165803909302,
      "learning_rate": 0.0001988041787063792,
      "loss": 2.0686,
      "step": 279
    },
    {
      "epoch": 0.006222222222222222,
      "grad_norm": 1.156284213066101,
      "learning_rate": 0.00019879973327406093,
      "loss": 1.902,
      "step": 280
    },
    {
      "epoch": 0.006244444444444445,
      "grad_norm": 1.3220890760421753,
      "learning_rate": 0.0001987952878417426,
      "loss": 2.62,
      "step": 281
    },
    {
      "epoch": 0.006266666666666667,
      "grad_norm": 1.1455974578857422,
      "learning_rate": 0.00019879084240942432,
      "loss": 1.9175,
      "step": 282
    },
    {
      "epoch": 0.006288888888888889,
      "grad_norm": 0.9246114492416382,
      "learning_rate": 0.00019878639697710603,
      "loss": 1.3599,
      "step": 283
    },
    {
      "epoch": 0.006311111111111111,
      "grad_norm": 1.1708238124847412,
      "learning_rate": 0.00019878195154478774,
      "loss": 1.9443,
      "step": 284
    },
    {
      "epoch": 0.006333333333333333,
      "grad_norm": 1.157710313796997,
      "learning_rate": 0.00019877750611246945,
      "loss": 2.2282,
      "step": 285
    },
    {
      "epoch": 0.006355555555555555,
      "grad_norm": 1.285626769065857,
      "learning_rate": 0.00019877306068015116,
      "loss": 2.1003,
      "step": 286
    },
    {
      "epoch": 0.006377777777777777,
      "grad_norm": 1.0390872955322266,
      "learning_rate": 0.00019876861524783287,
      "loss": 1.8012,
      "step": 287
    },
    {
      "epoch": 0.0064,
      "grad_norm": 1.1510474681854248,
      "learning_rate": 0.00019876416981551458,
      "loss": 2.1254,
      "step": 288
    },
    {
      "epoch": 0.006422222222222222,
      "grad_norm": 1.3641140460968018,
      "learning_rate": 0.0001987597243831963,
      "loss": 2.3282,
      "step": 289
    },
    {
      "epoch": 0.0064444444444444445,
      "grad_norm": 1.0441592931747437,
      "learning_rate": 0.00019875527895087797,
      "loss": 1.7094,
      "step": 290
    },
    {
      "epoch": 0.006466666666666667,
      "grad_norm": 1.1648244857788086,
      "learning_rate": 0.0001987508335185597,
      "loss": 2.133,
      "step": 291
    },
    {
      "epoch": 0.006488888888888889,
      "grad_norm": 1.0608255863189697,
      "learning_rate": 0.0001987463880862414,
      "loss": 2.0179,
      "step": 292
    },
    {
      "epoch": 0.006511111111111111,
      "grad_norm": 1.0799864530563354,
      "learning_rate": 0.0001987419426539231,
      "loss": 1.9634,
      "step": 293
    },
    {
      "epoch": 0.006533333333333334,
      "grad_norm": 1.2921239137649536,
      "learning_rate": 0.0001987374972216048,
      "loss": 2.4441,
      "step": 294
    },
    {
      "epoch": 0.006555555555555556,
      "grad_norm": 1.1664376258850098,
      "learning_rate": 0.00019873305178928652,
      "loss": 1.9942,
      "step": 295
    },
    {
      "epoch": 0.006577777777777778,
      "grad_norm": 1.1544493436813354,
      "learning_rate": 0.00019872860635696823,
      "loss": 1.8961,
      "step": 296
    },
    {
      "epoch": 0.0066,
      "grad_norm": 1.3305240869522095,
      "learning_rate": 0.00019872416092464994,
      "loss": 1.856,
      "step": 297
    },
    {
      "epoch": 0.006622222222222222,
      "grad_norm": 1.4333610534667969,
      "learning_rate": 0.00019871971549233165,
      "loss": 2.0938,
      "step": 298
    },
    {
      "epoch": 0.006644444444444444,
      "grad_norm": 1.2909725904464722,
      "learning_rate": 0.00019871527006001333,
      "loss": 1.6913,
      "step": 299
    },
    {
      "epoch": 0.006666666666666667,
      "grad_norm": 1.4358770847320557,
      "learning_rate": 0.00019871082462769507,
      "loss": 1.5876,
      "step": 300
    },
    {
      "epoch": 0.006688888888888889,
      "grad_norm": 0.8535404205322266,
      "learning_rate": 0.00019870637919537675,
      "loss": 1.9958,
      "step": 301
    },
    {
      "epoch": 0.006711111111111111,
      "grad_norm": 1.211012363433838,
      "learning_rate": 0.00019870193376305846,
      "loss": 2.779,
      "step": 302
    },
    {
      "epoch": 0.006733333333333333,
      "grad_norm": 1.0414246320724487,
      "learning_rate": 0.00019869748833074017,
      "loss": 2.8231,
      "step": 303
    },
    {
      "epoch": 0.0067555555555555554,
      "grad_norm": 1.2068099975585938,
      "learning_rate": 0.00019869304289842188,
      "loss": 1.6087,
      "step": 304
    },
    {
      "epoch": 0.0067777777777777775,
      "grad_norm": 0.9062244296073914,
      "learning_rate": 0.0001986885974661036,
      "loss": 2.0376,
      "step": 305
    },
    {
      "epoch": 0.0068,
      "grad_norm": 1.050722599029541,
      "learning_rate": 0.0001986841520337853,
      "loss": 2.4353,
      "step": 306
    },
    {
      "epoch": 0.006822222222222223,
      "grad_norm": 1.019980788230896,
      "learning_rate": 0.000198679706601467,
      "loss": 3.0914,
      "step": 307
    },
    {
      "epoch": 0.006844444444444445,
      "grad_norm": 1.0676994323730469,
      "learning_rate": 0.00019867526116914872,
      "loss": 2.7055,
      "step": 308
    },
    {
      "epoch": 0.006866666666666667,
      "grad_norm": 1.0136735439300537,
      "learning_rate": 0.00019867081573683043,
      "loss": 2.2563,
      "step": 309
    },
    {
      "epoch": 0.006888888888888889,
      "grad_norm": 1.0082719326019287,
      "learning_rate": 0.0001986663703045121,
      "loss": 2.1568,
      "step": 310
    },
    {
      "epoch": 0.006911111111111111,
      "grad_norm": 1.094128131866455,
      "learning_rate": 0.00019866192487219385,
      "loss": 2.389,
      "step": 311
    },
    {
      "epoch": 0.006933333333333333,
      "grad_norm": 1.003639817237854,
      "learning_rate": 0.00019865747943987553,
      "loss": 2.3295,
      "step": 312
    },
    {
      "epoch": 0.006955555555555556,
      "grad_norm": 1.0831363201141357,
      "learning_rate": 0.00019865303400755724,
      "loss": 2.0496,
      "step": 313
    },
    {
      "epoch": 0.006977777777777778,
      "grad_norm": 1.0065604448318481,
      "learning_rate": 0.00019864858857523895,
      "loss": 2.1804,
      "step": 314
    },
    {
      "epoch": 0.007,
      "grad_norm": 1.0352177619934082,
      "learning_rate": 0.00019864414314292066,
      "loss": 2.4527,
      "step": 315
    },
    {
      "epoch": 0.007022222222222222,
      "grad_norm": 1.0518782138824463,
      "learning_rate": 0.00019863969771060237,
      "loss": 2.3495,
      "step": 316
    },
    {
      "epoch": 0.007044444444444444,
      "grad_norm": 1.220797061920166,
      "learning_rate": 0.00019863525227828408,
      "loss": 2.4,
      "step": 317
    },
    {
      "epoch": 0.007066666666666666,
      "grad_norm": 1.1383063793182373,
      "learning_rate": 0.00019863080684596579,
      "loss": 2.4244,
      "step": 318
    },
    {
      "epoch": 0.0070888888888888885,
      "grad_norm": 1.526397943496704,
      "learning_rate": 0.00019862636141364747,
      "loss": 1.7485,
      "step": 319
    },
    {
      "epoch": 0.0071111111111111115,
      "grad_norm": 1.0949018001556396,
      "learning_rate": 0.0001986219159813292,
      "loss": 1.9363,
      "step": 320
    },
    {
      "epoch": 0.0071333333333333335,
      "grad_norm": 1.0451679229736328,
      "learning_rate": 0.0001986174705490109,
      "loss": 1.9554,
      "step": 321
    },
    {
      "epoch": 0.007155555555555556,
      "grad_norm": 1.0854243040084839,
      "learning_rate": 0.0001986130251166926,
      "loss": 2.1951,
      "step": 322
    },
    {
      "epoch": 0.007177777777777778,
      "grad_norm": 1.0035200119018555,
      "learning_rate": 0.0001986085796843743,
      "loss": 1.6209,
      "step": 323
    },
    {
      "epoch": 0.0072,
      "grad_norm": 1.0116002559661865,
      "learning_rate": 0.00019860413425205602,
      "loss": 1.7879,
      "step": 324
    },
    {
      "epoch": 0.007222222222222222,
      "grad_norm": 1.1284961700439453,
      "learning_rate": 0.00019859968881973773,
      "loss": 2.0992,
      "step": 325
    },
    {
      "epoch": 0.007244444444444445,
      "grad_norm": 1.320739984512329,
      "learning_rate": 0.00019859524338741944,
      "loss": 2.3344,
      "step": 326
    },
    {
      "epoch": 0.007266666666666667,
      "grad_norm": 1.277235507965088,
      "learning_rate": 0.00019859079795510115,
      "loss": 2.425,
      "step": 327
    },
    {
      "epoch": 0.007288888888888889,
      "grad_norm": 1.2710049152374268,
      "learning_rate": 0.00019858635252278286,
      "loss": 2.4202,
      "step": 328
    },
    {
      "epoch": 0.007311111111111111,
      "grad_norm": 1.2284647226333618,
      "learning_rate": 0.00019858190709046456,
      "loss": 2.1545,
      "step": 329
    },
    {
      "epoch": 0.007333333333333333,
      "grad_norm": 1.0845654010772705,
      "learning_rate": 0.00019857746165814625,
      "loss": 2.2328,
      "step": 330
    },
    {
      "epoch": 0.007355555555555555,
      "grad_norm": 1.2547738552093506,
      "learning_rate": 0.00019857301622582798,
      "loss": 2.133,
      "step": 331
    },
    {
      "epoch": 0.007377777777777777,
      "grad_norm": 1.1611700057983398,
      "learning_rate": 0.00019856857079350967,
      "loss": 2.0966,
      "step": 332
    },
    {
      "epoch": 0.0074,
      "grad_norm": 1.2430363893508911,
      "learning_rate": 0.00019856412536119138,
      "loss": 2.4461,
      "step": 333
    },
    {
      "epoch": 0.007422222222222222,
      "grad_norm": 1.3478891849517822,
      "learning_rate": 0.00019855967992887309,
      "loss": 2.933,
      "step": 334
    },
    {
      "epoch": 0.0074444444444444445,
      "grad_norm": 1.0155457258224487,
      "learning_rate": 0.0001985552344965548,
      "loss": 1.592,
      "step": 335
    },
    {
      "epoch": 0.007466666666666667,
      "grad_norm": 1.3190248012542725,
      "learning_rate": 0.0001985507890642365,
      "loss": 2.4571,
      "step": 336
    },
    {
      "epoch": 0.007488888888888889,
      "grad_norm": 1.029272437095642,
      "learning_rate": 0.00019854634363191821,
      "loss": 1.934,
      "step": 337
    },
    {
      "epoch": 0.007511111111111111,
      "grad_norm": 1.2280033826828003,
      "learning_rate": 0.00019854189819959992,
      "loss": 2.1479,
      "step": 338
    },
    {
      "epoch": 0.007533333333333334,
      "grad_norm": 1.4739404916763306,
      "learning_rate": 0.0001985374527672816,
      "loss": 2.152,
      "step": 339
    },
    {
      "epoch": 0.007555555555555556,
      "grad_norm": 1.1608688831329346,
      "learning_rate": 0.00019853300733496334,
      "loss": 1.92,
      "step": 340
    },
    {
      "epoch": 0.007577777777777778,
      "grad_norm": 1.4820302724838257,
      "learning_rate": 0.00019852856190264503,
      "loss": 2.2862,
      "step": 341
    },
    {
      "epoch": 0.0076,
      "grad_norm": 1.1243106126785278,
      "learning_rate": 0.00019852411647032676,
      "loss": 1.8865,
      "step": 342
    },
    {
      "epoch": 0.007622222222222222,
      "grad_norm": 1.044349193572998,
      "learning_rate": 0.00019851967103800847,
      "loss": 1.8475,
      "step": 343
    },
    {
      "epoch": 0.007644444444444444,
      "grad_norm": 1.279213309288025,
      "learning_rate": 0.00019851522560569015,
      "loss": 1.9203,
      "step": 344
    },
    {
      "epoch": 0.007666666666666666,
      "grad_norm": 1.4509048461914062,
      "learning_rate": 0.0001985107801733719,
      "loss": 2.2009,
      "step": 345
    },
    {
      "epoch": 0.007688888888888889,
      "grad_norm": 1.2652575969696045,
      "learning_rate": 0.00019850633474105357,
      "loss": 1.904,
      "step": 346
    },
    {
      "epoch": 0.007711111111111111,
      "grad_norm": 1.2127101421356201,
      "learning_rate": 0.00019850188930873528,
      "loss": 1.9152,
      "step": 347
    },
    {
      "epoch": 0.007733333333333333,
      "grad_norm": 1.404150128364563,
      "learning_rate": 0.000198497443876417,
      "loss": 1.9976,
      "step": 348
    },
    {
      "epoch": 0.0077555555555555555,
      "grad_norm": 1.2537544965744019,
      "learning_rate": 0.0001984929984440987,
      "loss": 2.0656,
      "step": 349
    },
    {
      "epoch": 0.0077777777777777776,
      "grad_norm": 1.3624613285064697,
      "learning_rate": 0.00019848855301178039,
      "loss": 1.1099,
      "step": 350
    },
    {
      "epoch": 0.0078,
      "grad_norm": 0.81158047914505,
      "learning_rate": 0.00019848410757946212,
      "loss": 1.8968,
      "step": 351
    },
    {
      "epoch": 0.007822222222222222,
      "grad_norm": 0.880883514881134,
      "learning_rate": 0.00019847966214714383,
      "loss": 1.9325,
      "step": 352
    },
    {
      "epoch": 0.007844444444444444,
      "grad_norm": 0.8987894058227539,
      "learning_rate": 0.00019847521671482551,
      "loss": 2.2298,
      "step": 353
    },
    {
      "epoch": 0.007866666666666666,
      "grad_norm": 1.0311617851257324,
      "learning_rate": 0.00019847077128250725,
      "loss": 2.3218,
      "step": 354
    },
    {
      "epoch": 0.00788888888888889,
      "grad_norm": 0.8493891954421997,
      "learning_rate": 0.00019846632585018893,
      "loss": 1.7183,
      "step": 355
    },
    {
      "epoch": 0.007911111111111112,
      "grad_norm": 1.1851890087127686,
      "learning_rate": 0.00019846188041787064,
      "loss": 2.8064,
      "step": 356
    },
    {
      "epoch": 0.007933333333333334,
      "grad_norm": 1.2422465085983276,
      "learning_rate": 0.00019845743498555235,
      "loss": 2.3756,
      "step": 357
    },
    {
      "epoch": 0.007955555555555556,
      "grad_norm": 1.0323742628097534,
      "learning_rate": 0.00019845298955323406,
      "loss": 2.0961,
      "step": 358
    },
    {
      "epoch": 0.007977777777777778,
      "grad_norm": 1.067252278327942,
      "learning_rate": 0.00019844854412091575,
      "loss": 2.1538,
      "step": 359
    },
    {
      "epoch": 0.008,
      "grad_norm": 1.0115009546279907,
      "learning_rate": 0.00019844409868859748,
      "loss": 2.3508,
      "step": 360
    },
    {
      "epoch": 0.008022222222222222,
      "grad_norm": 1.1757656335830688,
      "learning_rate": 0.0001984396532562792,
      "loss": 2.6968,
      "step": 361
    },
    {
      "epoch": 0.008044444444444444,
      "grad_norm": 1.1666429042816162,
      "learning_rate": 0.0001984352078239609,
      "loss": 2.6373,
      "step": 362
    },
    {
      "epoch": 0.008066666666666666,
      "grad_norm": 1.017223596572876,
      "learning_rate": 0.0001984307623916426,
      "loss": 2.3417,
      "step": 363
    },
    {
      "epoch": 0.008088888888888889,
      "grad_norm": 1.0340126752853394,
      "learning_rate": 0.0001984263169593243,
      "loss": 2.1653,
      "step": 364
    },
    {
      "epoch": 0.00811111111111111,
      "grad_norm": 1.080710768699646,
      "learning_rate": 0.00019842187152700603,
      "loss": 2.0727,
      "step": 365
    },
    {
      "epoch": 0.008133333333333333,
      "grad_norm": 1.028197169303894,
      "learning_rate": 0.0001984174260946877,
      "loss": 2.2213,
      "step": 366
    },
    {
      "epoch": 0.008155555555555555,
      "grad_norm": 1.0855611562728882,
      "learning_rate": 0.00019841298066236942,
      "loss": 2.2509,
      "step": 367
    },
    {
      "epoch": 0.008177777777777779,
      "grad_norm": 1.209976315498352,
      "learning_rate": 0.00019840853523005113,
      "loss": 2.4916,
      "step": 368
    },
    {
      "epoch": 0.0082,
      "grad_norm": 1.2807508707046509,
      "learning_rate": 0.00019840408979773284,
      "loss": 2.5933,
      "step": 369
    },
    {
      "epoch": 0.008222222222222223,
      "grad_norm": 1.2134485244750977,
      "learning_rate": 0.00019839964436541455,
      "loss": 2.3836,
      "step": 370
    },
    {
      "epoch": 0.008244444444444445,
      "grad_norm": 1.2704893350601196,
      "learning_rate": 0.00019839519893309626,
      "loss": 2.2113,
      "step": 371
    },
    {
      "epoch": 0.008266666666666667,
      "grad_norm": 1.1323747634887695,
      "learning_rate": 0.00019839075350077797,
      "loss": 2.1391,
      "step": 372
    },
    {
      "epoch": 0.008288888888888889,
      "grad_norm": 1.337632417678833,
      "learning_rate": 0.00019838630806845965,
      "loss": 2.0809,
      "step": 373
    },
    {
      "epoch": 0.008311111111111111,
      "grad_norm": 1.1467673778533936,
      "learning_rate": 0.0001983818626361414,
      "loss": 2.1559,
      "step": 374
    },
    {
      "epoch": 0.008333333333333333,
      "grad_norm": 1.0973697900772095,
      "learning_rate": 0.00019837741720382307,
      "loss": 2.1691,
      "step": 375
    },
    {
      "epoch": 0.008355555555555555,
      "grad_norm": 1.081419825553894,
      "learning_rate": 0.00019837297177150478,
      "loss": 1.8748,
      "step": 376
    },
    {
      "epoch": 0.008377777777777777,
      "grad_norm": 1.1397238969802856,
      "learning_rate": 0.0001983685263391865,
      "loss": 2.4479,
      "step": 377
    },
    {
      "epoch": 0.0084,
      "grad_norm": 1.1830220222473145,
      "learning_rate": 0.0001983640809068682,
      "loss": 1.8428,
      "step": 378
    },
    {
      "epoch": 0.008422222222222222,
      "grad_norm": 1.1788650751113892,
      "learning_rate": 0.0001983596354745499,
      "loss": 2.3886,
      "step": 379
    },
    {
      "epoch": 0.008444444444444444,
      "grad_norm": 1.1691720485687256,
      "learning_rate": 0.00019835519004223162,
      "loss": 2.1664,
      "step": 380
    },
    {
      "epoch": 0.008466666666666667,
      "grad_norm": 1.2139278650283813,
      "learning_rate": 0.00019835074460991333,
      "loss": 2.1289,
      "step": 381
    },
    {
      "epoch": 0.00848888888888889,
      "grad_norm": 1.1885567903518677,
      "learning_rate": 0.00019834629917759504,
      "loss": 2.1388,
      "step": 382
    },
    {
      "epoch": 0.008511111111111112,
      "grad_norm": 1.0878989696502686,
      "learning_rate": 0.00019834185374527675,
      "loss": 2.1997,
      "step": 383
    },
    {
      "epoch": 0.008533333333333334,
      "grad_norm": 1.1863476037979126,
      "learning_rate": 0.00019833740831295843,
      "loss": 2.0619,
      "step": 384
    },
    {
      "epoch": 0.008555555555555556,
      "grad_norm": 0.9970036149024963,
      "learning_rate": 0.00019833296288064017,
      "loss": 1.9043,
      "step": 385
    },
    {
      "epoch": 0.008577777777777778,
      "grad_norm": 1.1479637622833252,
      "learning_rate": 0.00019832851744832185,
      "loss": 2.0531,
      "step": 386
    },
    {
      "epoch": 0.0086,
      "grad_norm": 1.1556382179260254,
      "learning_rate": 0.00019832407201600356,
      "loss": 1.9609,
      "step": 387
    },
    {
      "epoch": 0.008622222222222222,
      "grad_norm": 1.0361340045928955,
      "learning_rate": 0.00019831962658368527,
      "loss": 1.5959,
      "step": 388
    },
    {
      "epoch": 0.008644444444444444,
      "grad_norm": 1.329168438911438,
      "learning_rate": 0.00019831518115136698,
      "loss": 1.99,
      "step": 389
    },
    {
      "epoch": 0.008666666666666666,
      "grad_norm": 0.9925628900527954,
      "learning_rate": 0.0001983107357190487,
      "loss": 1.8825,
      "step": 390
    },
    {
      "epoch": 0.008688888888888888,
      "grad_norm": 1.093542218208313,
      "learning_rate": 0.0001983062902867304,
      "loss": 1.9614,
      "step": 391
    },
    {
      "epoch": 0.00871111111111111,
      "grad_norm": 1.203778624534607,
      "learning_rate": 0.0001983018448544121,
      "loss": 1.9022,
      "step": 392
    },
    {
      "epoch": 0.008733333333333333,
      "grad_norm": 1.1799529790878296,
      "learning_rate": 0.0001982973994220938,
      "loss": 1.9502,
      "step": 393
    },
    {
      "epoch": 0.008755555555555556,
      "grad_norm": 1.216221570968628,
      "learning_rate": 0.00019829295398977553,
      "loss": 2.1193,
      "step": 394
    },
    {
      "epoch": 0.008777777777777778,
      "grad_norm": 0.9906027317047119,
      "learning_rate": 0.0001982885085574572,
      "loss": 1.383,
      "step": 395
    },
    {
      "epoch": 0.0088,
      "grad_norm": 1.2726753950119019,
      "learning_rate": 0.00019828406312513892,
      "loss": 2.2093,
      "step": 396
    },
    {
      "epoch": 0.008822222222222223,
      "grad_norm": 1.3959466218948364,
      "learning_rate": 0.00019827961769282063,
      "loss": 2.3859,
      "step": 397
    },
    {
      "epoch": 0.008844444444444445,
      "grad_norm": 1.1952037811279297,
      "learning_rate": 0.00019827517226050234,
      "loss": 1.1905,
      "step": 398
    },
    {
      "epoch": 0.008866666666666667,
      "grad_norm": 1.6015812158584595,
      "learning_rate": 0.00019827072682818405,
      "loss": 1.5636,
      "step": 399
    },
    {
      "epoch": 0.008888888888888889,
      "grad_norm": 1.3363481760025024,
      "learning_rate": 0.00019826628139586576,
      "loss": 1.2587,
      "step": 400
    },
    {
      "epoch": 0.008911111111111111,
      "grad_norm": 0.9448645710945129,
      "learning_rate": 0.00019826183596354747,
      "loss": 2.5974,
      "step": 401
    },
    {
      "epoch": 0.008933333333333333,
      "grad_norm": 1.0095126628875732,
      "learning_rate": 0.00019825739053122918,
      "loss": 1.7864,
      "step": 402
    },
    {
      "epoch": 0.008955555555555555,
      "grad_norm": 1.0201154947280884,
      "learning_rate": 0.0001982529450989109,
      "loss": 2.7348,
      "step": 403
    },
    {
      "epoch": 0.008977777777777777,
      "grad_norm": 1.1061842441558838,
      "learning_rate": 0.00019824849966659257,
      "loss": 2.3834,
      "step": 404
    },
    {
      "epoch": 0.009,
      "grad_norm": 0.9118261933326721,
      "learning_rate": 0.0001982440542342743,
      "loss": 1.836,
      "step": 405
    },
    {
      "epoch": 0.009022222222222221,
      "grad_norm": 1.0042697191238403,
      "learning_rate": 0.000198239608801956,
      "loss": 2.5867,
      "step": 406
    },
    {
      "epoch": 0.009044444444444445,
      "grad_norm": 1.1671693325042725,
      "learning_rate": 0.0001982351633696377,
      "loss": 2.6269,
      "step": 407
    },
    {
      "epoch": 0.009066666666666667,
      "grad_norm": 1.1431063413619995,
      "learning_rate": 0.0001982307179373194,
      "loss": 2.5555,
      "step": 408
    },
    {
      "epoch": 0.00908888888888889,
      "grad_norm": 0.8985481262207031,
      "learning_rate": 0.00019822627250500112,
      "loss": 1.936,
      "step": 409
    },
    {
      "epoch": 0.009111111111111111,
      "grad_norm": 0.9388520121574402,
      "learning_rate": 0.00019822182707268283,
      "loss": 2.1971,
      "step": 410
    },
    {
      "epoch": 0.009133333333333334,
      "grad_norm": 0.9923820495605469,
      "learning_rate": 0.00019821738164036454,
      "loss": 1.9397,
      "step": 411
    },
    {
      "epoch": 0.009155555555555556,
      "grad_norm": 1.0085341930389404,
      "learning_rate": 0.00019821293620804625,
      "loss": 2.4101,
      "step": 412
    },
    {
      "epoch": 0.009177777777777778,
      "grad_norm": 0.9523325562477112,
      "learning_rate": 0.00019820849077572793,
      "loss": 1.9858,
      "step": 413
    },
    {
      "epoch": 0.0092,
      "grad_norm": 1.1963249444961548,
      "learning_rate": 0.00019820404534340967,
      "loss": 2.3538,
      "step": 414
    },
    {
      "epoch": 0.009222222222222222,
      "grad_norm": 1.3541535139083862,
      "learning_rate": 0.00019819959991109135,
      "loss": 2.2814,
      "step": 415
    },
    {
      "epoch": 0.009244444444444444,
      "grad_norm": 1.0171335935592651,
      "learning_rate": 0.00019819515447877306,
      "loss": 2.2014,
      "step": 416
    },
    {
      "epoch": 0.009266666666666666,
      "grad_norm": 1.2136662006378174,
      "learning_rate": 0.0001981907090464548,
      "loss": 2.5623,
      "step": 417
    },
    {
      "epoch": 0.009288888888888888,
      "grad_norm": 1.0422919988632202,
      "learning_rate": 0.00019818626361413648,
      "loss": 2.2285,
      "step": 418
    },
    {
      "epoch": 0.00931111111111111,
      "grad_norm": 1.0269100666046143,
      "learning_rate": 0.00019818181818181821,
      "loss": 2.3557,
      "step": 419
    },
    {
      "epoch": 0.009333333333333334,
      "grad_norm": 1.1379530429840088,
      "learning_rate": 0.0001981773727494999,
      "loss": 2.4131,
      "step": 420
    },
    {
      "epoch": 0.009355555555555556,
      "grad_norm": 1.0211209058761597,
      "learning_rate": 0.0001981729273171816,
      "loss": 1.8259,
      "step": 421
    },
    {
      "epoch": 0.009377777777777778,
      "grad_norm": 1.1744202375411987,
      "learning_rate": 0.00019816848188486332,
      "loss": 2.3931,
      "step": 422
    },
    {
      "epoch": 0.0094,
      "grad_norm": 1.0835683345794678,
      "learning_rate": 0.00019816403645254503,
      "loss": 2.2542,
      "step": 423
    },
    {
      "epoch": 0.009422222222222222,
      "grad_norm": 1.0544909238815308,
      "learning_rate": 0.0001981595910202267,
      "loss": 2.4754,
      "step": 424
    },
    {
      "epoch": 0.009444444444444445,
      "grad_norm": 1.1325610876083374,
      "learning_rate": 0.00019815514558790844,
      "loss": 2.1238,
      "step": 425
    },
    {
      "epoch": 0.009466666666666667,
      "grad_norm": 1.1464831829071045,
      "learning_rate": 0.00019815070015559015,
      "loss": 2.2553,
      "step": 426
    },
    {
      "epoch": 0.009488888888888889,
      "grad_norm": 1.1274349689483643,
      "learning_rate": 0.00019814625472327184,
      "loss": 1.8174,
      "step": 427
    },
    {
      "epoch": 0.00951111111111111,
      "grad_norm": 1.0821290016174316,
      "learning_rate": 0.00019814180929095357,
      "loss": 1.6858,
      "step": 428
    },
    {
      "epoch": 0.009533333333333333,
      "grad_norm": 1.3764736652374268,
      "learning_rate": 0.00019813736385863526,
      "loss": 1.3461,
      "step": 429
    },
    {
      "epoch": 0.009555555555555555,
      "grad_norm": 1.249497652053833,
      "learning_rate": 0.00019813291842631697,
      "loss": 2.1228,
      "step": 430
    },
    {
      "epoch": 0.009577777777777777,
      "grad_norm": 1.2419813871383667,
      "learning_rate": 0.00019812847299399867,
      "loss": 2.1365,
      "step": 431
    },
    {
      "epoch": 0.0096,
      "grad_norm": 1.314886212348938,
      "learning_rate": 0.00019812402756168038,
      "loss": 2.2265,
      "step": 432
    },
    {
      "epoch": 0.009622222222222223,
      "grad_norm": 1.0927438735961914,
      "learning_rate": 0.00019811958212936207,
      "loss": 2.0217,
      "step": 433
    },
    {
      "epoch": 0.009644444444444445,
      "grad_norm": 1.2256649732589722,
      "learning_rate": 0.0001981151366970438,
      "loss": 2.2507,
      "step": 434
    },
    {
      "epoch": 0.009666666666666667,
      "grad_norm": 1.03929603099823,
      "learning_rate": 0.0001981106912647255,
      "loss": 1.9413,
      "step": 435
    },
    {
      "epoch": 0.00968888888888889,
      "grad_norm": 1.1300630569458008,
      "learning_rate": 0.0001981062458324072,
      "loss": 1.9357,
      "step": 436
    },
    {
      "epoch": 0.009711111111111111,
      "grad_norm": 1.2890658378601074,
      "learning_rate": 0.00019810180040008893,
      "loss": 2.3707,
      "step": 437
    },
    {
      "epoch": 0.009733333333333333,
      "grad_norm": 1.2537641525268555,
      "learning_rate": 0.00019809735496777062,
      "loss": 2.1404,
      "step": 438
    },
    {
      "epoch": 0.009755555555555556,
      "grad_norm": 1.3065662384033203,
      "learning_rate": 0.00019809290953545235,
      "loss": 1.8732,
      "step": 439
    },
    {
      "epoch": 0.009777777777777778,
      "grad_norm": 1.2419967651367188,
      "learning_rate": 0.00019808846410313403,
      "loss": 2.0917,
      "step": 440
    },
    {
      "epoch": 0.0098,
      "grad_norm": 1.2205204963684082,
      "learning_rate": 0.00019808401867081574,
      "loss": 1.8757,
      "step": 441
    },
    {
      "epoch": 0.009822222222222222,
      "grad_norm": 1.2660763263702393,
      "learning_rate": 0.00019807957323849745,
      "loss": 2.0742,
      "step": 442
    },
    {
      "epoch": 0.009844444444444444,
      "grad_norm": 1.4117144346237183,
      "learning_rate": 0.00019807512780617916,
      "loss": 2.214,
      "step": 443
    },
    {
      "epoch": 0.009866666666666666,
      "grad_norm": 1.4298971891403198,
      "learning_rate": 0.00019807068237386087,
      "loss": 2.3438,
      "step": 444
    },
    {
      "epoch": 0.009888888888888888,
      "grad_norm": 1.215808391571045,
      "learning_rate": 0.00019806623694154258,
      "loss": 1.895,
      "step": 445
    },
    {
      "epoch": 0.009911111111111112,
      "grad_norm": 1.3122926950454712,
      "learning_rate": 0.0001980617915092243,
      "loss": 2.0398,
      "step": 446
    },
    {
      "epoch": 0.009933333333333334,
      "grad_norm": 1.1686663627624512,
      "learning_rate": 0.00019805734607690597,
      "loss": 1.7546,
      "step": 447
    },
    {
      "epoch": 0.009955555555555556,
      "grad_norm": 1.2826588153839111,
      "learning_rate": 0.0001980529006445877,
      "loss": 1.5605,
      "step": 448
    },
    {
      "epoch": 0.009977777777777778,
      "grad_norm": 1.3911142349243164,
      "learning_rate": 0.0001980484552122694,
      "loss": 2.1493,
      "step": 449
    },
    {
      "epoch": 0.01,
      "grad_norm": 1.1573456525802612,
      "learning_rate": 0.0001980440097799511,
      "loss": 1.0559,
      "step": 450
    },
    {
      "epoch": 0.010022222222222222,
      "grad_norm": 0.9642929434776306,
      "learning_rate": 0.0001980395643476328,
      "loss": 2.429,
      "step": 451
    },
    {
      "epoch": 0.010044444444444444,
      "grad_norm": 1.0742043256759644,
      "learning_rate": 0.00019803511891531452,
      "loss": 2.8014,
      "step": 452
    },
    {
      "epoch": 0.010066666666666666,
      "grad_norm": 1.0266245603561401,
      "learning_rate": 0.00019803067348299623,
      "loss": 2.243,
      "step": 453
    },
    {
      "epoch": 0.010088888888888889,
      "grad_norm": 1.0255544185638428,
      "learning_rate": 0.00019802622805067794,
      "loss": 2.6152,
      "step": 454
    },
    {
      "epoch": 0.01011111111111111,
      "grad_norm": 1.0187287330627441,
      "learning_rate": 0.00019802178261835965,
      "loss": 2.5966,
      "step": 455
    },
    {
      "epoch": 0.010133333333333333,
      "grad_norm": 1.1178388595581055,
      "learning_rate": 0.00019801733718604136,
      "loss": 2.3659,
      "step": 456
    },
    {
      "epoch": 0.010155555555555555,
      "grad_norm": 0.8631261587142944,
      "learning_rate": 0.00019801289175372307,
      "loss": 2.3432,
      "step": 457
    },
    {
      "epoch": 0.010177777777777779,
      "grad_norm": 1.211785912513733,
      "learning_rate": 0.00019800844632140475,
      "loss": 3.0955,
      "step": 458
    },
    {
      "epoch": 0.0102,
      "grad_norm": 0.940540075302124,
      "learning_rate": 0.0001980040008890865,
      "loss": 2.066,
      "step": 459
    },
    {
      "epoch": 0.010222222222222223,
      "grad_norm": 1.0023077726364136,
      "learning_rate": 0.00019799955545676817,
      "loss": 2.7285,
      "step": 460
    },
    {
      "epoch": 0.010244444444444445,
      "grad_norm": 0.9289823174476624,
      "learning_rate": 0.00019799511002444988,
      "loss": 2.2766,
      "step": 461
    },
    {
      "epoch": 0.010266666666666667,
      "grad_norm": 1.1237691640853882,
      "learning_rate": 0.0001979906645921316,
      "loss": 2.2359,
      "step": 462
    },
    {
      "epoch": 0.010288888888888889,
      "grad_norm": 1.0011184215545654,
      "learning_rate": 0.0001979862191598133,
      "loss": 2.1984,
      "step": 463
    },
    {
      "epoch": 0.010311111111111111,
      "grad_norm": 1.146254301071167,
      "learning_rate": 0.000197981773727495,
      "loss": 2.2411,
      "step": 464
    },
    {
      "epoch": 0.010333333333333333,
      "grad_norm": 0.9433885812759399,
      "learning_rate": 0.00019797732829517672,
      "loss": 1.904,
      "step": 465
    },
    {
      "epoch": 0.010355555555555555,
      "grad_norm": 1.004146695137024,
      "learning_rate": 0.00019797288286285843,
      "loss": 2.2064,
      "step": 466
    },
    {
      "epoch": 0.010377777777777777,
      "grad_norm": 1.0210295915603638,
      "learning_rate": 0.0001979684374305401,
      "loss": 1.5308,
      "step": 467
    },
    {
      "epoch": 0.0104,
      "grad_norm": 0.9375552535057068,
      "learning_rate": 0.00019796399199822185,
      "loss": 1.8823,
      "step": 468
    },
    {
      "epoch": 0.010422222222222222,
      "grad_norm": 1.146342396736145,
      "learning_rate": 0.00019795954656590353,
      "loss": 2.1973,
      "step": 469
    },
    {
      "epoch": 0.010444444444444444,
      "grad_norm": 1.3529064655303955,
      "learning_rate": 0.00019795510113358524,
      "loss": 2.1686,
      "step": 470
    },
    {
      "epoch": 0.010466666666666668,
      "grad_norm": 1.20050847530365,
      "learning_rate": 0.00019795065570126695,
      "loss": 2.375,
      "step": 471
    },
    {
      "epoch": 0.01048888888888889,
      "grad_norm": 1.1357581615447998,
      "learning_rate": 0.00019794621026894866,
      "loss": 2.0837,
      "step": 472
    },
    {
      "epoch": 0.010511111111111112,
      "grad_norm": 1.2051777839660645,
      "learning_rate": 0.00019794176483663037,
      "loss": 2.2979,
      "step": 473
    },
    {
      "epoch": 0.010533333333333334,
      "grad_norm": 1.0995031595230103,
      "learning_rate": 0.00019793731940431208,
      "loss": 1.9967,
      "step": 474
    },
    {
      "epoch": 0.010555555555555556,
      "grad_norm": 0.9710855484008789,
      "learning_rate": 0.0001979328739719938,
      "loss": 1.8624,
      "step": 475
    },
    {
      "epoch": 0.010577777777777778,
      "grad_norm": 0.9975488781929016,
      "learning_rate": 0.0001979284285396755,
      "loss": 1.9911,
      "step": 476
    },
    {
      "epoch": 0.0106,
      "grad_norm": 1.172976016998291,
      "learning_rate": 0.0001979239831073572,
      "loss": 2.2303,
      "step": 477
    },
    {
      "epoch": 0.010622222222222222,
      "grad_norm": 1.2332903146743774,
      "learning_rate": 0.0001979195376750389,
      "loss": 2.0349,
      "step": 478
    },
    {
      "epoch": 0.010644444444444444,
      "grad_norm": 1.2118853330612183,
      "learning_rate": 0.00019791509224272063,
      "loss": 2.0179,
      "step": 479
    },
    {
      "epoch": 0.010666666666666666,
      "grad_norm": 1.274030327796936,
      "learning_rate": 0.0001979106468104023,
      "loss": 2.2792,
      "step": 480
    },
    {
      "epoch": 0.010688888888888888,
      "grad_norm": 1.137203335762024,
      "learning_rate": 0.00019790620137808402,
      "loss": 2.1596,
      "step": 481
    },
    {
      "epoch": 0.01071111111111111,
      "grad_norm": 1.1505786180496216,
      "learning_rate": 0.00019790175594576573,
      "loss": 2.1158,
      "step": 482
    },
    {
      "epoch": 0.010733333333333333,
      "grad_norm": 1.4947055578231812,
      "learning_rate": 0.00019789731051344744,
      "loss": 2.2569,
      "step": 483
    },
    {
      "epoch": 0.010755555555555556,
      "grad_norm": 1.2543015480041504,
      "learning_rate": 0.00019789286508112915,
      "loss": 2.5869,
      "step": 484
    },
    {
      "epoch": 0.010777777777777778,
      "grad_norm": 1.3077988624572754,
      "learning_rate": 0.00019788841964881086,
      "loss": 2.4492,
      "step": 485
    },
    {
      "epoch": 0.0108,
      "grad_norm": 1.2072759866714478,
      "learning_rate": 0.00019788397421649257,
      "loss": 1.8196,
      "step": 486
    },
    {
      "epoch": 0.010822222222222223,
      "grad_norm": 1.24198579788208,
      "learning_rate": 0.00019787952878417425,
      "loss": 1.8827,
      "step": 487
    },
    {
      "epoch": 0.010844444444444445,
      "grad_norm": 1.1785317659378052,
      "learning_rate": 0.000197875083351856,
      "loss": 2.1422,
      "step": 488
    },
    {
      "epoch": 0.010866666666666667,
      "grad_norm": 1.1350680589675903,
      "learning_rate": 0.00019787063791953767,
      "loss": 2.3487,
      "step": 489
    },
    {
      "epoch": 0.010888888888888889,
      "grad_norm": 1.1342957019805908,
      "learning_rate": 0.00019786619248721938,
      "loss": 2.0963,
      "step": 490
    },
    {
      "epoch": 0.010911111111111111,
      "grad_norm": 1.143448829650879,
      "learning_rate": 0.00019786174705490112,
      "loss": 1.944,
      "step": 491
    },
    {
      "epoch": 0.010933333333333333,
      "grad_norm": 1.3490346670150757,
      "learning_rate": 0.0001978573016225828,
      "loss": 2.3935,
      "step": 492
    },
    {
      "epoch": 0.010955555555555555,
      "grad_norm": 1.3346196413040161,
      "learning_rate": 0.0001978528561902645,
      "loss": 1.898,
      "step": 493
    },
    {
      "epoch": 0.010977777777777777,
      "grad_norm": 1.2539373636245728,
      "learning_rate": 0.00019784841075794622,
      "loss": 1.9348,
      "step": 494
    },
    {
      "epoch": 0.011,
      "grad_norm": 1.1212438344955444,
      "learning_rate": 0.00019784396532562793,
      "loss": 1.7501,
      "step": 495
    },
    {
      "epoch": 0.011022222222222221,
      "grad_norm": 1.1676902770996094,
      "learning_rate": 0.00019783951989330964,
      "loss": 1.8469,
      "step": 496
    },
    {
      "epoch": 0.011044444444444445,
      "grad_norm": 1.299802303314209,
      "learning_rate": 0.00019783507446099135,
      "loss": 2.1494,
      "step": 497
    },
    {
      "epoch": 0.011066666666666667,
      "grad_norm": 1.1392693519592285,
      "learning_rate": 0.00019783062902867303,
      "loss": 1.6344,
      "step": 498
    },
    {
      "epoch": 0.01108888888888889,
      "grad_norm": 1.3532847166061401,
      "learning_rate": 0.00019782618359635477,
      "loss": 2.4302,
      "step": 499
    },
    {
      "epoch": 0.011111111111111112,
      "grad_norm": 1.3752100467681885,
      "learning_rate": 0.00019782173816403648,
      "loss": 1.621,
      "step": 500
    },
    {
      "epoch": 0.011133333333333334,
      "grad_norm": 1.0528823137283325,
      "learning_rate": 0.00019781729273171816,
      "loss": 2.8213,
      "step": 501
    },
    {
      "epoch": 0.011155555555555556,
      "grad_norm": 0.9636852741241455,
      "learning_rate": 0.0001978128472993999,
      "loss": 2.6139,
      "step": 502
    },
    {
      "epoch": 0.011177777777777778,
      "grad_norm": 0.8850682973861694,
      "learning_rate": 0.00019780840186708158,
      "loss": 2.2437,
      "step": 503
    },
    {
      "epoch": 0.0112,
      "grad_norm": 0.8470168113708496,
      "learning_rate": 0.0001978039564347633,
      "loss": 2.3191,
      "step": 504
    },
    {
      "epoch": 0.011222222222222222,
      "grad_norm": 0.8107976317405701,
      "learning_rate": 0.000197799511002445,
      "loss": 2.0328,
      "step": 505
    },
    {
      "epoch": 0.011244444444444444,
      "grad_norm": 1.0478322505950928,
      "learning_rate": 0.0001977950655701267,
      "loss": 2.484,
      "step": 506
    },
    {
      "epoch": 0.011266666666666666,
      "grad_norm": 0.9263590574264526,
      "learning_rate": 0.0001977906201378084,
      "loss": 2.2178,
      "step": 507
    },
    {
      "epoch": 0.011288888888888888,
      "grad_norm": 1.0026721954345703,
      "learning_rate": 0.00019778617470549013,
      "loss": 2.5007,
      "step": 508
    },
    {
      "epoch": 0.01131111111111111,
      "grad_norm": 1.0698866844177246,
      "learning_rate": 0.00019778172927317184,
      "loss": 2.7865,
      "step": 509
    },
    {
      "epoch": 0.011333333333333334,
      "grad_norm": 0.9517433047294617,
      "learning_rate": 0.00019777728384085352,
      "loss": 2.2822,
      "step": 510
    },
    {
      "epoch": 0.011355555555555556,
      "grad_norm": 1.3576043844223022,
      "learning_rate": 0.00019777283840853525,
      "loss": 2.4233,
      "step": 511
    },
    {
      "epoch": 0.011377777777777778,
      "grad_norm": 1.0271457433700562,
      "learning_rate": 0.00019776839297621694,
      "loss": 1.9884,
      "step": 512
    },
    {
      "epoch": 0.0114,
      "grad_norm": 0.9532172679901123,
      "learning_rate": 0.00019776394754389867,
      "loss": 2.2577,
      "step": 513
    },
    {
      "epoch": 0.011422222222222222,
      "grad_norm": 0.9463943243026733,
      "learning_rate": 0.00019775950211158036,
      "loss": 2.0965,
      "step": 514
    },
    {
      "epoch": 0.011444444444444445,
      "grad_norm": 0.9251181483268738,
      "learning_rate": 0.00019775505667926207,
      "loss": 2.067,
      "step": 515
    },
    {
      "epoch": 0.011466666666666667,
      "grad_norm": 1.0688096284866333,
      "learning_rate": 0.00019775061124694378,
      "loss": 1.8894,
      "step": 516
    },
    {
      "epoch": 0.011488888888888889,
      "grad_norm": 1.0997282266616821,
      "learning_rate": 0.00019774616581462549,
      "loss": 2.1035,
      "step": 517
    },
    {
      "epoch": 0.01151111111111111,
      "grad_norm": 0.9962407350540161,
      "learning_rate": 0.0001977417203823072,
      "loss": 2.0402,
      "step": 518
    },
    {
      "epoch": 0.011533333333333333,
      "grad_norm": 1.348712682723999,
      "learning_rate": 0.0001977372749499889,
      "loss": 2.0119,
      "step": 519
    },
    {
      "epoch": 0.011555555555555555,
      "grad_norm": 1.1667520999908447,
      "learning_rate": 0.00019773282951767061,
      "loss": 2.2905,
      "step": 520
    },
    {
      "epoch": 0.011577777777777777,
      "grad_norm": 1.2998605966567993,
      "learning_rate": 0.0001977283840853523,
      "loss": 2.41,
      "step": 521
    },
    {
      "epoch": 0.0116,
      "grad_norm": 1.2200543880462646,
      "learning_rate": 0.00019772393865303403,
      "loss": 2.1653,
      "step": 522
    },
    {
      "epoch": 0.011622222222222223,
      "grad_norm": 1.22711980342865,
      "learning_rate": 0.00019771949322071572,
      "loss": 2.3273,
      "step": 523
    },
    {
      "epoch": 0.011644444444444445,
      "grad_norm": 1.0310214757919312,
      "learning_rate": 0.00019771504778839743,
      "loss": 1.9963,
      "step": 524
    },
    {
      "epoch": 0.011666666666666667,
      "grad_norm": 1.083256721496582,
      "learning_rate": 0.00019771060235607914,
      "loss": 2.3606,
      "step": 525
    },
    {
      "epoch": 0.01168888888888889,
      "grad_norm": 1.2202749252319336,
      "learning_rate": 0.00019770615692376084,
      "loss": 2.631,
      "step": 526
    },
    {
      "epoch": 0.011711111111111111,
      "grad_norm": 1.06405508518219,
      "learning_rate": 0.00019770171149144255,
      "loss": 2.4102,
      "step": 527
    },
    {
      "epoch": 0.011733333333333333,
      "grad_norm": 1.1642934083938599,
      "learning_rate": 0.00019769726605912426,
      "loss": 2.237,
      "step": 528
    },
    {
      "epoch": 0.011755555555555556,
      "grad_norm": 1.1670068502426147,
      "learning_rate": 0.00019769282062680597,
      "loss": 2.4295,
      "step": 529
    },
    {
      "epoch": 0.011777777777777778,
      "grad_norm": 0.9800331592559814,
      "learning_rate": 0.00019768837519448766,
      "loss": 2.1423,
      "step": 530
    },
    {
      "epoch": 0.0118,
      "grad_norm": 0.9930852055549622,
      "learning_rate": 0.0001976839297621694,
      "loss": 1.8156,
      "step": 531
    },
    {
      "epoch": 0.011822222222222222,
      "grad_norm": 1.056531548500061,
      "learning_rate": 0.00019767948432985108,
      "loss": 1.8047,
      "step": 532
    },
    {
      "epoch": 0.011844444444444444,
      "grad_norm": 1.2376655340194702,
      "learning_rate": 0.0001976750388975328,
      "loss": 2.5516,
      "step": 533
    },
    {
      "epoch": 0.011866666666666666,
      "grad_norm": 1.1320395469665527,
      "learning_rate": 0.0001976705934652145,
      "loss": 2.0158,
      "step": 534
    },
    {
      "epoch": 0.011888888888888888,
      "grad_norm": 1.2286890745162964,
      "learning_rate": 0.0001976661480328962,
      "loss": 2.076,
      "step": 535
    },
    {
      "epoch": 0.011911111111111112,
      "grad_norm": 1.0306121110916138,
      "learning_rate": 0.00019766170260057791,
      "loss": 2.0124,
      "step": 536
    },
    {
      "epoch": 0.011933333333333334,
      "grad_norm": 1.0622620582580566,
      "learning_rate": 0.00019765725716825962,
      "loss": 1.5545,
      "step": 537
    },
    {
      "epoch": 0.011955555555555556,
      "grad_norm": 1.341714859008789,
      "learning_rate": 0.00019765281173594133,
      "loss": 2.3409,
      "step": 538
    },
    {
      "epoch": 0.011977777777777778,
      "grad_norm": 1.1659297943115234,
      "learning_rate": 0.00019764836630362304,
      "loss": 2.2122,
      "step": 539
    },
    {
      "epoch": 0.012,
      "grad_norm": 1.3139978647232056,
      "learning_rate": 0.00019764392087130475,
      "loss": 2.2616,
      "step": 540
    },
    {
      "epoch": 0.012022222222222222,
      "grad_norm": 1.2108430862426758,
      "learning_rate": 0.00019763947543898643,
      "loss": 1.9457,
      "step": 541
    },
    {
      "epoch": 0.012044444444444444,
      "grad_norm": 1.1554898023605347,
      "learning_rate": 0.00019763503000666817,
      "loss": 1.8838,
      "step": 542
    },
    {
      "epoch": 0.012066666666666667,
      "grad_norm": 1.2730211019515991,
      "learning_rate": 0.00019763058457434985,
      "loss": 1.956,
      "step": 543
    },
    {
      "epoch": 0.012088888888888889,
      "grad_norm": 1.1034775972366333,
      "learning_rate": 0.00019762613914203156,
      "loss": 1.8911,
      "step": 544
    },
    {
      "epoch": 0.01211111111111111,
      "grad_norm": 1.2222429513931274,
      "learning_rate": 0.00019762169370971327,
      "loss": 2.1464,
      "step": 545
    },
    {
      "epoch": 0.012133333333333333,
      "grad_norm": 1.1918668746948242,
      "learning_rate": 0.00019761724827739498,
      "loss": 1.9456,
      "step": 546
    },
    {
      "epoch": 0.012155555555555555,
      "grad_norm": 1.3241868019104004,
      "learning_rate": 0.0001976128028450767,
      "loss": 2.0008,
      "step": 547
    },
    {
      "epoch": 0.012177777777777777,
      "grad_norm": 1.350508689880371,
      "learning_rate": 0.0001976083574127584,
      "loss": 1.3506,
      "step": 548
    },
    {
      "epoch": 0.0122,
      "grad_norm": 1.172800898551941,
      "learning_rate": 0.0001976039119804401,
      "loss": 1.9213,
      "step": 549
    },
    {
      "epoch": 0.012222222222222223,
      "grad_norm": 1.1749026775360107,
      "learning_rate": 0.0001975994665481218,
      "loss": 1.7579,
      "step": 550
    },
    {
      "epoch": 0.012244444444444445,
      "grad_norm": 0.9225996136665344,
      "learning_rate": 0.00019759502111580353,
      "loss": 2.291,
      "step": 551
    },
    {
      "epoch": 0.012266666666666667,
      "grad_norm": 0.9325944185256958,
      "learning_rate": 0.00019759057568348521,
      "loss": 2.2216,
      "step": 552
    },
    {
      "epoch": 0.012288888888888889,
      "grad_norm": 0.9500211477279663,
      "learning_rate": 0.00019758613025116695,
      "loss": 2.5704,
      "step": 553
    },
    {
      "epoch": 0.012311111111111111,
      "grad_norm": 1.1819994449615479,
      "learning_rate": 0.00019758168481884863,
      "loss": 2.5077,
      "step": 554
    },
    {
      "epoch": 0.012333333333333333,
      "grad_norm": 0.9431033134460449,
      "learning_rate": 0.00019757723938653034,
      "loss": 2.3682,
      "step": 555
    },
    {
      "epoch": 0.012355555555555555,
      "grad_norm": 0.9775313138961792,
      "learning_rate": 0.00019757279395421205,
      "loss": 2.4359,
      "step": 556
    },
    {
      "epoch": 0.012377777777777777,
      "grad_norm": 0.9984149932861328,
      "learning_rate": 0.00019756834852189376,
      "loss": 2.5361,
      "step": 557
    },
    {
      "epoch": 0.0124,
      "grad_norm": 0.906059741973877,
      "learning_rate": 0.00019756390308957547,
      "loss": 2.3952,
      "step": 558
    },
    {
      "epoch": 0.012422222222222222,
      "grad_norm": 0.9690796136856079,
      "learning_rate": 0.00019755945765725718,
      "loss": 2.397,
      "step": 559
    },
    {
      "epoch": 0.012444444444444444,
      "grad_norm": 0.9722429513931274,
      "learning_rate": 0.0001975550122249389,
      "loss": 1.8349,
      "step": 560
    },
    {
      "epoch": 0.012466666666666666,
      "grad_norm": 0.9823850393295288,
      "learning_rate": 0.00019755056679262057,
      "loss": 2.2631,
      "step": 561
    },
    {
      "epoch": 0.01248888888888889,
      "grad_norm": 0.9302381873130798,
      "learning_rate": 0.0001975461213603023,
      "loss": 2.1919,
      "step": 562
    },
    {
      "epoch": 0.012511111111111112,
      "grad_norm": 0.8757230043411255,
      "learning_rate": 0.000197541675927984,
      "loss": 1.6037,
      "step": 563
    },
    {
      "epoch": 0.012533333333333334,
      "grad_norm": 1.046424388885498,
      "learning_rate": 0.0001975372304956657,
      "loss": 2.2169,
      "step": 564
    },
    {
      "epoch": 0.012555555555555556,
      "grad_norm": 0.9741431474685669,
      "learning_rate": 0.00019753278506334744,
      "loss": 2.0183,
      "step": 565
    },
    {
      "epoch": 0.012577777777777778,
      "grad_norm": 1.3711148500442505,
      "learning_rate": 0.00019752833963102912,
      "loss": 2.6775,
      "step": 566
    },
    {
      "epoch": 0.0126,
      "grad_norm": 0.8870599865913391,
      "learning_rate": 0.00019752389419871083,
      "loss": 1.7707,
      "step": 567
    },
    {
      "epoch": 0.012622222222222222,
      "grad_norm": 1.0855683088302612,
      "learning_rate": 0.00019751944876639254,
      "loss": 1.799,
      "step": 568
    },
    {
      "epoch": 0.012644444444444444,
      "grad_norm": 0.9656704068183899,
      "learning_rate": 0.00019751500333407425,
      "loss": 1.7359,
      "step": 569
    },
    {
      "epoch": 0.012666666666666666,
      "grad_norm": 1.2054580450057983,
      "learning_rate": 0.00019751055790175596,
      "loss": 2.5957,
      "step": 570
    },
    {
      "epoch": 0.012688888888888888,
      "grad_norm": 1.1266636848449707,
      "learning_rate": 0.00019750611246943767,
      "loss": 2.3791,
      "step": 571
    },
    {
      "epoch": 0.01271111111111111,
      "grad_norm": 1.1475385427474976,
      "learning_rate": 0.00019750166703711935,
      "loss": 1.9109,
      "step": 572
    },
    {
      "epoch": 0.012733333333333333,
      "grad_norm": 1.1101495027542114,
      "learning_rate": 0.0001974972216048011,
      "loss": 2.52,
      "step": 573
    },
    {
      "epoch": 0.012755555555555555,
      "grad_norm": 1.0961709022521973,
      "learning_rate": 0.0001974927761724828,
      "loss": 1.8186,
      "step": 574
    },
    {
      "epoch": 0.012777777777777779,
      "grad_norm": 1.013954758644104,
      "learning_rate": 0.00019748833074016448,
      "loss": 1.8662,
      "step": 575
    },
    {
      "epoch": 0.0128,
      "grad_norm": 1.2467371225357056,
      "learning_rate": 0.00019748388530784622,
      "loss": 2.2989,
      "step": 576
    },
    {
      "epoch": 0.012822222222222223,
      "grad_norm": 0.9631433486938477,
      "learning_rate": 0.0001974794398755279,
      "loss": 1.9812,
      "step": 577
    },
    {
      "epoch": 0.012844444444444445,
      "grad_norm": 1.0559232234954834,
      "learning_rate": 0.0001974749944432096,
      "loss": 2.0645,
      "step": 578
    },
    {
      "epoch": 0.012866666666666667,
      "grad_norm": 1.1318047046661377,
      "learning_rate": 0.00019747054901089132,
      "loss": 1.435,
      "step": 579
    },
    {
      "epoch": 0.012888888888888889,
      "grad_norm": 1.2401933670043945,
      "learning_rate": 0.00019746610357857303,
      "loss": 2.2909,
      "step": 580
    },
    {
      "epoch": 0.012911111111111111,
      "grad_norm": 1.312298059463501,
      "learning_rate": 0.0001974616581462547,
      "loss": 2.3061,
      "step": 581
    },
    {
      "epoch": 0.012933333333333333,
      "grad_norm": 1.2518435716629028,
      "learning_rate": 0.00019745721271393645,
      "loss": 2.206,
      "step": 582
    },
    {
      "epoch": 0.012955555555555555,
      "grad_norm": 1.06098210811615,
      "learning_rate": 0.00019745276728161816,
      "loss": 1.7114,
      "step": 583
    },
    {
      "epoch": 0.012977777777777777,
      "grad_norm": 1.3275994062423706,
      "learning_rate": 0.00019744832184929984,
      "loss": 2.2089,
      "step": 584
    },
    {
      "epoch": 0.013,
      "grad_norm": 1.2673600912094116,
      "learning_rate": 0.00019744387641698158,
      "loss": 2.2679,
      "step": 585
    },
    {
      "epoch": 0.013022222222222221,
      "grad_norm": 1.2805787324905396,
      "learning_rate": 0.00019743943098466326,
      "loss": 2.2918,
      "step": 586
    },
    {
      "epoch": 0.013044444444444444,
      "grad_norm": 1.1600666046142578,
      "learning_rate": 0.00019743498555234497,
      "loss": 1.2676,
      "step": 587
    },
    {
      "epoch": 0.013066666666666667,
      "grad_norm": 1.1756904125213623,
      "learning_rate": 0.00019743054012002668,
      "loss": 2.1211,
      "step": 588
    },
    {
      "epoch": 0.01308888888888889,
      "grad_norm": 1.272376298904419,
      "learning_rate": 0.0001974260946877084,
      "loss": 2.335,
      "step": 589
    },
    {
      "epoch": 0.013111111111111112,
      "grad_norm": 1.4618241786956787,
      "learning_rate": 0.0001974216492553901,
      "loss": 1.4798,
      "step": 590
    },
    {
      "epoch": 0.013133333333333334,
      "grad_norm": 1.2375410795211792,
      "learning_rate": 0.0001974172038230718,
      "loss": 1.9871,
      "step": 591
    },
    {
      "epoch": 0.013155555555555556,
      "grad_norm": 1.113440990447998,
      "learning_rate": 0.00019741275839075352,
      "loss": 2.031,
      "step": 592
    },
    {
      "epoch": 0.013177777777777778,
      "grad_norm": 1.2986788749694824,
      "learning_rate": 0.00019740831295843523,
      "loss": 2.1056,
      "step": 593
    },
    {
      "epoch": 0.0132,
      "grad_norm": 1.5188066959381104,
      "learning_rate": 0.00019740386752611694,
      "loss": 2.1861,
      "step": 594
    },
    {
      "epoch": 0.013222222222222222,
      "grad_norm": 1.3240394592285156,
      "learning_rate": 0.00019739942209379862,
      "loss": 2.1017,
      "step": 595
    },
    {
      "epoch": 0.013244444444444444,
      "grad_norm": 1.2840043306350708,
      "learning_rate": 0.00019739497666148036,
      "loss": 2.1652,
      "step": 596
    },
    {
      "epoch": 0.013266666666666666,
      "grad_norm": 1.364159107208252,
      "learning_rate": 0.00019739053122916204,
      "loss": 1.9971,
      "step": 597
    },
    {
      "epoch": 0.013288888888888888,
      "grad_norm": 1.1430398225784302,
      "learning_rate": 0.00019738608579684375,
      "loss": 1.9919,
      "step": 598
    },
    {
      "epoch": 0.01331111111111111,
      "grad_norm": 1.3228200674057007,
      "learning_rate": 0.00019738164036452546,
      "loss": 1.8816,
      "step": 599
    },
    {
      "epoch": 0.013333333333333334,
      "grad_norm": 1.4547879695892334,
      "learning_rate": 0.00019737719493220717,
      "loss": 1.5917,
      "step": 600
    },
    {
      "epoch": 0.013355555555555556,
      "grad_norm": 0.9293891787528992,
      "learning_rate": 0.00019737274949988888,
      "loss": 2.4767,
      "step": 601
    },
    {
      "epoch": 0.013377777777777778,
      "grad_norm": 0.9814039468765259,
      "learning_rate": 0.00019736830406757059,
      "loss": 2.2821,
      "step": 602
    },
    {
      "epoch": 0.0134,
      "grad_norm": 0.9720081090927124,
      "learning_rate": 0.0001973638586352523,
      "loss": 2.1433,
      "step": 603
    },
    {
      "epoch": 0.013422222222222223,
      "grad_norm": 0.9438430666923523,
      "learning_rate": 0.00019735941320293398,
      "loss": 2.3608,
      "step": 604
    },
    {
      "epoch": 0.013444444444444445,
      "grad_norm": 1.006701946258545,
      "learning_rate": 0.00019735496777061571,
      "loss": 2.5349,
      "step": 605
    },
    {
      "epoch": 0.013466666666666667,
      "grad_norm": 1.0583053827285767,
      "learning_rate": 0.0001973505223382974,
      "loss": 2.5001,
      "step": 606
    },
    {
      "epoch": 0.013488888888888889,
      "grad_norm": 1.0254452228546143,
      "learning_rate": 0.00019734607690597913,
      "loss": 2.2549,
      "step": 607
    },
    {
      "epoch": 0.013511111111111111,
      "grad_norm": 1.2084726095199585,
      "learning_rate": 0.00019734163147366082,
      "loss": 2.4463,
      "step": 608
    },
    {
      "epoch": 0.013533333333333333,
      "grad_norm": 0.9051474332809448,
      "learning_rate": 0.00019733718604134253,
      "loss": 2.1048,
      "step": 609
    },
    {
      "epoch": 0.013555555555555555,
      "grad_norm": 1.0502593517303467,
      "learning_rate": 0.00019733274060902424,
      "loss": 2.311,
      "step": 610
    },
    {
      "epoch": 0.013577777777777777,
      "grad_norm": 1.096829891204834,
      "learning_rate": 0.00019732829517670595,
      "loss": 2.7433,
      "step": 611
    },
    {
      "epoch": 0.0136,
      "grad_norm": 0.9817884564399719,
      "learning_rate": 0.00019732384974438766,
      "loss": 2.0434,
      "step": 612
    },
    {
      "epoch": 0.013622222222222223,
      "grad_norm": 0.9800563454627991,
      "learning_rate": 0.00019731940431206936,
      "loss": 2.0227,
      "step": 613
    },
    {
      "epoch": 0.013644444444444445,
      "grad_norm": 1.216512680053711,
      "learning_rate": 0.00019731495887975107,
      "loss": 2.2587,
      "step": 614
    },
    {
      "epoch": 0.013666666666666667,
      "grad_norm": 1.0319756269454956,
      "learning_rate": 0.00019731051344743276,
      "loss": 1.9165,
      "step": 615
    },
    {
      "epoch": 0.01368888888888889,
      "grad_norm": 1.0077224969863892,
      "learning_rate": 0.0001973060680151145,
      "loss": 2.0971,
      "step": 616
    },
    {
      "epoch": 0.013711111111111111,
      "grad_norm": 1.3256494998931885,
      "learning_rate": 0.00019730162258279618,
      "loss": 1.4384,
      "step": 617
    },
    {
      "epoch": 0.013733333333333334,
      "grad_norm": 1.2625467777252197,
      "learning_rate": 0.00019729717715047789,
      "loss": 2.4546,
      "step": 618
    },
    {
      "epoch": 0.013755555555555556,
      "grad_norm": 0.9197932481765747,
      "learning_rate": 0.0001972927317181596,
      "loss": 1.7022,
      "step": 619
    },
    {
      "epoch": 0.013777777777777778,
      "grad_norm": 1.1302087306976318,
      "learning_rate": 0.0001972882862858413,
      "loss": 2.2369,
      "step": 620
    },
    {
      "epoch": 0.0138,
      "grad_norm": 1.1746357679367065,
      "learning_rate": 0.00019728384085352301,
      "loss": 1.9065,
      "step": 621
    },
    {
      "epoch": 0.013822222222222222,
      "grad_norm": 0.9957026243209839,
      "learning_rate": 0.00019727939542120472,
      "loss": 2.0097,
      "step": 622
    },
    {
      "epoch": 0.013844444444444444,
      "grad_norm": 1.36981999874115,
      "learning_rate": 0.00019727494998888643,
      "loss": 2.2754,
      "step": 623
    },
    {
      "epoch": 0.013866666666666666,
      "grad_norm": 1.234215259552002,
      "learning_rate": 0.00019727050455656812,
      "loss": 1.9893,
      "step": 624
    },
    {
      "epoch": 0.013888888888888888,
      "grad_norm": 1.3092060089111328,
      "learning_rate": 0.00019726605912424985,
      "loss": 2.0953,
      "step": 625
    },
    {
      "epoch": 0.013911111111111112,
      "grad_norm": 1.4026519060134888,
      "learning_rate": 0.00019726161369193154,
      "loss": 2.1843,
      "step": 626
    },
    {
      "epoch": 0.013933333333333334,
      "grad_norm": 1.152025580406189,
      "learning_rate": 0.00019725716825961327,
      "loss": 1.5955,
      "step": 627
    },
    {
      "epoch": 0.013955555555555556,
      "grad_norm": 1.158659815788269,
      "learning_rate": 0.00019725272282729495,
      "loss": 1.8902,
      "step": 628
    },
    {
      "epoch": 0.013977777777777778,
      "grad_norm": 1.1227903366088867,
      "learning_rate": 0.00019724827739497666,
      "loss": 1.876,
      "step": 629
    },
    {
      "epoch": 0.014,
      "grad_norm": 1.273788571357727,
      "learning_rate": 0.00019724383196265837,
      "loss": 2.251,
      "step": 630
    },
    {
      "epoch": 0.014022222222222222,
      "grad_norm": 1.1840415000915527,
      "learning_rate": 0.00019723938653034008,
      "loss": 2.3503,
      "step": 631
    },
    {
      "epoch": 0.014044444444444444,
      "grad_norm": 1.2534960508346558,
      "learning_rate": 0.0001972349410980218,
      "loss": 2.174,
      "step": 632
    },
    {
      "epoch": 0.014066666666666667,
      "grad_norm": 1.0638322830200195,
      "learning_rate": 0.0001972304956657035,
      "loss": 1.886,
      "step": 633
    },
    {
      "epoch": 0.014088888888888889,
      "grad_norm": 1.2099584341049194,
      "learning_rate": 0.0001972260502333852,
      "loss": 1.9944,
      "step": 634
    },
    {
      "epoch": 0.01411111111111111,
      "grad_norm": 1.2023608684539795,
      "learning_rate": 0.0001972216048010669,
      "loss": 1.9364,
      "step": 635
    },
    {
      "epoch": 0.014133333333333333,
      "grad_norm": 1.1572262048721313,
      "learning_rate": 0.00019721715936874863,
      "loss": 2.1014,
      "step": 636
    },
    {
      "epoch": 0.014155555555555555,
      "grad_norm": 1.0198612213134766,
      "learning_rate": 0.00019721271393643031,
      "loss": 1.833,
      "step": 637
    },
    {
      "epoch": 0.014177777777777777,
      "grad_norm": 1.3424072265625,
      "learning_rate": 0.00019720826850411202,
      "loss": 2.4898,
      "step": 638
    },
    {
      "epoch": 0.0142,
      "grad_norm": 1.2197932004928589,
      "learning_rate": 0.00019720382307179376,
      "loss": 2.2606,
      "step": 639
    },
    {
      "epoch": 0.014222222222222223,
      "grad_norm": 1.3500276803970337,
      "learning_rate": 0.00019719937763947544,
      "loss": 1.7025,
      "step": 640
    },
    {
      "epoch": 0.014244444444444445,
      "grad_norm": 1.1504669189453125,
      "learning_rate": 0.00019719493220715715,
      "loss": 2.2101,
      "step": 641
    },
    {
      "epoch": 0.014266666666666667,
      "grad_norm": 1.2708158493041992,
      "learning_rate": 0.00019719048677483886,
      "loss": 1.8772,
      "step": 642
    },
    {
      "epoch": 0.01428888888888889,
      "grad_norm": 1.2431827783584595,
      "learning_rate": 0.00019718604134252057,
      "loss": 2.4282,
      "step": 643
    },
    {
      "epoch": 0.014311111111111111,
      "grad_norm": 1.0196614265441895,
      "learning_rate": 0.00019718159591020225,
      "loss": 1.5048,
      "step": 644
    },
    {
      "epoch": 0.014333333333333333,
      "grad_norm": 1.1712734699249268,
      "learning_rate": 0.000197177150477884,
      "loss": 1.8576,
      "step": 645
    },
    {
      "epoch": 0.014355555555555555,
      "grad_norm": 1.1533782482147217,
      "learning_rate": 0.00019717270504556567,
      "loss": 2.02,
      "step": 646
    },
    {
      "epoch": 0.014377777777777778,
      "grad_norm": 1.6188006401062012,
      "learning_rate": 0.0001971682596132474,
      "loss": 1.8601,
      "step": 647
    },
    {
      "epoch": 0.0144,
      "grad_norm": 1.3643068075180054,
      "learning_rate": 0.00019716381418092912,
      "loss": 1.4255,
      "step": 648
    },
    {
      "epoch": 0.014422222222222222,
      "grad_norm": 1.3484489917755127,
      "learning_rate": 0.0001971593687486108,
      "loss": 1.8002,
      "step": 649
    },
    {
      "epoch": 0.014444444444444444,
      "grad_norm": 1.403101921081543,
      "learning_rate": 0.00019715492331629254,
      "loss": 1.7269,
      "step": 650
    },
    {
      "epoch": 0.014466666666666666,
      "grad_norm": 0.9351359605789185,
      "learning_rate": 0.00019715047788397422,
      "loss": 2.1206,
      "step": 651
    },
    {
      "epoch": 0.01448888888888889,
      "grad_norm": 0.9588861465454102,
      "learning_rate": 0.00019714603245165593,
      "loss": 2.3429,
      "step": 652
    },
    {
      "epoch": 0.014511111111111112,
      "grad_norm": 1.1111140251159668,
      "learning_rate": 0.00019714158701933764,
      "loss": 1.4592,
      "step": 653
    },
    {
      "epoch": 0.014533333333333334,
      "grad_norm": 1.1909570693969727,
      "learning_rate": 0.00019713714158701935,
      "loss": 3.3025,
      "step": 654
    },
    {
      "epoch": 0.014555555555555556,
      "grad_norm": 1.0534789562225342,
      "learning_rate": 0.00019713269615470103,
      "loss": 2.5017,
      "step": 655
    },
    {
      "epoch": 0.014577777777777778,
      "grad_norm": 0.9852713346481323,
      "learning_rate": 0.00019712825072238277,
      "loss": 2.2406,
      "step": 656
    },
    {
      "epoch": 0.0146,
      "grad_norm": 1.0007407665252686,
      "learning_rate": 0.00019712380529006448,
      "loss": 2.4341,
      "step": 657
    },
    {
      "epoch": 0.014622222222222222,
      "grad_norm": 1.042779803276062,
      "learning_rate": 0.00019711935985774616,
      "loss": 2.7508,
      "step": 658
    },
    {
      "epoch": 0.014644444444444444,
      "grad_norm": 1.1719785928726196,
      "learning_rate": 0.0001971149144254279,
      "loss": 2.4725,
      "step": 659
    },
    {
      "epoch": 0.014666666666666666,
      "grad_norm": 1.1312509775161743,
      "learning_rate": 0.00019711046899310958,
      "loss": 2.785,
      "step": 660
    },
    {
      "epoch": 0.014688888888888888,
      "grad_norm": 0.9337582588195801,
      "learning_rate": 0.0001971060235607913,
      "loss": 1.9317,
      "step": 661
    },
    {
      "epoch": 0.01471111111111111,
      "grad_norm": 1.0465712547302246,
      "learning_rate": 0.000197101578128473,
      "loss": 2.4791,
      "step": 662
    },
    {
      "epoch": 0.014733333333333333,
      "grad_norm": 1.153633713722229,
      "learning_rate": 0.0001970971326961547,
      "loss": 2.2393,
      "step": 663
    },
    {
      "epoch": 0.014755555555555555,
      "grad_norm": 1.0808809995651245,
      "learning_rate": 0.00019709268726383642,
      "loss": 2.2079,
      "step": 664
    },
    {
      "epoch": 0.014777777777777779,
      "grad_norm": 0.9384297728538513,
      "learning_rate": 0.00019708824183151813,
      "loss": 2.0951,
      "step": 665
    },
    {
      "epoch": 0.0148,
      "grad_norm": 1.1360176801681519,
      "learning_rate": 0.00019708379639919984,
      "loss": 2.3019,
      "step": 666
    },
    {
      "epoch": 0.014822222222222223,
      "grad_norm": 1.0996544361114502,
      "learning_rate": 0.00019707935096688155,
      "loss": 2.898,
      "step": 667
    },
    {
      "epoch": 0.014844444444444445,
      "grad_norm": 1.4694558382034302,
      "learning_rate": 0.00019707490553456326,
      "loss": 1.0145,
      "step": 668
    },
    {
      "epoch": 0.014866666666666667,
      "grad_norm": 1.1620367765426636,
      "learning_rate": 0.00019707046010224494,
      "loss": 2.2568,
      "step": 669
    },
    {
      "epoch": 0.014888888888888889,
      "grad_norm": 1.0012505054473877,
      "learning_rate": 0.00019706601466992668,
      "loss": 1.8907,
      "step": 670
    },
    {
      "epoch": 0.014911111111111111,
      "grad_norm": 1.0330564975738525,
      "learning_rate": 0.00019706156923760836,
      "loss": 2.2003,
      "step": 671
    },
    {
      "epoch": 0.014933333333333333,
      "grad_norm": 1.0624566078186035,
      "learning_rate": 0.00019705712380529007,
      "loss": 2.2616,
      "step": 672
    },
    {
      "epoch": 0.014955555555555555,
      "grad_norm": 1.1532998085021973,
      "learning_rate": 0.00019705267837297178,
      "loss": 2.2152,
      "step": 673
    },
    {
      "epoch": 0.014977777777777777,
      "grad_norm": 1.1985361576080322,
      "learning_rate": 0.0001970482329406535,
      "loss": 2.2832,
      "step": 674
    },
    {
      "epoch": 0.015,
      "grad_norm": 1.1824263334274292,
      "learning_rate": 0.0001970437875083352,
      "loss": 2.2331,
      "step": 675
    },
    {
      "epoch": 0.015022222222222222,
      "grad_norm": 1.146777868270874,
      "learning_rate": 0.0001970393420760169,
      "loss": 2.0233,
      "step": 676
    },
    {
      "epoch": 0.015044444444444444,
      "grad_norm": 1.541884183883667,
      "learning_rate": 0.00019703489664369862,
      "loss": 2.4609,
      "step": 677
    },
    {
      "epoch": 0.015066666666666667,
      "grad_norm": 1.0570106506347656,
      "learning_rate": 0.0001970304512113803,
      "loss": 1.8679,
      "step": 678
    },
    {
      "epoch": 0.01508888888888889,
      "grad_norm": 1.243215799331665,
      "learning_rate": 0.00019702600577906204,
      "loss": 1.6684,
      "step": 679
    },
    {
      "epoch": 0.015111111111111112,
      "grad_norm": 1.1231662034988403,
      "learning_rate": 0.00019702156034674372,
      "loss": 2.2193,
      "step": 680
    },
    {
      "epoch": 0.015133333333333334,
      "grad_norm": 1.2087405920028687,
      "learning_rate": 0.00019701711491442543,
      "loss": 2.0532,
      "step": 681
    },
    {
      "epoch": 0.015155555555555556,
      "grad_norm": 1.1215788125991821,
      "learning_rate": 0.00019701266948210714,
      "loss": 1.9981,
      "step": 682
    },
    {
      "epoch": 0.015177777777777778,
      "grad_norm": 1.0537729263305664,
      "learning_rate": 0.00019700822404978885,
      "loss": 2.0095,
      "step": 683
    },
    {
      "epoch": 0.0152,
      "grad_norm": 1.1330578327178955,
      "learning_rate": 0.00019700377861747056,
      "loss": 2.028,
      "step": 684
    },
    {
      "epoch": 0.015222222222222222,
      "grad_norm": 1.1553888320922852,
      "learning_rate": 0.00019699933318515227,
      "loss": 1.5913,
      "step": 685
    },
    {
      "epoch": 0.015244444444444444,
      "grad_norm": 1.0828315019607544,
      "learning_rate": 0.00019699488775283398,
      "loss": 1.6112,
      "step": 686
    },
    {
      "epoch": 0.015266666666666666,
      "grad_norm": 1.225699782371521,
      "learning_rate": 0.0001969904423205157,
      "loss": 2.3407,
      "step": 687
    },
    {
      "epoch": 0.015288888888888888,
      "grad_norm": 1.2007973194122314,
      "learning_rate": 0.0001969859968881974,
      "loss": 2.3212,
      "step": 688
    },
    {
      "epoch": 0.01531111111111111,
      "grad_norm": 1.386231780052185,
      "learning_rate": 0.00019698155145587908,
      "loss": 2.0497,
      "step": 689
    },
    {
      "epoch": 0.015333333333333332,
      "grad_norm": 1.2499487400054932,
      "learning_rate": 0.00019697710602356082,
      "loss": 2.276,
      "step": 690
    },
    {
      "epoch": 0.015355555555555556,
      "grad_norm": 1.2209858894348145,
      "learning_rate": 0.0001969726605912425,
      "loss": 1.89,
      "step": 691
    },
    {
      "epoch": 0.015377777777777778,
      "grad_norm": 1.2517179250717163,
      "learning_rate": 0.0001969682151589242,
      "loss": 2.0313,
      "step": 692
    },
    {
      "epoch": 0.0154,
      "grad_norm": 1.2715023756027222,
      "learning_rate": 0.00019696376972660592,
      "loss": 2.2077,
      "step": 693
    },
    {
      "epoch": 0.015422222222222223,
      "grad_norm": 1.231107473373413,
      "learning_rate": 0.00019695932429428763,
      "loss": 2.2723,
      "step": 694
    },
    {
      "epoch": 0.015444444444444445,
      "grad_norm": 1.2120702266693115,
      "learning_rate": 0.00019695487886196934,
      "loss": 2.1168,
      "step": 695
    },
    {
      "epoch": 0.015466666666666667,
      "grad_norm": 1.1936527490615845,
      "learning_rate": 0.00019695043342965105,
      "loss": 2.0022,
      "step": 696
    },
    {
      "epoch": 0.015488888888888889,
      "grad_norm": 1.2992490530014038,
      "learning_rate": 0.00019694598799733276,
      "loss": 1.9607,
      "step": 697
    },
    {
      "epoch": 0.015511111111111111,
      "grad_norm": 1.205354928970337,
      "learning_rate": 0.00019694154256501444,
      "loss": 1.748,
      "step": 698
    },
    {
      "epoch": 0.015533333333333333,
      "grad_norm": 1.3571568727493286,
      "learning_rate": 0.00019693709713269618,
      "loss": 1.795,
      "step": 699
    },
    {
      "epoch": 0.015555555555555555,
      "grad_norm": 1.4771002531051636,
      "learning_rate": 0.00019693265170037786,
      "loss": 2.1537,
      "step": 700
    },
    {
      "epoch": 0.015577777777777777,
      "grad_norm": 1.1767499446868896,
      "learning_rate": 0.00019692820626805957,
      "loss": 2.5639,
      "step": 701
    },
    {
      "epoch": 0.0156,
      "grad_norm": 1.3834136724472046,
      "learning_rate": 0.00019692376083574128,
      "loss": 1.7281,
      "step": 702
    },
    {
      "epoch": 0.015622222222222221,
      "grad_norm": 0.7690825462341309,
      "learning_rate": 0.000196919315403423,
      "loss": 2.0467,
      "step": 703
    },
    {
      "epoch": 0.015644444444444443,
      "grad_norm": 0.8094202280044556,
      "learning_rate": 0.0001969148699711047,
      "loss": 2.2269,
      "step": 704
    },
    {
      "epoch": 0.015666666666666666,
      "grad_norm": 0.8339313268661499,
      "learning_rate": 0.0001969104245387864,
      "loss": 2.0145,
      "step": 705
    },
    {
      "epoch": 0.015688888888888888,
      "grad_norm": 1.0422499179840088,
      "learning_rate": 0.00019690597910646812,
      "loss": 2.2106,
      "step": 706
    },
    {
      "epoch": 0.01571111111111111,
      "grad_norm": 0.9235741496086121,
      "learning_rate": 0.00019690153367414983,
      "loss": 2.2554,
      "step": 707
    },
    {
      "epoch": 0.015733333333333332,
      "grad_norm": 1.0492695569992065,
      "learning_rate": 0.00019689708824183153,
      "loss": 2.2707,
      "step": 708
    },
    {
      "epoch": 0.015755555555555554,
      "grad_norm": 1.0586918592453003,
      "learning_rate": 0.00019689264280951322,
      "loss": 2.4847,
      "step": 709
    },
    {
      "epoch": 0.01577777777777778,
      "grad_norm": 1.087799072265625,
      "learning_rate": 0.00019688819737719495,
      "loss": 2.6584,
      "step": 710
    },
    {
      "epoch": 0.0158,
      "grad_norm": 0.9089024066925049,
      "learning_rate": 0.00019688375194487664,
      "loss": 2.463,
      "step": 711
    },
    {
      "epoch": 0.015822222222222224,
      "grad_norm": 1.0169419050216675,
      "learning_rate": 0.00019687930651255835,
      "loss": 2.562,
      "step": 712
    },
    {
      "epoch": 0.015844444444444446,
      "grad_norm": 0.9576930999755859,
      "learning_rate": 0.00019687486108024008,
      "loss": 2.0399,
      "step": 713
    },
    {
      "epoch": 0.015866666666666668,
      "grad_norm": 1.0270696878433228,
      "learning_rate": 0.00019687041564792177,
      "loss": 2.3984,
      "step": 714
    },
    {
      "epoch": 0.01588888888888889,
      "grad_norm": 1.1256415843963623,
      "learning_rate": 0.00019686597021560347,
      "loss": 2.1972,
      "step": 715
    },
    {
      "epoch": 0.015911111111111112,
      "grad_norm": 1.1607558727264404,
      "learning_rate": 0.00019686152478328518,
      "loss": 2.1832,
      "step": 716
    },
    {
      "epoch": 0.015933333333333334,
      "grad_norm": 1.0180697441101074,
      "learning_rate": 0.0001968570793509669,
      "loss": 1.897,
      "step": 717
    },
    {
      "epoch": 0.015955555555555556,
      "grad_norm": 1.1228909492492676,
      "learning_rate": 0.00019685263391864858,
      "loss": 1.6522,
      "step": 718
    },
    {
      "epoch": 0.015977777777777778,
      "grad_norm": 1.1269443035125732,
      "learning_rate": 0.0001968481884863303,
      "loss": 2.1708,
      "step": 719
    },
    {
      "epoch": 0.016,
      "grad_norm": 1.2360373735427856,
      "learning_rate": 0.000196843743054012,
      "loss": 2.2552,
      "step": 720
    },
    {
      "epoch": 0.016022222222222222,
      "grad_norm": 1.2020705938339233,
      "learning_rate": 0.00019683929762169373,
      "loss": 2.0644,
      "step": 721
    },
    {
      "epoch": 0.016044444444444445,
      "grad_norm": 1.1314325332641602,
      "learning_rate": 0.00019683485218937544,
      "loss": 2.1421,
      "step": 722
    },
    {
      "epoch": 0.016066666666666667,
      "grad_norm": 1.1173206567764282,
      "learning_rate": 0.00019683040675705712,
      "loss": 2.0589,
      "step": 723
    },
    {
      "epoch": 0.01608888888888889,
      "grad_norm": 1.234604001045227,
      "learning_rate": 0.00019682596132473886,
      "loss": 2.1747,
      "step": 724
    },
    {
      "epoch": 0.01611111111111111,
      "grad_norm": 1.0637574195861816,
      "learning_rate": 0.00019682151589242054,
      "loss": 2.2928,
      "step": 725
    },
    {
      "epoch": 0.016133333333333333,
      "grad_norm": 1.1036534309387207,
      "learning_rate": 0.00019681707046010225,
      "loss": 2.4124,
      "step": 726
    },
    {
      "epoch": 0.016155555555555555,
      "grad_norm": 1.160920262336731,
      "learning_rate": 0.00019681262502778396,
      "loss": 2.1769,
      "step": 727
    },
    {
      "epoch": 0.016177777777777777,
      "grad_norm": 0.9460611939430237,
      "learning_rate": 0.00019680817959546567,
      "loss": 2.0493,
      "step": 728
    },
    {
      "epoch": 0.0162,
      "grad_norm": 1.0128278732299805,
      "learning_rate": 0.00019680373416314736,
      "loss": 1.8745,
      "step": 729
    },
    {
      "epoch": 0.01622222222222222,
      "grad_norm": 1.1487228870391846,
      "learning_rate": 0.0001967992887308291,
      "loss": 2.0736,
      "step": 730
    },
    {
      "epoch": 0.016244444444444443,
      "grad_norm": 1.1187260150909424,
      "learning_rate": 0.0001967948432985108,
      "loss": 1.9883,
      "step": 731
    },
    {
      "epoch": 0.016266666666666665,
      "grad_norm": 1.276348352432251,
      "learning_rate": 0.00019679039786619248,
      "loss": 1.7453,
      "step": 732
    },
    {
      "epoch": 0.016288888888888887,
      "grad_norm": 1.0150865316390991,
      "learning_rate": 0.00019678595243387422,
      "loss": 1.7307,
      "step": 733
    },
    {
      "epoch": 0.01631111111111111,
      "grad_norm": 1.0547184944152832,
      "learning_rate": 0.0001967815070015559,
      "loss": 1.8055,
      "step": 734
    },
    {
      "epoch": 0.01633333333333333,
      "grad_norm": 1.1808862686157227,
      "learning_rate": 0.0001967770615692376,
      "loss": 2.0142,
      "step": 735
    },
    {
      "epoch": 0.016355555555555557,
      "grad_norm": 1.3099372386932373,
      "learning_rate": 0.00019677261613691932,
      "loss": 2.3656,
      "step": 736
    },
    {
      "epoch": 0.01637777777777778,
      "grad_norm": 1.294157862663269,
      "learning_rate": 0.00019676817070460103,
      "loss": 2.0817,
      "step": 737
    },
    {
      "epoch": 0.0164,
      "grad_norm": 1.13506281375885,
      "learning_rate": 0.00019676372527228274,
      "loss": 1.9877,
      "step": 738
    },
    {
      "epoch": 0.016422222222222223,
      "grad_norm": 1.2554447650909424,
      "learning_rate": 0.00019675927983996445,
      "loss": 2.3157,
      "step": 739
    },
    {
      "epoch": 0.016444444444444446,
      "grad_norm": 1.1055458784103394,
      "learning_rate": 0.00019675483440764616,
      "loss": 2.1281,
      "step": 740
    },
    {
      "epoch": 0.016466666666666668,
      "grad_norm": 1.5507477521896362,
      "learning_rate": 0.00019675038897532787,
      "loss": 1.7193,
      "step": 741
    },
    {
      "epoch": 0.01648888888888889,
      "grad_norm": 1.3108044862747192,
      "learning_rate": 0.00019674594354300958,
      "loss": 1.5882,
      "step": 742
    },
    {
      "epoch": 0.016511111111111112,
      "grad_norm": 1.2059918642044067,
      "learning_rate": 0.00019674149811069126,
      "loss": 1.9798,
      "step": 743
    },
    {
      "epoch": 0.016533333333333334,
      "grad_norm": 1.1982961893081665,
      "learning_rate": 0.000196737052678373,
      "loss": 1.8826,
      "step": 744
    },
    {
      "epoch": 0.016555555555555556,
      "grad_norm": 1.2684075832366943,
      "learning_rate": 0.00019673260724605468,
      "loss": 2.2258,
      "step": 745
    },
    {
      "epoch": 0.016577777777777778,
      "grad_norm": 1.0842028856277466,
      "learning_rate": 0.0001967281618137364,
      "loss": 1.7994,
      "step": 746
    },
    {
      "epoch": 0.0166,
      "grad_norm": 1.293434739112854,
      "learning_rate": 0.0001967237163814181,
      "loss": 2.0513,
      "step": 747
    },
    {
      "epoch": 0.016622222222222222,
      "grad_norm": 1.282414197921753,
      "learning_rate": 0.0001967192709490998,
      "loss": 1.9613,
      "step": 748
    },
    {
      "epoch": 0.016644444444444444,
      "grad_norm": 1.408108115196228,
      "learning_rate": 0.00019671482551678152,
      "loss": 1.9771,
      "step": 749
    },
    {
      "epoch": 0.016666666666666666,
      "grad_norm": 1.5824871063232422,
      "learning_rate": 0.00019671038008446323,
      "loss": 1.9777,
      "step": 750
    },
    {
      "epoch": 0.01668888888888889,
      "grad_norm": 1.7164340019226074,
      "learning_rate": 0.00019670593465214494,
      "loss": 1.7608,
      "step": 751
    },
    {
      "epoch": 0.01671111111111111,
      "grad_norm": 1.0201396942138672,
      "learning_rate": 0.00019670148921982662,
      "loss": 2.8536,
      "step": 752
    },
    {
      "epoch": 0.016733333333333333,
      "grad_norm": 1.1302566528320312,
      "learning_rate": 0.00019669704378750836,
      "loss": 3.0723,
      "step": 753
    },
    {
      "epoch": 0.016755555555555555,
      "grad_norm": 0.9833186268806458,
      "learning_rate": 0.00019669259835519004,
      "loss": 2.5592,
      "step": 754
    },
    {
      "epoch": 0.016777777777777777,
      "grad_norm": 1.1132311820983887,
      "learning_rate": 0.00019668815292287175,
      "loss": 2.5013,
      "step": 755
    },
    {
      "epoch": 0.0168,
      "grad_norm": 1.0777004957199097,
      "learning_rate": 0.00019668370749055346,
      "loss": 2.578,
      "step": 756
    },
    {
      "epoch": 0.01682222222222222,
      "grad_norm": 0.9996433258056641,
      "learning_rate": 0.00019667926205823517,
      "loss": 2.6638,
      "step": 757
    },
    {
      "epoch": 0.016844444444444443,
      "grad_norm": 0.9491451382637024,
      "learning_rate": 0.00019667481662591688,
      "loss": 2.2324,
      "step": 758
    },
    {
      "epoch": 0.016866666666666665,
      "grad_norm": 1.1342917680740356,
      "learning_rate": 0.0001966703711935986,
      "loss": 2.2155,
      "step": 759
    },
    {
      "epoch": 0.016888888888888887,
      "grad_norm": 1.0377998352050781,
      "learning_rate": 0.0001966659257612803,
      "loss": 2.0908,
      "step": 760
    },
    {
      "epoch": 0.01691111111111111,
      "grad_norm": 1.5156100988388062,
      "learning_rate": 0.000196661480328962,
      "loss": 1.7761,
      "step": 761
    },
    {
      "epoch": 0.016933333333333335,
      "grad_norm": 1.339430570602417,
      "learning_rate": 0.00019665703489664372,
      "loss": 2.4221,
      "step": 762
    },
    {
      "epoch": 0.016955555555555557,
      "grad_norm": 1.0605875253677368,
      "learning_rate": 0.0001966525894643254,
      "loss": 2.3038,
      "step": 763
    },
    {
      "epoch": 0.01697777777777778,
      "grad_norm": 1.099420428276062,
      "learning_rate": 0.00019664814403200714,
      "loss": 1.8862,
      "step": 764
    },
    {
      "epoch": 0.017,
      "grad_norm": 0.9548482894897461,
      "learning_rate": 0.00019664369859968882,
      "loss": 1.9038,
      "step": 765
    },
    {
      "epoch": 0.017022222222222223,
      "grad_norm": 1.0867154598236084,
      "learning_rate": 0.00019663925316737053,
      "loss": 2.3261,
      "step": 766
    },
    {
      "epoch": 0.017044444444444445,
      "grad_norm": 1.0911372900009155,
      "learning_rate": 0.00019663480773505224,
      "loss": 2.1344,
      "step": 767
    },
    {
      "epoch": 0.017066666666666667,
      "grad_norm": 1.2783464193344116,
      "learning_rate": 0.00019663036230273395,
      "loss": 2.0554,
      "step": 768
    },
    {
      "epoch": 0.01708888888888889,
      "grad_norm": 1.0362484455108643,
      "learning_rate": 0.00019662591687041566,
      "loss": 1.9389,
      "step": 769
    },
    {
      "epoch": 0.01711111111111111,
      "grad_norm": 1.4606289863586426,
      "learning_rate": 0.00019662147143809737,
      "loss": 1.4451,
      "step": 770
    },
    {
      "epoch": 0.017133333333333334,
      "grad_norm": 1.1501736640930176,
      "learning_rate": 0.00019661702600577908,
      "loss": 2.4976,
      "step": 771
    },
    {
      "epoch": 0.017155555555555556,
      "grad_norm": 1.2100738286972046,
      "learning_rate": 0.00019661258057346076,
      "loss": 2.1542,
      "step": 772
    },
    {
      "epoch": 0.017177777777777778,
      "grad_norm": 1.2099733352661133,
      "learning_rate": 0.0001966081351411425,
      "loss": 2.2964,
      "step": 773
    },
    {
      "epoch": 0.0172,
      "grad_norm": 0.9988672137260437,
      "learning_rate": 0.00019660368970882418,
      "loss": 1.6329,
      "step": 774
    },
    {
      "epoch": 0.017222222222222222,
      "grad_norm": 1.2203208208084106,
      "learning_rate": 0.0001965992442765059,
      "loss": 1.9813,
      "step": 775
    },
    {
      "epoch": 0.017244444444444444,
      "grad_norm": 1.2115823030471802,
      "learning_rate": 0.0001965947988441876,
      "loss": 2.5386,
      "step": 776
    },
    {
      "epoch": 0.017266666666666666,
      "grad_norm": 1.1591236591339111,
      "learning_rate": 0.0001965903534118693,
      "loss": 2.2034,
      "step": 777
    },
    {
      "epoch": 0.01728888888888889,
      "grad_norm": 1.2802622318267822,
      "learning_rate": 0.00019658590797955102,
      "loss": 1.9755,
      "step": 778
    },
    {
      "epoch": 0.01731111111111111,
      "grad_norm": 1.5906323194503784,
      "learning_rate": 0.00019658146254723273,
      "loss": 2.1452,
      "step": 779
    },
    {
      "epoch": 0.017333333333333333,
      "grad_norm": 1.6918163299560547,
      "learning_rate": 0.00019657701711491444,
      "loss": 2.0825,
      "step": 780
    },
    {
      "epoch": 0.017355555555555555,
      "grad_norm": 1.3963426351547241,
      "learning_rate": 0.00019657257168259615,
      "loss": 2.6064,
      "step": 781
    },
    {
      "epoch": 0.017377777777777777,
      "grad_norm": 1.2364081144332886,
      "learning_rate": 0.00019656812625027786,
      "loss": 2.3085,
      "step": 782
    },
    {
      "epoch": 0.0174,
      "grad_norm": 1.233431339263916,
      "learning_rate": 0.00019656368081795954,
      "loss": 1.4694,
      "step": 783
    },
    {
      "epoch": 0.01742222222222222,
      "grad_norm": 1.1503186225891113,
      "learning_rate": 0.00019655923538564128,
      "loss": 1.8187,
      "step": 784
    },
    {
      "epoch": 0.017444444444444443,
      "grad_norm": 1.1116048097610474,
      "learning_rate": 0.00019655478995332296,
      "loss": 1.8397,
      "step": 785
    },
    {
      "epoch": 0.017466666666666665,
      "grad_norm": 1.279958963394165,
      "learning_rate": 0.00019655034452100467,
      "loss": 2.1105,
      "step": 786
    },
    {
      "epoch": 0.01748888888888889,
      "grad_norm": 1.1690638065338135,
      "learning_rate": 0.0001965458990886864,
      "loss": 1.8329,
      "step": 787
    },
    {
      "epoch": 0.017511111111111113,
      "grad_norm": 1.4253699779510498,
      "learning_rate": 0.0001965414536563681,
      "loss": 2.4336,
      "step": 788
    },
    {
      "epoch": 0.017533333333333335,
      "grad_norm": 1.2776070833206177,
      "learning_rate": 0.0001965370082240498,
      "loss": 2.4518,
      "step": 789
    },
    {
      "epoch": 0.017555555555555557,
      "grad_norm": 1.512034296989441,
      "learning_rate": 0.0001965325627917315,
      "loss": 2.1827,
      "step": 790
    },
    {
      "epoch": 0.01757777777777778,
      "grad_norm": 1.1982293128967285,
      "learning_rate": 0.00019652811735941322,
      "loss": 1.9153,
      "step": 791
    },
    {
      "epoch": 0.0176,
      "grad_norm": 1.2013659477233887,
      "learning_rate": 0.0001965236719270949,
      "loss": 2.081,
      "step": 792
    },
    {
      "epoch": 0.017622222222222223,
      "grad_norm": 1.1781667470932007,
      "learning_rate": 0.00019651922649477664,
      "loss": 2.0006,
      "step": 793
    },
    {
      "epoch": 0.017644444444444445,
      "grad_norm": 1.2165113687515259,
      "learning_rate": 0.00019651478106245832,
      "loss": 1.7922,
      "step": 794
    },
    {
      "epoch": 0.017666666666666667,
      "grad_norm": 1.2281546592712402,
      "learning_rate": 0.00019651033563014003,
      "loss": 2.0171,
      "step": 795
    },
    {
      "epoch": 0.01768888888888889,
      "grad_norm": 1.2754110097885132,
      "learning_rate": 0.00019650589019782176,
      "loss": 1.662,
      "step": 796
    },
    {
      "epoch": 0.01771111111111111,
      "grad_norm": 1.219094157218933,
      "learning_rate": 0.00019650144476550345,
      "loss": 1.9778,
      "step": 797
    },
    {
      "epoch": 0.017733333333333334,
      "grad_norm": 1.177097201347351,
      "learning_rate": 0.00019649699933318518,
      "loss": 1.9318,
      "step": 798
    },
    {
      "epoch": 0.017755555555555556,
      "grad_norm": 1.5781985521316528,
      "learning_rate": 0.00019649255390086687,
      "loss": 1.7374,
      "step": 799
    },
    {
      "epoch": 0.017777777777777778,
      "grad_norm": 1.26176118850708,
      "learning_rate": 0.00019648810846854858,
      "loss": 1.6688,
      "step": 800
    },
    {
      "epoch": 0.0178,
      "grad_norm": 1.1339136362075806,
      "learning_rate": 0.00019648366303623029,
      "loss": 1.5807,
      "step": 801
    },
    {
      "epoch": 0.017822222222222222,
      "grad_norm": 1.3230016231536865,
      "learning_rate": 0.000196479217603912,
      "loss": 3.0471,
      "step": 802
    },
    {
      "epoch": 0.017844444444444444,
      "grad_norm": 1.4688678979873657,
      "learning_rate": 0.00019647477217159368,
      "loss": 1.3478,
      "step": 803
    },
    {
      "epoch": 0.017866666666666666,
      "grad_norm": 1.306009292602539,
      "learning_rate": 0.00019647032673927541,
      "loss": 2.7983,
      "step": 804
    },
    {
      "epoch": 0.017888888888888888,
      "grad_norm": 1.1074703931808472,
      "learning_rate": 0.00019646588130695712,
      "loss": 2.3747,
      "step": 805
    },
    {
      "epoch": 0.01791111111111111,
      "grad_norm": 1.3425999879837036,
      "learning_rate": 0.0001964614358746388,
      "loss": 2.726,
      "step": 806
    },
    {
      "epoch": 0.017933333333333332,
      "grad_norm": 1.1015830039978027,
      "learning_rate": 0.00019645699044232054,
      "loss": 2.3845,
      "step": 807
    },
    {
      "epoch": 0.017955555555555554,
      "grad_norm": 0.9824787378311157,
      "learning_rate": 0.00019645254501000223,
      "loss": 2.2274,
      "step": 808
    },
    {
      "epoch": 0.017977777777777777,
      "grad_norm": 1.1457710266113281,
      "learning_rate": 0.00019644809957768394,
      "loss": 2.5331,
      "step": 809
    },
    {
      "epoch": 0.018,
      "grad_norm": 1.09781014919281,
      "learning_rate": 0.00019644365414536564,
      "loss": 2.2203,
      "step": 810
    },
    {
      "epoch": 0.01802222222222222,
      "grad_norm": 1.3251962661743164,
      "learning_rate": 0.00019643920871304735,
      "loss": 2.3068,
      "step": 811
    },
    {
      "epoch": 0.018044444444444443,
      "grad_norm": 1.0364882946014404,
      "learning_rate": 0.00019643476328072906,
      "loss": 2.0702,
      "step": 812
    },
    {
      "epoch": 0.01806666666666667,
      "grad_norm": 1.027541160583496,
      "learning_rate": 0.00019643031784841077,
      "loss": 2.3624,
      "step": 813
    },
    {
      "epoch": 0.01808888888888889,
      "grad_norm": 1.0804171562194824,
      "learning_rate": 0.00019642587241609248,
      "loss": 2.2597,
      "step": 814
    },
    {
      "epoch": 0.018111111111111113,
      "grad_norm": 0.9873744249343872,
      "learning_rate": 0.00019642142698377417,
      "loss": 2.0124,
      "step": 815
    },
    {
      "epoch": 0.018133333333333335,
      "grad_norm": 1.2539011240005493,
      "learning_rate": 0.0001964169815514559,
      "loss": 1.6722,
      "step": 816
    },
    {
      "epoch": 0.018155555555555557,
      "grad_norm": 1.0545837879180908,
      "learning_rate": 0.00019641253611913758,
      "loss": 1.9449,
      "step": 817
    },
    {
      "epoch": 0.01817777777777778,
      "grad_norm": 1.0569536685943604,
      "learning_rate": 0.00019640809068681932,
      "loss": 2.1474,
      "step": 818
    },
    {
      "epoch": 0.0182,
      "grad_norm": 1.0982191562652588,
      "learning_rate": 0.000196403645254501,
      "loss": 2.0039,
      "step": 819
    },
    {
      "epoch": 0.018222222222222223,
      "grad_norm": 1.1790661811828613,
      "learning_rate": 0.00019639919982218271,
      "loss": 2.2475,
      "step": 820
    },
    {
      "epoch": 0.018244444444444445,
      "grad_norm": 1.2144410610198975,
      "learning_rate": 0.00019639475438986442,
      "loss": 2.005,
      "step": 821
    },
    {
      "epoch": 0.018266666666666667,
      "grad_norm": 1.3091073036193848,
      "learning_rate": 0.00019639030895754613,
      "loss": 2.2285,
      "step": 822
    },
    {
      "epoch": 0.01828888888888889,
      "grad_norm": 1.0567389726638794,
      "learning_rate": 0.00019638586352522784,
      "loss": 1.681,
      "step": 823
    },
    {
      "epoch": 0.01831111111111111,
      "grad_norm": 1.2873115539550781,
      "learning_rate": 0.00019638141809290955,
      "loss": 2.4649,
      "step": 824
    },
    {
      "epoch": 0.018333333333333333,
      "grad_norm": 1.1891435384750366,
      "learning_rate": 0.00019637697266059126,
      "loss": 2.0758,
      "step": 825
    },
    {
      "epoch": 0.018355555555555556,
      "grad_norm": 1.301710605621338,
      "learning_rate": 0.00019637252722827294,
      "loss": 2.2872,
      "step": 826
    },
    {
      "epoch": 0.018377777777777778,
      "grad_norm": 1.0890244245529175,
      "learning_rate": 0.00019636808179595468,
      "loss": 1.8396,
      "step": 827
    },
    {
      "epoch": 0.0184,
      "grad_norm": 1.1202166080474854,
      "learning_rate": 0.00019636363636363636,
      "loss": 2.0805,
      "step": 828
    },
    {
      "epoch": 0.018422222222222222,
      "grad_norm": 2.2393441200256348,
      "learning_rate": 0.00019635919093131807,
      "loss": 0.5444,
      "step": 829
    },
    {
      "epoch": 0.018444444444444444,
      "grad_norm": 1.2420040369033813,
      "learning_rate": 0.00019635474549899978,
      "loss": 1.9836,
      "step": 830
    },
    {
      "epoch": 0.018466666666666666,
      "grad_norm": 1.038867473602295,
      "learning_rate": 0.0001963503000666815,
      "loss": 1.7146,
      "step": 831
    },
    {
      "epoch": 0.018488888888888888,
      "grad_norm": 1.1635878086090088,
      "learning_rate": 0.0001963458546343632,
      "loss": 1.7218,
      "step": 832
    },
    {
      "epoch": 0.01851111111111111,
      "grad_norm": 1.0368382930755615,
      "learning_rate": 0.0001963414092020449,
      "loss": 1.3076,
      "step": 833
    },
    {
      "epoch": 0.018533333333333332,
      "grad_norm": 0.943245530128479,
      "learning_rate": 0.00019633696376972662,
      "loss": 1.1374,
      "step": 834
    },
    {
      "epoch": 0.018555555555555554,
      "grad_norm": 1.2916659116744995,
      "learning_rate": 0.00019633251833740833,
      "loss": 2.3984,
      "step": 835
    },
    {
      "epoch": 0.018577777777777776,
      "grad_norm": 1.0505813360214233,
      "learning_rate": 0.00019632807290509004,
      "loss": 1.6111,
      "step": 836
    },
    {
      "epoch": 0.0186,
      "grad_norm": 1.16885244846344,
      "learning_rate": 0.00019632362747277172,
      "loss": 1.683,
      "step": 837
    },
    {
      "epoch": 0.01862222222222222,
      "grad_norm": 1.203165054321289,
      "learning_rate": 0.00019631918204045346,
      "loss": 2.2429,
      "step": 838
    },
    {
      "epoch": 0.018644444444444446,
      "grad_norm": 2.2412188053131104,
      "learning_rate": 0.00019631473660813514,
      "loss": 2.1415,
      "step": 839
    },
    {
      "epoch": 0.018666666666666668,
      "grad_norm": 1.2367819547653198,
      "learning_rate": 0.00019631029117581685,
      "loss": 2.2188,
      "step": 840
    },
    {
      "epoch": 0.01868888888888889,
      "grad_norm": 1.673090934753418,
      "learning_rate": 0.00019630584574349856,
      "loss": 1.4442,
      "step": 841
    },
    {
      "epoch": 0.018711111111111112,
      "grad_norm": 1.2908966541290283,
      "learning_rate": 0.00019630140031118027,
      "loss": 2.2486,
      "step": 842
    },
    {
      "epoch": 0.018733333333333334,
      "grad_norm": 1.2924500703811646,
      "learning_rate": 0.00019629695487886198,
      "loss": 1.9328,
      "step": 843
    },
    {
      "epoch": 0.018755555555555557,
      "grad_norm": 1.275480031967163,
      "learning_rate": 0.0001962925094465437,
      "loss": 1.7754,
      "step": 844
    },
    {
      "epoch": 0.01877777777777778,
      "grad_norm": 1.1931178569793701,
      "learning_rate": 0.0001962880640142254,
      "loss": 2.1881,
      "step": 845
    },
    {
      "epoch": 0.0188,
      "grad_norm": 2.039440393447876,
      "learning_rate": 0.00019628361858190708,
      "loss": 1.644,
      "step": 846
    },
    {
      "epoch": 0.018822222222222223,
      "grad_norm": 1.3467886447906494,
      "learning_rate": 0.00019627917314958882,
      "loss": 2.2548,
      "step": 847
    },
    {
      "epoch": 0.018844444444444445,
      "grad_norm": 1.3075599670410156,
      "learning_rate": 0.0001962747277172705,
      "loss": 2.0337,
      "step": 848
    },
    {
      "epoch": 0.018866666666666667,
      "grad_norm": 1.1949859857559204,
      "learning_rate": 0.0001962702822849522,
      "loss": 1.9284,
      "step": 849
    },
    {
      "epoch": 0.01888888888888889,
      "grad_norm": 1.2792781591415405,
      "learning_rate": 0.00019626583685263392,
      "loss": 1.0456,
      "step": 850
    },
    {
      "epoch": 0.01891111111111111,
      "grad_norm": 1.4490439891815186,
      "learning_rate": 0.00019626139142031563,
      "loss": 1.6746,
      "step": 851
    },
    {
      "epoch": 0.018933333333333333,
      "grad_norm": 1.1604878902435303,
      "learning_rate": 0.00019625694598799734,
      "loss": 1.7505,
      "step": 852
    },
    {
      "epoch": 0.018955555555555555,
      "grad_norm": 0.9291083812713623,
      "learning_rate": 0.00019625250055567905,
      "loss": 2.5427,
      "step": 853
    },
    {
      "epoch": 0.018977777777777777,
      "grad_norm": 1.5711733102798462,
      "learning_rate": 0.00019624805512336076,
      "loss": 0.2669,
      "step": 854
    },
    {
      "epoch": 0.019,
      "grad_norm": 1.1600127220153809,
      "learning_rate": 0.00019624360969104247,
      "loss": 2.9463,
      "step": 855
    },
    {
      "epoch": 0.01902222222222222,
      "grad_norm": 1.0230916738510132,
      "learning_rate": 0.00019623916425872418,
      "loss": 2.6563,
      "step": 856
    },
    {
      "epoch": 0.019044444444444444,
      "grad_norm": 0.9486801028251648,
      "learning_rate": 0.00019623471882640586,
      "loss": 1.8925,
      "step": 857
    },
    {
      "epoch": 0.019066666666666666,
      "grad_norm": 1.044983983039856,
      "learning_rate": 0.0001962302733940876,
      "loss": 2.311,
      "step": 858
    },
    {
      "epoch": 0.019088888888888888,
      "grad_norm": 1.4333350658416748,
      "learning_rate": 0.00019622582796176928,
      "loss": 1.7861,
      "step": 859
    },
    {
      "epoch": 0.01911111111111111,
      "grad_norm": 1.5485827922821045,
      "learning_rate": 0.000196221382529451,
      "loss": 1.7814,
      "step": 860
    },
    {
      "epoch": 0.019133333333333332,
      "grad_norm": 1.0253639221191406,
      "learning_rate": 0.00019621693709713273,
      "loss": 2.3211,
      "step": 861
    },
    {
      "epoch": 0.019155555555555554,
      "grad_norm": 1.0021156072616577,
      "learning_rate": 0.0001962124916648144,
      "loss": 2.2516,
      "step": 862
    },
    {
      "epoch": 0.019177777777777776,
      "grad_norm": 1.083513855934143,
      "learning_rate": 0.00019620804623249612,
      "loss": 2.483,
      "step": 863
    },
    {
      "epoch": 0.0192,
      "grad_norm": 1.0141162872314453,
      "learning_rate": 0.00019620360080017783,
      "loss": 2.1131,
      "step": 864
    },
    {
      "epoch": 0.019222222222222224,
      "grad_norm": 1.1440132856369019,
      "learning_rate": 0.00019619915536785954,
      "loss": 2.3115,
      "step": 865
    },
    {
      "epoch": 0.019244444444444446,
      "grad_norm": 1.368955373764038,
      "learning_rate": 0.00019619470993554122,
      "loss": 2.438,
      "step": 866
    },
    {
      "epoch": 0.019266666666666668,
      "grad_norm": 1.09905207157135,
      "learning_rate": 0.00019619026450322296,
      "loss": 2.1312,
      "step": 867
    },
    {
      "epoch": 0.01928888888888889,
      "grad_norm": 1.049364686012268,
      "learning_rate": 0.00019618581907090464,
      "loss": 2.0062,
      "step": 868
    },
    {
      "epoch": 0.019311111111111112,
      "grad_norm": 0.9739032983779907,
      "learning_rate": 0.00019618137363858635,
      "loss": 1.693,
      "step": 869
    },
    {
      "epoch": 0.019333333333333334,
      "grad_norm": 0.9700818061828613,
      "learning_rate": 0.00019617692820626809,
      "loss": 2.0532,
      "step": 870
    },
    {
      "epoch": 0.019355555555555556,
      "grad_norm": 1.3672065734863281,
      "learning_rate": 0.00019617248277394977,
      "loss": 1.429,
      "step": 871
    },
    {
      "epoch": 0.01937777777777778,
      "grad_norm": 1.079664707183838,
      "learning_rate": 0.00019616803734163148,
      "loss": 2.0825,
      "step": 872
    },
    {
      "epoch": 0.0194,
      "grad_norm": 1.2146960496902466,
      "learning_rate": 0.0001961635919093132,
      "loss": 2.2426,
      "step": 873
    },
    {
      "epoch": 0.019422222222222223,
      "grad_norm": 1.24970543384552,
      "learning_rate": 0.0001961591464769949,
      "loss": 2.6886,
      "step": 874
    },
    {
      "epoch": 0.019444444444444445,
      "grad_norm": 1.195928931236267,
      "learning_rate": 0.0001961547010446766,
      "loss": 2.4466,
      "step": 875
    },
    {
      "epoch": 0.019466666666666667,
      "grad_norm": 1.179833173751831,
      "learning_rate": 0.00019615025561235832,
      "loss": 2.2829,
      "step": 876
    },
    {
      "epoch": 0.01948888888888889,
      "grad_norm": 1.1945130825042725,
      "learning_rate": 0.00019614581018004,
      "loss": 2.418,
      "step": 877
    },
    {
      "epoch": 0.01951111111111111,
      "grad_norm": 1.167978286743164,
      "learning_rate": 0.00019614136474772174,
      "loss": 2.4884,
      "step": 878
    },
    {
      "epoch": 0.019533333333333333,
      "grad_norm": 1.125403642654419,
      "learning_rate": 0.00019613691931540345,
      "loss": 2.1588,
      "step": 879
    },
    {
      "epoch": 0.019555555555555555,
      "grad_norm": 1.150924801826477,
      "learning_rate": 0.00019613247388308513,
      "loss": 2.1924,
      "step": 880
    },
    {
      "epoch": 0.019577777777777777,
      "grad_norm": 1.2554140090942383,
      "learning_rate": 0.00019612802845076687,
      "loss": 2.2575,
      "step": 881
    },
    {
      "epoch": 0.0196,
      "grad_norm": 1.0867589712142944,
      "learning_rate": 0.00019612358301844855,
      "loss": 1.9348,
      "step": 882
    },
    {
      "epoch": 0.01962222222222222,
      "grad_norm": 1.228159785270691,
      "learning_rate": 0.00019611913758613026,
      "loss": 2.1239,
      "step": 883
    },
    {
      "epoch": 0.019644444444444444,
      "grad_norm": 1.3001697063446045,
      "learning_rate": 0.00019611469215381197,
      "loss": 2.0723,
      "step": 884
    },
    {
      "epoch": 0.019666666666666666,
      "grad_norm": 1.325709581375122,
      "learning_rate": 0.00019611024672149368,
      "loss": 2.3303,
      "step": 885
    },
    {
      "epoch": 0.019688888888888888,
      "grad_norm": 1.2864207029342651,
      "learning_rate": 0.00019610580128917539,
      "loss": 1.96,
      "step": 886
    },
    {
      "epoch": 0.01971111111111111,
      "grad_norm": 1.255982756614685,
      "learning_rate": 0.0001961013558568571,
      "loss": 1.8032,
      "step": 887
    },
    {
      "epoch": 0.019733333333333332,
      "grad_norm": 1.2519142627716064,
      "learning_rate": 0.0001960969104245388,
      "loss": 1.9856,
      "step": 888
    },
    {
      "epoch": 0.019755555555555554,
      "grad_norm": 1.3303425312042236,
      "learning_rate": 0.0001960924649922205,
      "loss": 0.3838,
      "step": 889
    },
    {
      "epoch": 0.019777777777777776,
      "grad_norm": 1.2367528676986694,
      "learning_rate": 0.00019608801955990222,
      "loss": 2.0583,
      "step": 890
    },
    {
      "epoch": 0.0198,
      "grad_norm": 1.3811371326446533,
      "learning_rate": 0.0001960835741275839,
      "loss": 2.1395,
      "step": 891
    },
    {
      "epoch": 0.019822222222222224,
      "grad_norm": 1.7128000259399414,
      "learning_rate": 0.00019607912869526564,
      "loss": 2.0093,
      "step": 892
    },
    {
      "epoch": 0.019844444444444446,
      "grad_norm": 1.5509915351867676,
      "learning_rate": 0.00019607468326294733,
      "loss": 2.571,
      "step": 893
    },
    {
      "epoch": 0.019866666666666668,
      "grad_norm": 1.2489700317382812,
      "learning_rate": 0.00019607023783062904,
      "loss": 1.582,
      "step": 894
    },
    {
      "epoch": 0.01988888888888889,
      "grad_norm": 1.2955539226531982,
      "learning_rate": 0.00019606579239831075,
      "loss": 1.6916,
      "step": 895
    },
    {
      "epoch": 0.019911111111111112,
      "grad_norm": 1.4643043279647827,
      "learning_rate": 0.00019606134696599246,
      "loss": 2.022,
      "step": 896
    },
    {
      "epoch": 0.019933333333333334,
      "grad_norm": 1.5307050943374634,
      "learning_rate": 0.00019605690153367416,
      "loss": 2.0634,
      "step": 897
    },
    {
      "epoch": 0.019955555555555556,
      "grad_norm": 1.3590905666351318,
      "learning_rate": 0.00019605245610135587,
      "loss": 1.5713,
      "step": 898
    },
    {
      "epoch": 0.01997777777777778,
      "grad_norm": 1.562294602394104,
      "learning_rate": 0.00019604801066903758,
      "loss": 1.7607,
      "step": 899
    },
    {
      "epoch": 0.02,
      "grad_norm": 1.8767348527908325,
      "learning_rate": 0.00019604356523671927,
      "loss": 2.1073,
      "step": 900
    },
    {
      "epoch": 0.020022222222222223,
      "grad_norm": 1.0802743434906006,
      "learning_rate": 0.000196039119804401,
      "loss": 2.7056,
      "step": 901
    },
    {
      "epoch": 0.020044444444444445,
      "grad_norm": 2.3722715377807617,
      "learning_rate": 0.00019603467437208269,
      "loss": 1.38,
      "step": 902
    },
    {
      "epoch": 0.020066666666666667,
      "grad_norm": 1.0593788623809814,
      "learning_rate": 0.0001960302289397644,
      "loss": 2.5719,
      "step": 903
    },
    {
      "epoch": 0.02008888888888889,
      "grad_norm": 1.0191380977630615,
      "learning_rate": 0.0001960257835074461,
      "loss": 2.4799,
      "step": 904
    },
    {
      "epoch": 0.02011111111111111,
      "grad_norm": 0.9760773777961731,
      "learning_rate": 0.00019602133807512781,
      "loss": 2.1631,
      "step": 905
    },
    {
      "epoch": 0.020133333333333333,
      "grad_norm": 1.1734133958816528,
      "learning_rate": 0.00019601689264280952,
      "loss": 2.8479,
      "step": 906
    },
    {
      "epoch": 0.020155555555555555,
      "grad_norm": 1.0349823236465454,
      "learning_rate": 0.00019601244721049123,
      "loss": 2.4701,
      "step": 907
    },
    {
      "epoch": 0.020177777777777777,
      "grad_norm": 1.1129311323165894,
      "learning_rate": 0.00019600800177817294,
      "loss": 3.0119,
      "step": 908
    },
    {
      "epoch": 0.0202,
      "grad_norm": 0.8805875778198242,
      "learning_rate": 0.00019600355634585463,
      "loss": 2.0471,
      "step": 909
    },
    {
      "epoch": 0.02022222222222222,
      "grad_norm": 0.9662013649940491,
      "learning_rate": 0.00019599911091353636,
      "loss": 2.1242,
      "step": 910
    },
    {
      "epoch": 0.020244444444444443,
      "grad_norm": 1.1028411388397217,
      "learning_rate": 0.00019599466548121805,
      "loss": 2.1906,
      "step": 911
    },
    {
      "epoch": 0.020266666666666665,
      "grad_norm": 1.1514785289764404,
      "learning_rate": 0.00019599022004889978,
      "loss": 2.4322,
      "step": 912
    },
    {
      "epoch": 0.020288888888888888,
      "grad_norm": 1.16688871383667,
      "learning_rate": 0.00019598577461658146,
      "loss": 2.4395,
      "step": 913
    },
    {
      "epoch": 0.02031111111111111,
      "grad_norm": 1.4184373617172241,
      "learning_rate": 0.00019598132918426317,
      "loss": 1.2305,
      "step": 914
    },
    {
      "epoch": 0.02033333333333333,
      "grad_norm": 1.03030264377594,
      "learning_rate": 0.00019597688375194488,
      "loss": 2.2355,
      "step": 915
    },
    {
      "epoch": 0.020355555555555557,
      "grad_norm": 1.3763560056686401,
      "learning_rate": 0.0001959724383196266,
      "loss": 1.1956,
      "step": 916
    },
    {
      "epoch": 0.02037777777777778,
      "grad_norm": 1.0465972423553467,
      "learning_rate": 0.0001959679928873083,
      "loss": 1.8871,
      "step": 917
    },
    {
      "epoch": 0.0204,
      "grad_norm": 1.0120636224746704,
      "learning_rate": 0.00019596354745499,
      "loss": 1.9974,
      "step": 918
    },
    {
      "epoch": 0.020422222222222224,
      "grad_norm": 1.0328166484832764,
      "learning_rate": 0.00019595910202267172,
      "loss": 2.0037,
      "step": 919
    },
    {
      "epoch": 0.020444444444444446,
      "grad_norm": 1.0897443294525146,
      "learning_rate": 0.0001959546565903534,
      "loss": 1.7993,
      "step": 920
    },
    {
      "epoch": 0.020466666666666668,
      "grad_norm": 1.1461929082870483,
      "learning_rate": 0.00019595021115803514,
      "loss": 1.8812,
      "step": 921
    },
    {
      "epoch": 0.02048888888888889,
      "grad_norm": 1.2209994792938232,
      "learning_rate": 0.00019594576572571682,
      "loss": 2.072,
      "step": 922
    },
    {
      "epoch": 0.020511111111111112,
      "grad_norm": 1.172695279121399,
      "learning_rate": 0.00019594132029339853,
      "loss": 2.1074,
      "step": 923
    },
    {
      "epoch": 0.020533333333333334,
      "grad_norm": 1.0516802072525024,
      "learning_rate": 0.00019593687486108024,
      "loss": 2.0596,
      "step": 924
    },
    {
      "epoch": 0.020555555555555556,
      "grad_norm": 1.3836328983306885,
      "learning_rate": 0.00019593242942876195,
      "loss": 1.7834,
      "step": 925
    },
    {
      "epoch": 0.020577777777777778,
      "grad_norm": 1.0988030433654785,
      "learning_rate": 0.00019592798399644366,
      "loss": 2.4386,
      "step": 926
    },
    {
      "epoch": 0.0206,
      "grad_norm": 1.2603306770324707,
      "learning_rate": 0.00019592353856412537,
      "loss": 1.9224,
      "step": 927
    },
    {
      "epoch": 0.020622222222222222,
      "grad_norm": 1.2427294254302979,
      "learning_rate": 0.00019591909313180708,
      "loss": 2.0508,
      "step": 928
    },
    {
      "epoch": 0.020644444444444444,
      "grad_norm": 1.2592589855194092,
      "learning_rate": 0.00019591464769948876,
      "loss": 0.9818,
      "step": 929
    },
    {
      "epoch": 0.020666666666666667,
      "grad_norm": 1.216002106666565,
      "learning_rate": 0.0001959102022671705,
      "loss": 1.968,
      "step": 930
    },
    {
      "epoch": 0.02068888888888889,
      "grad_norm": 1.0482780933380127,
      "learning_rate": 0.00019590575683485218,
      "loss": 1.9463,
      "step": 931
    },
    {
      "epoch": 0.02071111111111111,
      "grad_norm": 1.1712830066680908,
      "learning_rate": 0.00019590131140253392,
      "loss": 2.2402,
      "step": 932
    },
    {
      "epoch": 0.020733333333333333,
      "grad_norm": 1.2022780179977417,
      "learning_rate": 0.0001958968659702156,
      "loss": 2.2141,
      "step": 933
    },
    {
      "epoch": 0.020755555555555555,
      "grad_norm": 1.3972703218460083,
      "learning_rate": 0.0001958924205378973,
      "loss": 2.5702,
      "step": 934
    },
    {
      "epoch": 0.020777777777777777,
      "grad_norm": 1.3721685409545898,
      "learning_rate": 0.00019588797510557905,
      "loss": 1.9768,
      "step": 935
    },
    {
      "epoch": 0.0208,
      "grad_norm": 1.477299690246582,
      "learning_rate": 0.00019588352967326073,
      "loss": 2.271,
      "step": 936
    },
    {
      "epoch": 0.02082222222222222,
      "grad_norm": 1.2655388116836548,
      "learning_rate": 0.00019587908424094244,
      "loss": 2.1486,
      "step": 937
    },
    {
      "epoch": 0.020844444444444443,
      "grad_norm": 1.2654677629470825,
      "learning_rate": 0.00019587463880862415,
      "loss": 2.1803,
      "step": 938
    },
    {
      "epoch": 0.020866666666666665,
      "grad_norm": 1.217732548713684,
      "learning_rate": 0.00019587019337630586,
      "loss": 1.8073,
      "step": 939
    },
    {
      "epoch": 0.020888888888888887,
      "grad_norm": 1.2355321645736694,
      "learning_rate": 0.00019586574794398754,
      "loss": 2.1258,
      "step": 940
    },
    {
      "epoch": 0.02091111111111111,
      "grad_norm": 1.1818342208862305,
      "learning_rate": 0.00019586130251166928,
      "loss": 1.8276,
      "step": 941
    },
    {
      "epoch": 0.020933333333333335,
      "grad_norm": 1.1487818956375122,
      "learning_rate": 0.00019585685707935096,
      "loss": 1.6831,
      "step": 942
    },
    {
      "epoch": 0.020955555555555557,
      "grad_norm": 1.2802660465240479,
      "learning_rate": 0.00019585241164703267,
      "loss": 1.6609,
      "step": 943
    },
    {
      "epoch": 0.02097777777777778,
      "grad_norm": 1.1527976989746094,
      "learning_rate": 0.0001958479662147144,
      "loss": 1.6833,
      "step": 944
    },
    {
      "epoch": 0.021,
      "grad_norm": 1.3876123428344727,
      "learning_rate": 0.0001958435207823961,
      "loss": 2.3983,
      "step": 945
    },
    {
      "epoch": 0.021022222222222223,
      "grad_norm": 1.2040034532546997,
      "learning_rate": 0.0001958390753500778,
      "loss": 1.846,
      "step": 946
    },
    {
      "epoch": 0.021044444444444445,
      "grad_norm": 1.370119571685791,
      "learning_rate": 0.0001958346299177595,
      "loss": 1.8897,
      "step": 947
    },
    {
      "epoch": 0.021066666666666668,
      "grad_norm": 1.3019564151763916,
      "learning_rate": 0.00019583018448544122,
      "loss": 1.8344,
      "step": 948
    },
    {
      "epoch": 0.02108888888888889,
      "grad_norm": 1.4427218437194824,
      "learning_rate": 0.00019582573905312293,
      "loss": 1.7637,
      "step": 949
    },
    {
      "epoch": 0.021111111111111112,
      "grad_norm": 1.5034881830215454,
      "learning_rate": 0.00019582129362080464,
      "loss": 1.0761,
      "step": 950
    },
    {
      "epoch": 0.021133333333333334,
      "grad_norm": 1.1429578065872192,
      "learning_rate": 0.00019581684818848632,
      "loss": 2.7195,
      "step": 951
    },
    {
      "epoch": 0.021155555555555556,
      "grad_norm": 0.976854681968689,
      "learning_rate": 0.00019581240275616806,
      "loss": 2.3101,
      "step": 952
    },
    {
      "epoch": 0.021177777777777778,
      "grad_norm": 1.206167221069336,
      "learning_rate": 0.00019580795732384977,
      "loss": 1.7676,
      "step": 953
    },
    {
      "epoch": 0.0212,
      "grad_norm": 0.972571849822998,
      "learning_rate": 0.00019580351189153145,
      "loss": 2.54,
      "step": 954
    },
    {
      "epoch": 0.021222222222222222,
      "grad_norm": 1.1512590646743774,
      "learning_rate": 0.0001957990664592132,
      "loss": 2.24,
      "step": 955
    },
    {
      "epoch": 0.021244444444444444,
      "grad_norm": 1.3974167108535767,
      "learning_rate": 0.00019579462102689487,
      "loss": 2.0927,
      "step": 956
    },
    {
      "epoch": 0.021266666666666666,
      "grad_norm": 1.048025131225586,
      "learning_rate": 0.00019579017559457658,
      "loss": 2.2076,
      "step": 957
    },
    {
      "epoch": 0.02128888888888889,
      "grad_norm": 1.2170542478561401,
      "learning_rate": 0.0001957857301622583,
      "loss": 2.3151,
      "step": 958
    },
    {
      "epoch": 0.02131111111111111,
      "grad_norm": 1.132617712020874,
      "learning_rate": 0.00019578128472994,
      "loss": 2.5876,
      "step": 959
    },
    {
      "epoch": 0.021333333333333333,
      "grad_norm": 1.075210690498352,
      "learning_rate": 0.0001957768392976217,
      "loss": 2.1453,
      "step": 960
    },
    {
      "epoch": 0.021355555555555555,
      "grad_norm": 1.2410504817962646,
      "learning_rate": 0.00019577239386530342,
      "loss": 2.6506,
      "step": 961
    },
    {
      "epoch": 0.021377777777777777,
      "grad_norm": 1.3010751008987427,
      "learning_rate": 0.00019576794843298513,
      "loss": 2.4697,
      "step": 962
    },
    {
      "epoch": 0.0214,
      "grad_norm": 1.0129830837249756,
      "learning_rate": 0.0001957635030006668,
      "loss": 1.4227,
      "step": 963
    },
    {
      "epoch": 0.02142222222222222,
      "grad_norm": 0.6315566897392273,
      "learning_rate": 0.00019575905756834855,
      "loss": 0.0922,
      "step": 964
    },
    {
      "epoch": 0.021444444444444443,
      "grad_norm": 1.1320451498031616,
      "learning_rate": 0.00019575461213603023,
      "loss": 2.1428,
      "step": 965
    },
    {
      "epoch": 0.021466666666666665,
      "grad_norm": 1.2234382629394531,
      "learning_rate": 0.00019575016670371194,
      "loss": 2.1096,
      "step": 966
    },
    {
      "epoch": 0.021488888888888887,
      "grad_norm": 0.9147301912307739,
      "learning_rate": 0.00019574572127139365,
      "loss": 1.7953,
      "step": 967
    },
    {
      "epoch": 0.021511111111111113,
      "grad_norm": 1.356390118598938,
      "learning_rate": 0.00019574127583907536,
      "loss": 2.2897,
      "step": 968
    },
    {
      "epoch": 0.021533333333333335,
      "grad_norm": 1.0729771852493286,
      "learning_rate": 0.00019573683040675707,
      "loss": 1.756,
      "step": 969
    },
    {
      "epoch": 0.021555555555555557,
      "grad_norm": 1.4511117935180664,
      "learning_rate": 0.00019573238497443878,
      "loss": 2.6018,
      "step": 970
    },
    {
      "epoch": 0.02157777777777778,
      "grad_norm": 1.0890446901321411,
      "learning_rate": 0.0001957279395421205,
      "loss": 1.9825,
      "step": 971
    },
    {
      "epoch": 0.0216,
      "grad_norm": 1.0413049459457397,
      "learning_rate": 0.0001957234941098022,
      "loss": 1.881,
      "step": 972
    },
    {
      "epoch": 0.021622222222222223,
      "grad_norm": 1.1469613313674927,
      "learning_rate": 0.0001957190486774839,
      "loss": 2.1205,
      "step": 973
    },
    {
      "epoch": 0.021644444444444445,
      "grad_norm": 1.2220079898834229,
      "learning_rate": 0.0001957146032451656,
      "loss": 1.8111,
      "step": 974
    },
    {
      "epoch": 0.021666666666666667,
      "grad_norm": 1.2006953954696655,
      "learning_rate": 0.00019571015781284733,
      "loss": 2.1679,
      "step": 975
    },
    {
      "epoch": 0.02168888888888889,
      "grad_norm": 1.1270962953567505,
      "learning_rate": 0.000195705712380529,
      "loss": 1.0779,
      "step": 976
    },
    {
      "epoch": 0.02171111111111111,
      "grad_norm": 1.1960642337799072,
      "learning_rate": 0.00019570126694821072,
      "loss": 2.047,
      "step": 977
    },
    {
      "epoch": 0.021733333333333334,
      "grad_norm": 1.4884071350097656,
      "learning_rate": 0.00019569682151589243,
      "loss": 2.0778,
      "step": 978
    },
    {
      "epoch": 0.021755555555555556,
      "grad_norm": 1.5839117765426636,
      "learning_rate": 0.00019569237608357414,
      "loss": 1.7589,
      "step": 979
    },
    {
      "epoch": 0.021777777777777778,
      "grad_norm": 1.19338858127594,
      "learning_rate": 0.00019568793065125585,
      "loss": 2.1839,
      "step": 980
    },
    {
      "epoch": 0.0218,
      "grad_norm": 1.2875008583068848,
      "learning_rate": 0.00019568348521893756,
      "loss": 1.7998,
      "step": 981
    },
    {
      "epoch": 0.021822222222222222,
      "grad_norm": 1.341842770576477,
      "learning_rate": 0.00019567903978661927,
      "loss": 1.8036,
      "step": 982
    },
    {
      "epoch": 0.021844444444444444,
      "grad_norm": 1.2057856321334839,
      "learning_rate": 0.00019567459435430095,
      "loss": 2.4206,
      "step": 983
    },
    {
      "epoch": 0.021866666666666666,
      "grad_norm": 1.2523908615112305,
      "learning_rate": 0.00019567014892198268,
      "loss": 2.2547,
      "step": 984
    },
    {
      "epoch": 0.02188888888888889,
      "grad_norm": 1.0343761444091797,
      "learning_rate": 0.00019566570348966437,
      "loss": 1.8124,
      "step": 985
    },
    {
      "epoch": 0.02191111111111111,
      "grad_norm": 1.5447239875793457,
      "learning_rate": 0.0001956612580573461,
      "loss": 2.615,
      "step": 986
    },
    {
      "epoch": 0.021933333333333332,
      "grad_norm": 1.5843077898025513,
      "learning_rate": 0.0001956568126250278,
      "loss": 2.2762,
      "step": 987
    },
    {
      "epoch": 0.021955555555555555,
      "grad_norm": 1.115618109703064,
      "learning_rate": 0.0001956523671927095,
      "loss": 1.8599,
      "step": 988
    },
    {
      "epoch": 0.021977777777777777,
      "grad_norm": 1.467014193534851,
      "learning_rate": 0.0001956479217603912,
      "loss": 2.2977,
      "step": 989
    },
    {
      "epoch": 0.022,
      "grad_norm": 1.3508834838867188,
      "learning_rate": 0.00019564347632807292,
      "loss": 2.311,
      "step": 990
    },
    {
      "epoch": 0.02202222222222222,
      "grad_norm": 1.1721075773239136,
      "learning_rate": 0.00019563903089575462,
      "loss": 1.8702,
      "step": 991
    },
    {
      "epoch": 0.022044444444444443,
      "grad_norm": 1.4061206579208374,
      "learning_rate": 0.00019563458546343633,
      "loss": 1.9824,
      "step": 992
    },
    {
      "epoch": 0.022066666666666665,
      "grad_norm": 1.1400818824768066,
      "learning_rate": 0.00019563014003111804,
      "loss": 1.8775,
      "step": 993
    },
    {
      "epoch": 0.02208888888888889,
      "grad_norm": 1.2500072717666626,
      "learning_rate": 0.00019562569459879973,
      "loss": 2.1389,
      "step": 994
    },
    {
      "epoch": 0.022111111111111113,
      "grad_norm": 1.1026194095611572,
      "learning_rate": 0.00019562124916648146,
      "loss": 1.8361,
      "step": 995
    },
    {
      "epoch": 0.022133333333333335,
      "grad_norm": 1.262624740600586,
      "learning_rate": 0.00019561680373416315,
      "loss": 1.9002,
      "step": 996
    },
    {
      "epoch": 0.022155555555555557,
      "grad_norm": 1.2566834688186646,
      "learning_rate": 0.00019561235830184486,
      "loss": 1.7795,
      "step": 997
    },
    {
      "epoch": 0.02217777777777778,
      "grad_norm": 1.3451493978500366,
      "learning_rate": 0.00019560791286952657,
      "loss": 2.1366,
      "step": 998
    },
    {
      "epoch": 0.0222,
      "grad_norm": 1.2510582208633423,
      "learning_rate": 0.00019560346743720827,
      "loss": 1.6197,
      "step": 999
    },
    {
      "epoch": 0.022222222222222223,
      "grad_norm": 1.2556939125061035,
      "learning_rate": 0.00019559902200488998,
      "loss": 1.3633,
      "step": 1000
    },
    {
      "epoch": 0.022244444444444445,
      "grad_norm": 0.848939061164856,
      "learning_rate": 0.0001955945765725717,
      "loss": 2.5007,
      "step": 1001
    },
    {
      "epoch": 0.022266666666666667,
      "grad_norm": 1.0787360668182373,
      "learning_rate": 0.0001955901311402534,
      "loss": 2.1481,
      "step": 1002
    },
    {
      "epoch": 0.02228888888888889,
      "grad_norm": 1.044460654258728,
      "learning_rate": 0.00019558568570793509,
      "loss": 2.3699,
      "step": 1003
    },
    {
      "epoch": 0.02231111111111111,
      "grad_norm": 0.9113267660140991,
      "learning_rate": 0.00019558124027561682,
      "loss": 2.1719,
      "step": 1004
    },
    {
      "epoch": 0.022333333333333334,
      "grad_norm": 1.0063265562057495,
      "learning_rate": 0.0001955767948432985,
      "loss": 2.3777,
      "step": 1005
    },
    {
      "epoch": 0.022355555555555556,
      "grad_norm": 0.9605908393859863,
      "learning_rate": 0.00019557234941098024,
      "loss": 2.2322,
      "step": 1006
    },
    {
      "epoch": 0.022377777777777778,
      "grad_norm": 0.9526219367980957,
      "learning_rate": 0.00019556790397866192,
      "loss": 2.1858,
      "step": 1007
    },
    {
      "epoch": 0.0224,
      "grad_norm": 0.9146535992622375,
      "learning_rate": 0.00019556345854634363,
      "loss": 2.2971,
      "step": 1008
    },
    {
      "epoch": 0.022422222222222222,
      "grad_norm": 0.973808765411377,
      "learning_rate": 0.00019555901311402537,
      "loss": 2.1981,
      "step": 1009
    },
    {
      "epoch": 0.022444444444444444,
      "grad_norm": 1.3780828714370728,
      "learning_rate": 0.00019555456768170705,
      "loss": 1.4589,
      "step": 1010
    },
    {
      "epoch": 0.022466666666666666,
      "grad_norm": 1.200380802154541,
      "learning_rate": 0.00019555012224938876,
      "loss": 2.0646,
      "step": 1011
    },
    {
      "epoch": 0.022488888888888888,
      "grad_norm": 1.0672061443328857,
      "learning_rate": 0.00019554567681707047,
      "loss": 2.0919,
      "step": 1012
    },
    {
      "epoch": 0.02251111111111111,
      "grad_norm": 1.0158803462982178,
      "learning_rate": 0.00019554123138475218,
      "loss": 2.165,
      "step": 1013
    },
    {
      "epoch": 0.022533333333333332,
      "grad_norm": 1.2931088209152222,
      "learning_rate": 0.00019553678595243386,
      "loss": 1.9598,
      "step": 1014
    },
    {
      "epoch": 0.022555555555555554,
      "grad_norm": 1.1174200773239136,
      "learning_rate": 0.0001955323405201156,
      "loss": 1.8869,
      "step": 1015
    },
    {
      "epoch": 0.022577777777777776,
      "grad_norm": 1.2968811988830566,
      "learning_rate": 0.00019552789508779728,
      "loss": 1.8709,
      "step": 1016
    },
    {
      "epoch": 0.0226,
      "grad_norm": 1.1070488691329956,
      "learning_rate": 0.000195523449655479,
      "loss": 1.5826,
      "step": 1017
    },
    {
      "epoch": 0.02262222222222222,
      "grad_norm": 1.1246074438095093,
      "learning_rate": 0.00019551900422316073,
      "loss": 1.9008,
      "step": 1018
    },
    {
      "epoch": 0.022644444444444443,
      "grad_norm": 1.4724538326263428,
      "learning_rate": 0.0001955145587908424,
      "loss": 1.9687,
      "step": 1019
    },
    {
      "epoch": 0.02266666666666667,
      "grad_norm": 1.1362316608428955,
      "learning_rate": 0.00019551011335852412,
      "loss": 2.2574,
      "step": 1020
    },
    {
      "epoch": 0.02268888888888889,
      "grad_norm": 1.030013918876648,
      "learning_rate": 0.00019550566792620583,
      "loss": 1.8649,
      "step": 1021
    },
    {
      "epoch": 0.022711111111111112,
      "grad_norm": 1.0296804904937744,
      "learning_rate": 0.00019550122249388754,
      "loss": 1.9746,
      "step": 1022
    },
    {
      "epoch": 0.022733333333333335,
      "grad_norm": 1.0721232891082764,
      "learning_rate": 0.00019549677706156922,
      "loss": 2.0352,
      "step": 1023
    },
    {
      "epoch": 0.022755555555555557,
      "grad_norm": 1.4004583358764648,
      "learning_rate": 0.00019549233162925096,
      "loss": 2.079,
      "step": 1024
    },
    {
      "epoch": 0.02277777777777778,
      "grad_norm": 1.5219146013259888,
      "learning_rate": 0.00019548788619693264,
      "loss": 2.554,
      "step": 1025
    },
    {
      "epoch": 0.0228,
      "grad_norm": 1.1802712678909302,
      "learning_rate": 0.00019548344076461438,
      "loss": 1.3831,
      "step": 1026
    },
    {
      "epoch": 0.022822222222222223,
      "grad_norm": 1.1997747421264648,
      "learning_rate": 0.0001954789953322961,
      "loss": 2.23,
      "step": 1027
    },
    {
      "epoch": 0.022844444444444445,
      "grad_norm": 1.3436768054962158,
      "learning_rate": 0.00019547454989997777,
      "loss": 2.1588,
      "step": 1028
    },
    {
      "epoch": 0.022866666666666667,
      "grad_norm": 1.6653196811676025,
      "learning_rate": 0.0001954701044676595,
      "loss": 2.0499,
      "step": 1029
    },
    {
      "epoch": 0.02288888888888889,
      "grad_norm": 1.479083776473999,
      "learning_rate": 0.0001954656590353412,
      "loss": 2.1749,
      "step": 1030
    },
    {
      "epoch": 0.02291111111111111,
      "grad_norm": 1.25801420211792,
      "learning_rate": 0.0001954612136030229,
      "loss": 2.3237,
      "step": 1031
    },
    {
      "epoch": 0.022933333333333333,
      "grad_norm": 1.2146965265274048,
      "learning_rate": 0.0001954567681707046,
      "loss": 1.9281,
      "step": 1032
    },
    {
      "epoch": 0.022955555555555555,
      "grad_norm": 1.1866048574447632,
      "learning_rate": 0.00019545232273838632,
      "loss": 2.1571,
      "step": 1033
    },
    {
      "epoch": 0.022977777777777778,
      "grad_norm": 1.1639046669006348,
      "learning_rate": 0.00019544787730606803,
      "loss": 1.5634,
      "step": 1034
    },
    {
      "epoch": 0.023,
      "grad_norm": 1.333937644958496,
      "learning_rate": 0.00019544343187374974,
      "loss": 2.0379,
      "step": 1035
    },
    {
      "epoch": 0.02302222222222222,
      "grad_norm": 1.1640256643295288,
      "learning_rate": 0.00019543898644143145,
      "loss": 1.8631,
      "step": 1036
    },
    {
      "epoch": 0.023044444444444444,
      "grad_norm": 1.238248586654663,
      "learning_rate": 0.00019543454100911313,
      "loss": 1.7345,
      "step": 1037
    },
    {
      "epoch": 0.023066666666666666,
      "grad_norm": 1.0815786123275757,
      "learning_rate": 0.00019543009557679487,
      "loss": 1.1185,
      "step": 1038
    },
    {
      "epoch": 0.023088888888888888,
      "grad_norm": 1.4080270528793335,
      "learning_rate": 0.00019542565014447655,
      "loss": 2.1232,
      "step": 1039
    },
    {
      "epoch": 0.02311111111111111,
      "grad_norm": 1.3079044818878174,
      "learning_rate": 0.00019542120471215826,
      "loss": 2.1561,
      "step": 1040
    },
    {
      "epoch": 0.023133333333333332,
      "grad_norm": 1.2550265789031982,
      "learning_rate": 0.00019541675927983997,
      "loss": 1.8651,
      "step": 1041
    },
    {
      "epoch": 0.023155555555555554,
      "grad_norm": 1.2704882621765137,
      "learning_rate": 0.00019541231384752168,
      "loss": 1.7722,
      "step": 1042
    },
    {
      "epoch": 0.023177777777777776,
      "grad_norm": 1.1533430814743042,
      "learning_rate": 0.0001954078684152034,
      "loss": 1.7708,
      "step": 1043
    },
    {
      "epoch": 0.0232,
      "grad_norm": 1.2300595045089722,
      "learning_rate": 0.0001954034229828851,
      "loss": 1.8022,
      "step": 1044
    },
    {
      "epoch": 0.02322222222222222,
      "grad_norm": 1.298561930656433,
      "learning_rate": 0.0001953989775505668,
      "loss": 1.8205,
      "step": 1045
    },
    {
      "epoch": 0.023244444444444446,
      "grad_norm": 1.3184154033660889,
      "learning_rate": 0.00019539453211824852,
      "loss": 2.1188,
      "step": 1046
    },
    {
      "epoch": 0.023266666666666668,
      "grad_norm": 1.3662607669830322,
      "learning_rate": 0.00019539008668593023,
      "loss": 2.0165,
      "step": 1047
    },
    {
      "epoch": 0.02328888888888889,
      "grad_norm": 1.4113154411315918,
      "learning_rate": 0.0001953856412536119,
      "loss": 1.8712,
      "step": 1048
    },
    {
      "epoch": 0.023311111111111112,
      "grad_norm": 1.5894526243209839,
      "learning_rate": 0.00019538119582129365,
      "loss": 2.2097,
      "step": 1049
    },
    {
      "epoch": 0.023333333333333334,
      "grad_norm": 1.606162428855896,
      "learning_rate": 0.00019537675038897533,
      "loss": 1.7208,
      "step": 1050
    },
    {
      "epoch": 0.023355555555555556,
      "grad_norm": 1.8017663955688477,
      "learning_rate": 0.00019537230495665704,
      "loss": 1.6968,
      "step": 1051
    },
    {
      "epoch": 0.02337777777777778,
      "grad_norm": 0.898545503616333,
      "learning_rate": 0.00019536785952433875,
      "loss": 2.2294,
      "step": 1052
    },
    {
      "epoch": 0.0234,
      "grad_norm": 1.1432520151138306,
      "learning_rate": 0.00019536341409202046,
      "loss": 2.3774,
      "step": 1053
    },
    {
      "epoch": 0.023422222222222223,
      "grad_norm": 0.9966428875923157,
      "learning_rate": 0.00019535896865970217,
      "loss": 2.0966,
      "step": 1054
    },
    {
      "epoch": 0.023444444444444445,
      "grad_norm": 1.1529353857040405,
      "learning_rate": 0.00019535452322738388,
      "loss": 2.9607,
      "step": 1055
    },
    {
      "epoch": 0.023466666666666667,
      "grad_norm": 1.0590641498565674,
      "learning_rate": 0.0001953500777950656,
      "loss": 2.3729,
      "step": 1056
    },
    {
      "epoch": 0.02348888888888889,
      "grad_norm": 1.1788803339004517,
      "learning_rate": 0.00019534563236274727,
      "loss": 2.0186,
      "step": 1057
    },
    {
      "epoch": 0.02351111111111111,
      "grad_norm": 1.3938393592834473,
      "learning_rate": 0.000195341186930429,
      "loss": 1.4386,
      "step": 1058
    },
    {
      "epoch": 0.023533333333333333,
      "grad_norm": 1.0461190938949585,
      "learning_rate": 0.0001953367414981107,
      "loss": 2.2823,
      "step": 1059
    },
    {
      "epoch": 0.023555555555555555,
      "grad_norm": 1.4732369184494019,
      "learning_rate": 0.0001953322960657924,
      "loss": 2.0163,
      "step": 1060
    },
    {
      "epoch": 0.023577777777777777,
      "grad_norm": 1.1343518495559692,
      "learning_rate": 0.0001953278506334741,
      "loss": 2.1538,
      "step": 1061
    },
    {
      "epoch": 0.0236,
      "grad_norm": 1.224971890449524,
      "learning_rate": 0.00019532340520115582,
      "loss": 2.4465,
      "step": 1062
    },
    {
      "epoch": 0.02362222222222222,
      "grad_norm": 1.2219271659851074,
      "learning_rate": 0.00019531895976883753,
      "loss": 2.0159,
      "step": 1063
    },
    {
      "epoch": 0.023644444444444444,
      "grad_norm": 1.1038373708724976,
      "learning_rate": 0.00019531451433651924,
      "loss": 1.9716,
      "step": 1064
    },
    {
      "epoch": 0.023666666666666666,
      "grad_norm": 1.0893348455429077,
      "learning_rate": 0.00019531006890420095,
      "loss": 1.7639,
      "step": 1065
    },
    {
      "epoch": 0.023688888888888888,
      "grad_norm": 1.0139858722686768,
      "learning_rate": 0.00019530562347188266,
      "loss": 2.218,
      "step": 1066
    },
    {
      "epoch": 0.02371111111111111,
      "grad_norm": 1.2331516742706299,
      "learning_rate": 0.00019530117803956437,
      "loss": 2.3592,
      "step": 1067
    },
    {
      "epoch": 0.023733333333333332,
      "grad_norm": 1.1039979457855225,
      "learning_rate": 0.00019529673260724605,
      "loss": 1.9273,
      "step": 1068
    },
    {
      "epoch": 0.023755555555555554,
      "grad_norm": 1.436119794845581,
      "learning_rate": 0.00019529228717492779,
      "loss": 2.1083,
      "step": 1069
    },
    {
      "epoch": 0.023777777777777776,
      "grad_norm": 1.0804810523986816,
      "learning_rate": 0.00019528784174260947,
      "loss": 1.7501,
      "step": 1070
    },
    {
      "epoch": 0.0238,
      "grad_norm": 1.2185988426208496,
      "learning_rate": 0.00019528339631029118,
      "loss": 2.149,
      "step": 1071
    },
    {
      "epoch": 0.023822222222222224,
      "grad_norm": 1.1719928979873657,
      "learning_rate": 0.0001952789508779729,
      "loss": 1.993,
      "step": 1072
    },
    {
      "epoch": 0.023844444444444446,
      "grad_norm": 1.6356178522109985,
      "learning_rate": 0.0001952745054456546,
      "loss": 2.8068,
      "step": 1073
    },
    {
      "epoch": 0.023866666666666668,
      "grad_norm": 1.1543465852737427,
      "learning_rate": 0.0001952700600133363,
      "loss": 2.0547,
      "step": 1074
    },
    {
      "epoch": 0.02388888888888889,
      "grad_norm": 1.1319878101348877,
      "learning_rate": 0.00019526561458101802,
      "loss": 2.0876,
      "step": 1075
    },
    {
      "epoch": 0.023911111111111112,
      "grad_norm": 1.2772685289382935,
      "learning_rate": 0.00019526116914869973,
      "loss": 2.2336,
      "step": 1076
    },
    {
      "epoch": 0.023933333333333334,
      "grad_norm": 0.9529381394386292,
      "learning_rate": 0.0001952567237163814,
      "loss": 1.6518,
      "step": 1077
    },
    {
      "epoch": 0.023955555555555556,
      "grad_norm": 1.26215660572052,
      "learning_rate": 0.00019525227828406315,
      "loss": 2.3245,
      "step": 1078
    },
    {
      "epoch": 0.02397777777777778,
      "grad_norm": 1.1040377616882324,
      "learning_rate": 0.00019524783285174483,
      "loss": 1.9655,
      "step": 1079
    },
    {
      "epoch": 0.024,
      "grad_norm": 1.2873084545135498,
      "learning_rate": 0.00019524338741942654,
      "loss": 2.0115,
      "step": 1080
    },
    {
      "epoch": 0.024022222222222223,
      "grad_norm": 1.0961894989013672,
      "learning_rate": 0.00019523894198710825,
      "loss": 1.806,
      "step": 1081
    },
    {
      "epoch": 0.024044444444444445,
      "grad_norm": 1.0821303129196167,
      "learning_rate": 0.00019523449655478996,
      "loss": 2.027,
      "step": 1082
    },
    {
      "epoch": 0.024066666666666667,
      "grad_norm": 1.16420578956604,
      "learning_rate": 0.0001952300511224717,
      "loss": 2.0187,
      "step": 1083
    },
    {
      "epoch": 0.02408888888888889,
      "grad_norm": 1.0927135944366455,
      "learning_rate": 0.00019522560569015338,
      "loss": 1.5185,
      "step": 1084
    },
    {
      "epoch": 0.02411111111111111,
      "grad_norm": 1.2788599729537964,
      "learning_rate": 0.00019522116025783509,
      "loss": 1.8329,
      "step": 1085
    },
    {
      "epoch": 0.024133333333333333,
      "grad_norm": 0.9920259714126587,
      "learning_rate": 0.0001952167148255168,
      "loss": 0.8753,
      "step": 1086
    },
    {
      "epoch": 0.024155555555555555,
      "grad_norm": 1.2359035015106201,
      "learning_rate": 0.0001952122693931985,
      "loss": 2.3306,
      "step": 1087
    },
    {
      "epoch": 0.024177777777777777,
      "grad_norm": 1.3450963497161865,
      "learning_rate": 0.0001952078239608802,
      "loss": 1.969,
      "step": 1088
    },
    {
      "epoch": 0.0242,
      "grad_norm": 1.2884758710861206,
      "learning_rate": 0.00019520337852856192,
      "loss": 1.687,
      "step": 1089
    },
    {
      "epoch": 0.02422222222222222,
      "grad_norm": 1.1487677097320557,
      "learning_rate": 0.0001951989330962436,
      "loss": 1.9651,
      "step": 1090
    },
    {
      "epoch": 0.024244444444444443,
      "grad_norm": 1.2130123376846313,
      "learning_rate": 0.00019519448766392532,
      "loss": 2.0887,
      "step": 1091
    },
    {
      "epoch": 0.024266666666666666,
      "grad_norm": 1.3776239156723022,
      "learning_rate": 0.00019519004223160705,
      "loss": 1.8375,
      "step": 1092
    },
    {
      "epoch": 0.024288888888888888,
      "grad_norm": 1.2455872297286987,
      "learning_rate": 0.00019518559679928874,
      "loss": 1.9519,
      "step": 1093
    },
    {
      "epoch": 0.02431111111111111,
      "grad_norm": 1.3093212842941284,
      "learning_rate": 0.00019518115136697044,
      "loss": 2.0387,
      "step": 1094
    },
    {
      "epoch": 0.024333333333333332,
      "grad_norm": 1.227171778678894,
      "learning_rate": 0.00019517670593465215,
      "loss": 1.9908,
      "step": 1095
    },
    {
      "epoch": 0.024355555555555554,
      "grad_norm": 1.207175374031067,
      "learning_rate": 0.00019517226050233386,
      "loss": 1.8354,
      "step": 1096
    },
    {
      "epoch": 0.02437777777777778,
      "grad_norm": 1.1748722791671753,
      "learning_rate": 0.00019516781507001555,
      "loss": 1.6467,
      "step": 1097
    },
    {
      "epoch": 0.0244,
      "grad_norm": 1.3979183435440063,
      "learning_rate": 0.00019516336963769728,
      "loss": 1.6041,
      "step": 1098
    },
    {
      "epoch": 0.024422222222222224,
      "grad_norm": 1.6925382614135742,
      "learning_rate": 0.00019515892420537897,
      "loss": 0.7031,
      "step": 1099
    },
    {
      "epoch": 0.024444444444444446,
      "grad_norm": 1.2615066766738892,
      "learning_rate": 0.0001951544787730607,
      "loss": 1.1416,
      "step": 1100
    },
    {
      "epoch": 0.024466666666666668,
      "grad_norm": 1.1813077926635742,
      "learning_rate": 0.0001951500333407424,
      "loss": 1.403,
      "step": 1101
    },
    {
      "epoch": 0.02448888888888889,
      "grad_norm": 1.0336699485778809,
      "learning_rate": 0.0001951455879084241,
      "loss": 2.6675,
      "step": 1102
    },
    {
      "epoch": 0.024511111111111112,
      "grad_norm": 1.214032769203186,
      "learning_rate": 0.00019514114247610583,
      "loss": 1.8028,
      "step": 1103
    },
    {
      "epoch": 0.024533333333333334,
      "grad_norm": 0.963882327079773,
      "learning_rate": 0.00019513669704378751,
      "loss": 1.9305,
      "step": 1104
    },
    {
      "epoch": 0.024555555555555556,
      "grad_norm": 1.1044516563415527,
      "learning_rate": 0.00019513225161146922,
      "loss": 2.3171,
      "step": 1105
    },
    {
      "epoch": 0.024577777777777778,
      "grad_norm": 0.985139012336731,
      "learning_rate": 0.00019512780617915093,
      "loss": 2.2231,
      "step": 1106
    },
    {
      "epoch": 0.0246,
      "grad_norm": 0.9848358631134033,
      "learning_rate": 0.00019512336074683264,
      "loss": 2.3816,
      "step": 1107
    },
    {
      "epoch": 0.024622222222222222,
      "grad_norm": 0.980165421962738,
      "learning_rate": 0.00019511891531451435,
      "loss": 2.2091,
      "step": 1108
    },
    {
      "epoch": 0.024644444444444445,
      "grad_norm": 1.1980235576629639,
      "learning_rate": 0.00019511446988219606,
      "loss": 2.369,
      "step": 1109
    },
    {
      "epoch": 0.024666666666666667,
      "grad_norm": 1.3036571741104126,
      "learning_rate": 0.00019511002444987777,
      "loss": 2.2841,
      "step": 1110
    },
    {
      "epoch": 0.02468888888888889,
      "grad_norm": 1.1008864641189575,
      "learning_rate": 0.00019510557901755945,
      "loss": 2.2994,
      "step": 1111
    },
    {
      "epoch": 0.02471111111111111,
      "grad_norm": 1.2121913433074951,
      "learning_rate": 0.0001951011335852412,
      "loss": 2.4577,
      "step": 1112
    },
    {
      "epoch": 0.024733333333333333,
      "grad_norm": 1.0463905334472656,
      "learning_rate": 0.00019509668815292287,
      "loss": 2.0624,
      "step": 1113
    },
    {
      "epoch": 0.024755555555555555,
      "grad_norm": 1.2892800569534302,
      "learning_rate": 0.00019509224272060458,
      "loss": 2.353,
      "step": 1114
    },
    {
      "epoch": 0.024777777777777777,
      "grad_norm": 1.0605815649032593,
      "learning_rate": 0.0001950877972882863,
      "loss": 2.1136,
      "step": 1115
    },
    {
      "epoch": 0.0248,
      "grad_norm": 1.5927958488464355,
      "learning_rate": 0.000195083351855968,
      "loss": 1.126,
      "step": 1116
    },
    {
      "epoch": 0.02482222222222222,
      "grad_norm": 1.2583246231079102,
      "learning_rate": 0.0001950789064236497,
      "loss": 2.3797,
      "step": 1117
    },
    {
      "epoch": 0.024844444444444443,
      "grad_norm": 1.2638978958129883,
      "learning_rate": 0.00019507446099133142,
      "loss": 2.0774,
      "step": 1118
    },
    {
      "epoch": 0.024866666666666665,
      "grad_norm": 1.0343905687332153,
      "learning_rate": 0.00019507001555901313,
      "loss": 1.9243,
      "step": 1119
    },
    {
      "epoch": 0.024888888888888887,
      "grad_norm": 1.281557321548462,
      "learning_rate": 0.00019506557012669484,
      "loss": 2.2395,
      "step": 1120
    },
    {
      "epoch": 0.02491111111111111,
      "grad_norm": 1.052554726600647,
      "learning_rate": 0.00019506112469437655,
      "loss": 2.0102,
      "step": 1121
    },
    {
      "epoch": 0.02493333333333333,
      "grad_norm": 1.2490876913070679,
      "learning_rate": 0.00019505667926205823,
      "loss": 2.4319,
      "step": 1122
    },
    {
      "epoch": 0.024955555555555557,
      "grad_norm": 1.3211621046066284,
      "learning_rate": 0.00019505223382973997,
      "loss": 2.3475,
      "step": 1123
    },
    {
      "epoch": 0.02497777777777778,
      "grad_norm": 0.9402294754981995,
      "learning_rate": 0.00019504778839742165,
      "loss": 1.7655,
      "step": 1124
    },
    {
      "epoch": 0.025,
      "grad_norm": 1.2580010890960693,
      "learning_rate": 0.00019504334296510336,
      "loss": 2.4544,
      "step": 1125
    },
    {
      "epoch": 0.025022222222222223,
      "grad_norm": 1.1899590492248535,
      "learning_rate": 0.00019503889753278507,
      "loss": 2.1395,
      "step": 1126
    },
    {
      "epoch": 0.025044444444444446,
      "grad_norm": 1.2790266275405884,
      "learning_rate": 0.00019503445210046678,
      "loss": 2.4838,
      "step": 1127
    },
    {
      "epoch": 0.025066666666666668,
      "grad_norm": 1.245686650276184,
      "learning_rate": 0.0001950300066681485,
      "loss": 2.0529,
      "step": 1128
    },
    {
      "epoch": 0.02508888888888889,
      "grad_norm": 1.2443344593048096,
      "learning_rate": 0.0001950255612358302,
      "loss": 2.2989,
      "step": 1129
    },
    {
      "epoch": 0.025111111111111112,
      "grad_norm": 1.1254640817642212,
      "learning_rate": 0.0001950211158035119,
      "loss": 1.0433,
      "step": 1130
    },
    {
      "epoch": 0.025133333333333334,
      "grad_norm": 1.1890602111816406,
      "learning_rate": 0.0001950166703711936,
      "loss": 1.9323,
      "step": 1131
    },
    {
      "epoch": 0.025155555555555556,
      "grad_norm": 1.330928921699524,
      "learning_rate": 0.00019501222493887533,
      "loss": 2.1855,
      "step": 1132
    },
    {
      "epoch": 0.025177777777777778,
      "grad_norm": 1.2115062475204468,
      "learning_rate": 0.000195007779506557,
      "loss": 2.4286,
      "step": 1133
    },
    {
      "epoch": 0.0252,
      "grad_norm": 1.2747929096221924,
      "learning_rate": 0.00019500333407423872,
      "loss": 2.3222,
      "step": 1134
    },
    {
      "epoch": 0.025222222222222222,
      "grad_norm": 1.1796200275421143,
      "learning_rate": 0.00019499888864192043,
      "loss": 1.74,
      "step": 1135
    },
    {
      "epoch": 0.025244444444444444,
      "grad_norm": 1.188921332359314,
      "learning_rate": 0.00019499444320960214,
      "loss": 1.9163,
      "step": 1136
    },
    {
      "epoch": 0.025266666666666666,
      "grad_norm": 1.1332416534423828,
      "learning_rate": 0.00019498999777728385,
      "loss": 2.3866,
      "step": 1137
    },
    {
      "epoch": 0.02528888888888889,
      "grad_norm": 1.1673275232315063,
      "learning_rate": 0.00019498555234496556,
      "loss": 1.9911,
      "step": 1138
    },
    {
      "epoch": 0.02531111111111111,
      "grad_norm": 1.134661078453064,
      "learning_rate": 0.00019498110691264727,
      "loss": 2.1997,
      "step": 1139
    },
    {
      "epoch": 0.025333333333333333,
      "grad_norm": 1.2574539184570312,
      "learning_rate": 0.00019497666148032898,
      "loss": 1.9596,
      "step": 1140
    },
    {
      "epoch": 0.025355555555555555,
      "grad_norm": 1.228989601135254,
      "learning_rate": 0.0001949722160480107,
      "loss": 2.1093,
      "step": 1141
    },
    {
      "epoch": 0.025377777777777777,
      "grad_norm": 1.3804113864898682,
      "learning_rate": 0.00019496777061569237,
      "loss": 1.8141,
      "step": 1142
    },
    {
      "epoch": 0.0254,
      "grad_norm": 1.1694203615188599,
      "learning_rate": 0.0001949633251833741,
      "loss": 1.8447,
      "step": 1143
    },
    {
      "epoch": 0.02542222222222222,
      "grad_norm": 1.310980200767517,
      "learning_rate": 0.0001949588797510558,
      "loss": 1.9746,
      "step": 1144
    },
    {
      "epoch": 0.025444444444444443,
      "grad_norm": 1.3951598405838013,
      "learning_rate": 0.0001949544343187375,
      "loss": 1.2972,
      "step": 1145
    },
    {
      "epoch": 0.025466666666666665,
      "grad_norm": 1.416224718093872,
      "learning_rate": 0.0001949499888864192,
      "loss": 2.1878,
      "step": 1146
    },
    {
      "epoch": 0.025488888888888887,
      "grad_norm": 1.3105324506759644,
      "learning_rate": 0.00019494554345410092,
      "loss": 1.8619,
      "step": 1147
    },
    {
      "epoch": 0.02551111111111111,
      "grad_norm": 1.3476706743240356,
      "learning_rate": 0.00019494109802178263,
      "loss": 1.8611,
      "step": 1148
    },
    {
      "epoch": 0.025533333333333335,
      "grad_norm": 1.3699945211410522,
      "learning_rate": 0.00019493665258946434,
      "loss": 1.6287,
      "step": 1149
    },
    {
      "epoch": 0.025555555555555557,
      "grad_norm": 1.2437164783477783,
      "learning_rate": 0.00019493220715714605,
      "loss": 0.8335,
      "step": 1150
    },
    {
      "epoch": 0.02557777777777778,
      "grad_norm": 1.1608917713165283,
      "learning_rate": 0.00019492776172482773,
      "loss": 2.7488,
      "step": 1151
    },
    {
      "epoch": 0.0256,
      "grad_norm": 1.418111801147461,
      "learning_rate": 0.00019492331629250947,
      "loss": 1.6998,
      "step": 1152
    },
    {
      "epoch": 0.025622222222222223,
      "grad_norm": 1.16179621219635,
      "learning_rate": 0.00019491887086019115,
      "loss": 2.8624,
      "step": 1153
    },
    {
      "epoch": 0.025644444444444445,
      "grad_norm": 1.1213630437850952,
      "learning_rate": 0.00019491442542787286,
      "loss": 2.5019,
      "step": 1154
    },
    {
      "epoch": 0.025666666666666667,
      "grad_norm": 1.0603446960449219,
      "learning_rate": 0.00019490997999555457,
      "loss": 2.2936,
      "step": 1155
    },
    {
      "epoch": 0.02568888888888889,
      "grad_norm": 1.340588927268982,
      "learning_rate": 0.00019490553456323628,
      "loss": 2.6255,
      "step": 1156
    },
    {
      "epoch": 0.02571111111111111,
      "grad_norm": 1.236148715019226,
      "learning_rate": 0.00019490108913091802,
      "loss": 3.0501,
      "step": 1157
    },
    {
      "epoch": 0.025733333333333334,
      "grad_norm": 1.0395097732543945,
      "learning_rate": 0.0001948966436985997,
      "loss": 2.1866,
      "step": 1158
    },
    {
      "epoch": 0.025755555555555556,
      "grad_norm": 1.3539642095565796,
      "learning_rate": 0.0001948921982662814,
      "loss": 1.3182,
      "step": 1159
    },
    {
      "epoch": 0.025777777777777778,
      "grad_norm": 1.3083500862121582,
      "learning_rate": 0.00019488775283396312,
      "loss": 2.6018,
      "step": 1160
    },
    {
      "epoch": 0.0258,
      "grad_norm": 1.0796172618865967,
      "learning_rate": 0.00019488330740164483,
      "loss": 2.6513,
      "step": 1161
    },
    {
      "epoch": 0.025822222222222222,
      "grad_norm": 1.2697334289550781,
      "learning_rate": 0.0001948788619693265,
      "loss": 2.2013,
      "step": 1162
    },
    {
      "epoch": 0.025844444444444444,
      "grad_norm": 1.0582184791564941,
      "learning_rate": 0.00019487441653700825,
      "loss": 2.0292,
      "step": 1163
    },
    {
      "epoch": 0.025866666666666666,
      "grad_norm": 1.3058019876480103,
      "learning_rate": 0.00019486997110468993,
      "loss": 2.8424,
      "step": 1164
    },
    {
      "epoch": 0.02588888888888889,
      "grad_norm": 1.2775273323059082,
      "learning_rate": 0.00019486552567237164,
      "loss": 2.2763,
      "step": 1165
    },
    {
      "epoch": 0.02591111111111111,
      "grad_norm": 1.0722092390060425,
      "learning_rate": 0.00019486108024005337,
      "loss": 2.1916,
      "step": 1166
    },
    {
      "epoch": 0.025933333333333333,
      "grad_norm": 1.059139609336853,
      "learning_rate": 0.00019485663480773506,
      "loss": 1.8808,
      "step": 1167
    },
    {
      "epoch": 0.025955555555555555,
      "grad_norm": 1.2093608379364014,
      "learning_rate": 0.00019485218937541677,
      "loss": 1.1219,
      "step": 1168
    },
    {
      "epoch": 0.025977777777777777,
      "grad_norm": 1.1014114618301392,
      "learning_rate": 0.00019484774394309848,
      "loss": 1.9382,
      "step": 1169
    },
    {
      "epoch": 0.026,
      "grad_norm": 1.217060923576355,
      "learning_rate": 0.00019484329851078019,
      "loss": 1.9028,
      "step": 1170
    },
    {
      "epoch": 0.02602222222222222,
      "grad_norm": 1.2138227224349976,
      "learning_rate": 0.00019483885307846187,
      "loss": 1.6307,
      "step": 1171
    },
    {
      "epoch": 0.026044444444444443,
      "grad_norm": 1.1286808252334595,
      "learning_rate": 0.0001948344076461436,
      "loss": 2.0932,
      "step": 1172
    },
    {
      "epoch": 0.026066666666666665,
      "grad_norm": 1.077871322631836,
      "learning_rate": 0.0001948299622138253,
      "loss": 2.1862,
      "step": 1173
    },
    {
      "epoch": 0.026088888888888887,
      "grad_norm": 1.0957635641098022,
      "learning_rate": 0.000194825516781507,
      "loss": 2.355,
      "step": 1174
    },
    {
      "epoch": 0.026111111111111113,
      "grad_norm": 1.175184726715088,
      "learning_rate": 0.00019482107134918873,
      "loss": 2.2048,
      "step": 1175
    },
    {
      "epoch": 0.026133333333333335,
      "grad_norm": 1.0757033824920654,
      "learning_rate": 0.00019481662591687042,
      "loss": 1.9491,
      "step": 1176
    },
    {
      "epoch": 0.026155555555555557,
      "grad_norm": 1.245074987411499,
      "learning_rate": 0.00019481218048455215,
      "loss": 2.4058,
      "step": 1177
    },
    {
      "epoch": 0.02617777777777778,
      "grad_norm": 1.2693395614624023,
      "learning_rate": 0.00019480773505223384,
      "loss": 1.8193,
      "step": 1178
    },
    {
      "epoch": 0.0262,
      "grad_norm": 3.4802279472351074,
      "learning_rate": 0.00019480328961991555,
      "loss": 2.3058,
      "step": 1179
    },
    {
      "epoch": 0.026222222222222223,
      "grad_norm": 1.3163621425628662,
      "learning_rate": 0.00019479884418759726,
      "loss": 1.9709,
      "step": 1180
    },
    {
      "epoch": 0.026244444444444445,
      "grad_norm": 1.238189697265625,
      "learning_rate": 0.00019479439875527896,
      "loss": 2.1445,
      "step": 1181
    },
    {
      "epoch": 0.026266666666666667,
      "grad_norm": 1.2765611410140991,
      "learning_rate": 0.00019478995332296067,
      "loss": 2.4536,
      "step": 1182
    },
    {
      "epoch": 0.02628888888888889,
      "grad_norm": 1.5361064672470093,
      "learning_rate": 0.00019478550789064238,
      "loss": 2.2518,
      "step": 1183
    },
    {
      "epoch": 0.02631111111111111,
      "grad_norm": 1.3082013130187988,
      "learning_rate": 0.0001947810624583241,
      "loss": 2.1818,
      "step": 1184
    },
    {
      "epoch": 0.026333333333333334,
      "grad_norm": 1.2827892303466797,
      "learning_rate": 0.00019477661702600578,
      "loss": 2.4141,
      "step": 1185
    },
    {
      "epoch": 0.026355555555555556,
      "grad_norm": 1.220987319946289,
      "learning_rate": 0.0001947721715936875,
      "loss": 1.9836,
      "step": 1186
    },
    {
      "epoch": 0.026377777777777778,
      "grad_norm": 1.1629095077514648,
      "learning_rate": 0.0001947677261613692,
      "loss": 1.8445,
      "step": 1187
    },
    {
      "epoch": 0.0264,
      "grad_norm": 1.3694647550582886,
      "learning_rate": 0.0001947632807290509,
      "loss": 2.7007,
      "step": 1188
    },
    {
      "epoch": 0.026422222222222222,
      "grad_norm": 1.1854382753372192,
      "learning_rate": 0.00019475883529673261,
      "loss": 1.6938,
      "step": 1189
    },
    {
      "epoch": 0.026444444444444444,
      "grad_norm": 1.101824402809143,
      "learning_rate": 0.00019475438986441432,
      "loss": 1.7714,
      "step": 1190
    },
    {
      "epoch": 0.026466666666666666,
      "grad_norm": 1.2787611484527588,
      "learning_rate": 0.00019474994443209603,
      "loss": 2.2184,
      "step": 1191
    },
    {
      "epoch": 0.026488888888888888,
      "grad_norm": 1.3073357343673706,
      "learning_rate": 0.00019474549899977774,
      "loss": 1.6379,
      "step": 1192
    },
    {
      "epoch": 0.02651111111111111,
      "grad_norm": 1.2038830518722534,
      "learning_rate": 0.00019474105356745945,
      "loss": 1.8835,
      "step": 1193
    },
    {
      "epoch": 0.026533333333333332,
      "grad_norm": 1.2815767526626587,
      "learning_rate": 0.00019473660813514114,
      "loss": 1.9622,
      "step": 1194
    },
    {
      "epoch": 0.026555555555555554,
      "grad_norm": 1.0407130718231201,
      "learning_rate": 0.00019473216270282287,
      "loss": 1.5951,
      "step": 1195
    },
    {
      "epoch": 0.026577777777777777,
      "grad_norm": 1.453759789466858,
      "learning_rate": 0.00019472771727050455,
      "loss": 1.038,
      "step": 1196
    },
    {
      "epoch": 0.0266,
      "grad_norm": 1.2668274641036987,
      "learning_rate": 0.0001947232718381863,
      "loss": 1.9063,
      "step": 1197
    },
    {
      "epoch": 0.02662222222222222,
      "grad_norm": 1.4073950052261353,
      "learning_rate": 0.00019471882640586797,
      "loss": 2.1085,
      "step": 1198
    },
    {
      "epoch": 0.026644444444444443,
      "grad_norm": 1.3361334800720215,
      "learning_rate": 0.00019471438097354968,
      "loss": 1.3393,
      "step": 1199
    },
    {
      "epoch": 0.02666666666666667,
      "grad_norm": 0.722981333732605,
      "learning_rate": 0.0001947099355412314,
      "loss": 0.0912,
      "step": 1200
    },
    {
      "epoch": 0.02668888888888889,
      "grad_norm": 0.9477525949478149,
      "learning_rate": 0.0001947054901089131,
      "loss": 2.5653,
      "step": 1201
    },
    {
      "epoch": 0.026711111111111113,
      "grad_norm": 1.0072487592697144,
      "learning_rate": 0.0001947010446765948,
      "loss": 2.4661,
      "step": 1202
    },
    {
      "epoch": 0.026733333333333335,
      "grad_norm": 1.0508699417114258,
      "learning_rate": 0.00019469659924427652,
      "loss": 1.3733,
      "step": 1203
    },
    {
      "epoch": 0.026755555555555557,
      "grad_norm": 1.0274931192398071,
      "learning_rate": 0.00019469215381195823,
      "loss": 2.2663,
      "step": 1204
    },
    {
      "epoch": 0.02677777777777778,
      "grad_norm": 0.8572414517402649,
      "learning_rate": 0.00019468770837963991,
      "loss": 2.1395,
      "step": 1205
    },
    {
      "epoch": 0.0268,
      "grad_norm": 1.1803396940231323,
      "learning_rate": 0.00019468326294732165,
      "loss": 2.0215,
      "step": 1206
    },
    {
      "epoch": 0.026822222222222223,
      "grad_norm": 1.150394082069397,
      "learning_rate": 0.00019467881751500333,
      "loss": 2.0467,
      "step": 1207
    },
    {
      "epoch": 0.026844444444444445,
      "grad_norm": 1.0651057958602905,
      "learning_rate": 0.00019467437208268504,
      "loss": 2.5328,
      "step": 1208
    },
    {
      "epoch": 0.026866666666666667,
      "grad_norm": 1.0690408945083618,
      "learning_rate": 0.00019466992665036675,
      "loss": 2.4902,
      "step": 1209
    },
    {
      "epoch": 0.02688888888888889,
      "grad_norm": 1.0403834581375122,
      "learning_rate": 0.00019466548121804846,
      "loss": 2.024,
      "step": 1210
    },
    {
      "epoch": 0.02691111111111111,
      "grad_norm": 1.1264804601669312,
      "learning_rate": 0.00019466103578573017,
      "loss": 2.1916,
      "step": 1211
    },
    {
      "epoch": 0.026933333333333333,
      "grad_norm": 1.1276426315307617,
      "learning_rate": 0.00019465659035341188,
      "loss": 1.9421,
      "step": 1212
    },
    {
      "epoch": 0.026955555555555556,
      "grad_norm": 1.0314738750457764,
      "learning_rate": 0.0001946521449210936,
      "loss": 2.1186,
      "step": 1213
    },
    {
      "epoch": 0.026977777777777778,
      "grad_norm": 1.1098157167434692,
      "learning_rate": 0.0001946476994887753,
      "loss": 2.3507,
      "step": 1214
    },
    {
      "epoch": 0.027,
      "grad_norm": 1.0965838432312012,
      "learning_rate": 0.000194643254056457,
      "loss": 2.2288,
      "step": 1215
    },
    {
      "epoch": 0.027022222222222222,
      "grad_norm": 1.1094284057617188,
      "learning_rate": 0.0001946388086241387,
      "loss": 1.9247,
      "step": 1216
    },
    {
      "epoch": 0.027044444444444444,
      "grad_norm": 1.1005126237869263,
      "learning_rate": 0.00019463436319182043,
      "loss": 2.0896,
      "step": 1217
    },
    {
      "epoch": 0.027066666666666666,
      "grad_norm": 1.2850568294525146,
      "learning_rate": 0.0001946299177595021,
      "loss": 2.2682,
      "step": 1218
    },
    {
      "epoch": 0.027088888888888888,
      "grad_norm": 1.1261446475982666,
      "learning_rate": 0.00019462547232718382,
      "loss": 2.4721,
      "step": 1219
    },
    {
      "epoch": 0.02711111111111111,
      "grad_norm": 1.5027034282684326,
      "learning_rate": 0.00019462102689486553,
      "loss": 2.1297,
      "step": 1220
    },
    {
      "epoch": 0.027133333333333332,
      "grad_norm": 1.2198916673660278,
      "learning_rate": 0.00019461658146254724,
      "loss": 2.3307,
      "step": 1221
    },
    {
      "epoch": 0.027155555555555554,
      "grad_norm": 1.075852394104004,
      "learning_rate": 0.00019461213603022895,
      "loss": 2.0701,
      "step": 1222
    },
    {
      "epoch": 0.027177777777777776,
      "grad_norm": 1.1298670768737793,
      "learning_rate": 0.00019460769059791066,
      "loss": 1.991,
      "step": 1223
    },
    {
      "epoch": 0.0272,
      "grad_norm": 1.411704421043396,
      "learning_rate": 0.00019460324516559237,
      "loss": 2.2112,
      "step": 1224
    },
    {
      "epoch": 0.02722222222222222,
      "grad_norm": 1.1783915758132935,
      "learning_rate": 0.00019459879973327405,
      "loss": 2.4095,
      "step": 1225
    },
    {
      "epoch": 0.027244444444444446,
      "grad_norm": 1.1365594863891602,
      "learning_rate": 0.0001945943543009558,
      "loss": 2.2751,
      "step": 1226
    },
    {
      "epoch": 0.027266666666666668,
      "grad_norm": 1.2395154237747192,
      "learning_rate": 0.00019458990886863747,
      "loss": 2.1341,
      "step": 1227
    },
    {
      "epoch": 0.02728888888888889,
      "grad_norm": 1.252860188484192,
      "learning_rate": 0.00019458546343631918,
      "loss": 2.3777,
      "step": 1228
    },
    {
      "epoch": 0.027311111111111112,
      "grad_norm": 1.1773203611373901,
      "learning_rate": 0.0001945810180040009,
      "loss": 2.0601,
      "step": 1229
    },
    {
      "epoch": 0.027333333333333334,
      "grad_norm": 1.3787094354629517,
      "learning_rate": 0.0001945765725716826,
      "loss": 2.1147,
      "step": 1230
    },
    {
      "epoch": 0.027355555555555557,
      "grad_norm": 1.217552900314331,
      "learning_rate": 0.0001945721271393643,
      "loss": 2.2812,
      "step": 1231
    },
    {
      "epoch": 0.02737777777777778,
      "grad_norm": 1.1576565504074097,
      "learning_rate": 0.00019456768170704602,
      "loss": 2.1256,
      "step": 1232
    },
    {
      "epoch": 0.0274,
      "grad_norm": 1.292887806892395,
      "learning_rate": 0.00019456323627472773,
      "loss": 0.8771,
      "step": 1233
    },
    {
      "epoch": 0.027422222222222223,
      "grad_norm": 1.1745291948318481,
      "learning_rate": 0.00019455879084240944,
      "loss": 2.2621,
      "step": 1234
    },
    {
      "epoch": 0.027444444444444445,
      "grad_norm": 1.247001051902771,
      "learning_rate": 0.00019455434541009115,
      "loss": 2.1468,
      "step": 1235
    },
    {
      "epoch": 0.027466666666666667,
      "grad_norm": 1.190625786781311,
      "learning_rate": 0.00019454989997777283,
      "loss": 2.0587,
      "step": 1236
    },
    {
      "epoch": 0.02748888888888889,
      "grad_norm": 1.2214797735214233,
      "learning_rate": 0.00019454545454545457,
      "loss": 1.781,
      "step": 1237
    },
    {
      "epoch": 0.02751111111111111,
      "grad_norm": 1.5960838794708252,
      "learning_rate": 0.00019454100911313625,
      "loss": 1.8179,
      "step": 1238
    },
    {
      "epoch": 0.027533333333333333,
      "grad_norm": 1.4947317838668823,
      "learning_rate": 0.00019453656368081796,
      "loss": 2.188,
      "step": 1239
    },
    {
      "epoch": 0.027555555555555555,
      "grad_norm": 1.273147702217102,
      "learning_rate": 0.0001945321182484997,
      "loss": 2.0963,
      "step": 1240
    },
    {
      "epoch": 0.027577777777777777,
      "grad_norm": 1.2269686460494995,
      "learning_rate": 0.00019452767281618138,
      "loss": 1.8463,
      "step": 1241
    },
    {
      "epoch": 0.0276,
      "grad_norm": 1.2647767066955566,
      "learning_rate": 0.0001945232273838631,
      "loss": 1.8809,
      "step": 1242
    },
    {
      "epoch": 0.02762222222222222,
      "grad_norm": 1.1288484334945679,
      "learning_rate": 0.0001945187819515448,
      "loss": 1.906,
      "step": 1243
    },
    {
      "epoch": 0.027644444444444444,
      "grad_norm": 1.302137017250061,
      "learning_rate": 0.0001945143365192265,
      "loss": 2.0066,
      "step": 1244
    },
    {
      "epoch": 0.027666666666666666,
      "grad_norm": 1.2215266227722168,
      "learning_rate": 0.0001945098910869082,
      "loss": 1.9374,
      "step": 1245
    },
    {
      "epoch": 0.027688888888888888,
      "grad_norm": 1.2269611358642578,
      "learning_rate": 0.00019450544565458993,
      "loss": 2.0781,
      "step": 1246
    },
    {
      "epoch": 0.02771111111111111,
      "grad_norm": 1.2925721406936646,
      "learning_rate": 0.0001945010002222716,
      "loss": 1.8259,
      "step": 1247
    },
    {
      "epoch": 0.027733333333333332,
      "grad_norm": 1.4025661945343018,
      "learning_rate": 0.00019449655478995332,
      "loss": 2.0066,
      "step": 1248
    },
    {
      "epoch": 0.027755555555555554,
      "grad_norm": 1.3912101984024048,
      "learning_rate": 0.00019449210935763506,
      "loss": 1.9679,
      "step": 1249
    },
    {
      "epoch": 0.027777777777777776,
      "grad_norm": 1.420652985572815,
      "learning_rate": 0.00019448766392531674,
      "loss": 1.7046,
      "step": 1250
    },
    {
      "epoch": 0.0278,
      "grad_norm": 0.873573362827301,
      "learning_rate": 0.00019448321849299845,
      "loss": 2.1924,
      "step": 1251
    },
    {
      "epoch": 0.027822222222222224,
      "grad_norm": 1.0372943878173828,
      "learning_rate": 0.00019447877306068016,
      "loss": 2.2954,
      "step": 1252
    },
    {
      "epoch": 0.027844444444444446,
      "grad_norm": 1.1162431240081787,
      "learning_rate": 0.00019447432762836187,
      "loss": 2.8007,
      "step": 1253
    },
    {
      "epoch": 0.027866666666666668,
      "grad_norm": 0.9934016466140747,
      "learning_rate": 0.00019446988219604358,
      "loss": 2.2842,
      "step": 1254
    },
    {
      "epoch": 0.02788888888888889,
      "grad_norm": 1.0474344491958618,
      "learning_rate": 0.0001944654367637253,
      "loss": 2.2648,
      "step": 1255
    },
    {
      "epoch": 0.027911111111111112,
      "grad_norm": 0.996784508228302,
      "learning_rate": 0.000194460991331407,
      "loss": 2.2121,
      "step": 1256
    },
    {
      "epoch": 0.027933333333333334,
      "grad_norm": 1.0645532608032227,
      "learning_rate": 0.0001944565458990887,
      "loss": 2.2929,
      "step": 1257
    },
    {
      "epoch": 0.027955555555555556,
      "grad_norm": 0.9318027496337891,
      "learning_rate": 0.00019445210046677042,
      "loss": 1.7996,
      "step": 1258
    },
    {
      "epoch": 0.02797777777777778,
      "grad_norm": 1.061118483543396,
      "learning_rate": 0.0001944476550344521,
      "loss": 2.3344,
      "step": 1259
    },
    {
      "epoch": 0.028,
      "grad_norm": 0.9383622407913208,
      "learning_rate": 0.00019444320960213383,
      "loss": 2.1927,
      "step": 1260
    },
    {
      "epoch": 0.028022222222222223,
      "grad_norm": 1.0568608045578003,
      "learning_rate": 0.00019443876416981552,
      "loss": 2.3142,
      "step": 1261
    },
    {
      "epoch": 0.028044444444444445,
      "grad_norm": 1.0255627632141113,
      "learning_rate": 0.00019443431873749723,
      "loss": 2.3116,
      "step": 1262
    },
    {
      "epoch": 0.028066666666666667,
      "grad_norm": 1.041566014289856,
      "learning_rate": 0.00019442987330517894,
      "loss": 2.3714,
      "step": 1263
    },
    {
      "epoch": 0.02808888888888889,
      "grad_norm": 0.9897044897079468,
      "learning_rate": 0.00019442542787286065,
      "loss": 1.7907,
      "step": 1264
    },
    {
      "epoch": 0.02811111111111111,
      "grad_norm": 1.1739486455917358,
      "learning_rate": 0.00019442098244054236,
      "loss": 2.2275,
      "step": 1265
    },
    {
      "epoch": 0.028133333333333333,
      "grad_norm": 1.1079760789871216,
      "learning_rate": 0.00019441653700822407,
      "loss": 1.8037,
      "step": 1266
    },
    {
      "epoch": 0.028155555555555555,
      "grad_norm": 1.1482577323913574,
      "learning_rate": 0.00019441209157590578,
      "loss": 2.6314,
      "step": 1267
    },
    {
      "epoch": 0.028177777777777777,
      "grad_norm": 1.2702312469482422,
      "learning_rate": 0.00019440764614358746,
      "loss": 2.4174,
      "step": 1268
    },
    {
      "epoch": 0.0282,
      "grad_norm": 1.071201205253601,
      "learning_rate": 0.0001944032007112692,
      "loss": 2.1592,
      "step": 1269
    },
    {
      "epoch": 0.02822222222222222,
      "grad_norm": 1.2168118953704834,
      "learning_rate": 0.00019439875527895088,
      "loss": 1.3144,
      "step": 1270
    },
    {
      "epoch": 0.028244444444444444,
      "grad_norm": 0.9309527277946472,
      "learning_rate": 0.00019439430984663261,
      "loss": 0.9456,
      "step": 1271
    },
    {
      "epoch": 0.028266666666666666,
      "grad_norm": 1.0577387809753418,
      "learning_rate": 0.0001943898644143143,
      "loss": 1.7066,
      "step": 1272
    },
    {
      "epoch": 0.028288888888888888,
      "grad_norm": 1.4418216943740845,
      "learning_rate": 0.000194385418981996,
      "loss": 1.0888,
      "step": 1273
    },
    {
      "epoch": 0.02831111111111111,
      "grad_norm": 1.1914469003677368,
      "learning_rate": 0.00019438097354967772,
      "loss": 2.3328,
      "step": 1274
    },
    {
      "epoch": 0.028333333333333332,
      "grad_norm": 1.2854276895523071,
      "learning_rate": 0.00019437652811735942,
      "loss": 2.004,
      "step": 1275
    },
    {
      "epoch": 0.028355555555555554,
      "grad_norm": 1.3212635517120361,
      "learning_rate": 0.00019437208268504113,
      "loss": 2.2386,
      "step": 1276
    },
    {
      "epoch": 0.028377777777777776,
      "grad_norm": 1.329047441482544,
      "learning_rate": 0.00019436763725272284,
      "loss": 2.1721,
      "step": 1277
    },
    {
      "epoch": 0.0284,
      "grad_norm": 1.1866283416748047,
      "learning_rate": 0.00019436319182040455,
      "loss": 1.9114,
      "step": 1278
    },
    {
      "epoch": 0.028422222222222224,
      "grad_norm": 1.1386148929595947,
      "learning_rate": 0.00019435874638808624,
      "loss": 2.1556,
      "step": 1279
    },
    {
      "epoch": 0.028444444444444446,
      "grad_norm": 1.3197382688522339,
      "learning_rate": 0.00019435430095576797,
      "loss": 2.1826,
      "step": 1280
    },
    {
      "epoch": 0.028466666666666668,
      "grad_norm": 1.2695705890655518,
      "learning_rate": 0.00019434985552344966,
      "loss": 2.3299,
      "step": 1281
    },
    {
      "epoch": 0.02848888888888889,
      "grad_norm": 1.1248879432678223,
      "learning_rate": 0.00019434541009113137,
      "loss": 1.991,
      "step": 1282
    },
    {
      "epoch": 0.028511111111111112,
      "grad_norm": 1.207562804222107,
      "learning_rate": 0.00019434096465881307,
      "loss": 1.9923,
      "step": 1283
    },
    {
      "epoch": 0.028533333333333334,
      "grad_norm": 1.2124333381652832,
      "learning_rate": 0.00019433651922649478,
      "loss": 1.8989,
      "step": 1284
    },
    {
      "epoch": 0.028555555555555556,
      "grad_norm": 1.1476439237594604,
      "learning_rate": 0.0001943320737941765,
      "loss": 2.1744,
      "step": 1285
    },
    {
      "epoch": 0.02857777777777778,
      "grad_norm": 1.2253168821334839,
      "learning_rate": 0.0001943276283618582,
      "loss": 1.6782,
      "step": 1286
    },
    {
      "epoch": 0.0286,
      "grad_norm": 1.1378833055496216,
      "learning_rate": 0.0001943231829295399,
      "loss": 1.8959,
      "step": 1287
    },
    {
      "epoch": 0.028622222222222223,
      "grad_norm": 1.2446284294128418,
      "learning_rate": 0.0001943187374972216,
      "loss": 1.6362,
      "step": 1288
    },
    {
      "epoch": 0.028644444444444445,
      "grad_norm": 1.1923396587371826,
      "learning_rate": 0.00019431429206490333,
      "loss": 1.9344,
      "step": 1289
    },
    {
      "epoch": 0.028666666666666667,
      "grad_norm": 1.3250138759613037,
      "learning_rate": 0.00019430984663258502,
      "loss": 2.1485,
      "step": 1290
    },
    {
      "epoch": 0.02868888888888889,
      "grad_norm": 1.3882908821105957,
      "learning_rate": 0.00019430540120026675,
      "loss": 2.0631,
      "step": 1291
    },
    {
      "epoch": 0.02871111111111111,
      "grad_norm": 1.109960675239563,
      "learning_rate": 0.00019430095576794843,
      "loss": 1.7864,
      "step": 1292
    },
    {
      "epoch": 0.028733333333333333,
      "grad_norm": 1.1570818424224854,
      "learning_rate": 0.00019429651033563014,
      "loss": 1.874,
      "step": 1293
    },
    {
      "epoch": 0.028755555555555555,
      "grad_norm": 1.2383424043655396,
      "learning_rate": 0.00019429206490331185,
      "loss": 1.7137,
      "step": 1294
    },
    {
      "epoch": 0.028777777777777777,
      "grad_norm": 1.4392592906951904,
      "learning_rate": 0.00019428761947099356,
      "loss": 2.069,
      "step": 1295
    },
    {
      "epoch": 0.0288,
      "grad_norm": 1.1795039176940918,
      "learning_rate": 0.00019428317403867527,
      "loss": 1.9236,
      "step": 1296
    },
    {
      "epoch": 0.02882222222222222,
      "grad_norm": 1.4787060022354126,
      "learning_rate": 0.00019427872860635698,
      "loss": 1.7577,
      "step": 1297
    },
    {
      "epoch": 0.028844444444444443,
      "grad_norm": 1.6893764734268188,
      "learning_rate": 0.0001942742831740387,
      "loss": 1.1434,
      "step": 1298
    },
    {
      "epoch": 0.028866666666666665,
      "grad_norm": 1.3988735675811768,
      "learning_rate": 0.00019426983774172037,
      "loss": 2.3227,
      "step": 1299
    },
    {
      "epoch": 0.028888888888888888,
      "grad_norm": 1.283385992050171,
      "learning_rate": 0.0001942653923094021,
      "loss": 1.8439,
      "step": 1300
    },
    {
      "epoch": 0.02891111111111111,
      "grad_norm": 1.0307422876358032,
      "learning_rate": 0.0001942609468770838,
      "loss": 2.5915,
      "step": 1301
    },
    {
      "epoch": 0.028933333333333332,
      "grad_norm": 0.9281454086303711,
      "learning_rate": 0.0001942565014447655,
      "loss": 2.0899,
      "step": 1302
    },
    {
      "epoch": 0.028955555555555554,
      "grad_norm": 1.477432370185852,
      "learning_rate": 0.0001942520560124472,
      "loss": 1.8982,
      "step": 1303
    },
    {
      "epoch": 0.02897777777777778,
      "grad_norm": 1.2103277444839478,
      "learning_rate": 0.00019424761058012892,
      "loss": 2.3121,
      "step": 1304
    },
    {
      "epoch": 0.029,
      "grad_norm": 1.067357063293457,
      "learning_rate": 0.00019424316514781063,
      "loss": 2.3956,
      "step": 1305
    },
    {
      "epoch": 0.029022222222222224,
      "grad_norm": 1.192233681678772,
      "learning_rate": 0.00019423871971549234,
      "loss": 2.455,
      "step": 1306
    },
    {
      "epoch": 0.029044444444444446,
      "grad_norm": 0.9351183176040649,
      "learning_rate": 0.00019423427428317405,
      "loss": 2.0264,
      "step": 1307
    },
    {
      "epoch": 0.029066666666666668,
      "grad_norm": 1.0555620193481445,
      "learning_rate": 0.00019422982885085573,
      "loss": 2.33,
      "step": 1308
    },
    {
      "epoch": 0.02908888888888889,
      "grad_norm": 1.138730764389038,
      "learning_rate": 0.00019422538341853747,
      "loss": 2.3118,
      "step": 1309
    },
    {
      "epoch": 0.029111111111111112,
      "grad_norm": 1.0002659559249878,
      "learning_rate": 0.00019422093798621915,
      "loss": 2.0643,
      "step": 1310
    },
    {
      "epoch": 0.029133333333333334,
      "grad_norm": 1.4970694780349731,
      "learning_rate": 0.0001942164925539009,
      "loss": 2.5997,
      "step": 1311
    },
    {
      "epoch": 0.029155555555555556,
      "grad_norm": 1.0206420421600342,
      "learning_rate": 0.00019421204712158257,
      "loss": 1.9943,
      "step": 1312
    },
    {
      "epoch": 0.029177777777777778,
      "grad_norm": 1.2522320747375488,
      "learning_rate": 0.00019420760168926428,
      "loss": 1.8723,
      "step": 1313
    },
    {
      "epoch": 0.0292,
      "grad_norm": 1.070694088935852,
      "learning_rate": 0.00019420315625694602,
      "loss": 1.824,
      "step": 1314
    },
    {
      "epoch": 0.029222222222222222,
      "grad_norm": 1.1262892484664917,
      "learning_rate": 0.0001941987108246277,
      "loss": 2.2919,
      "step": 1315
    },
    {
      "epoch": 0.029244444444444444,
      "grad_norm": 1.1852346658706665,
      "learning_rate": 0.0001941942653923094,
      "loss": 2.0717,
      "step": 1316
    },
    {
      "epoch": 0.029266666666666667,
      "grad_norm": 1.2012149095535278,
      "learning_rate": 0.00019418981995999112,
      "loss": 1.5736,
      "step": 1317
    },
    {
      "epoch": 0.02928888888888889,
      "grad_norm": 1.2120734453201294,
      "learning_rate": 0.00019418537452767283,
      "loss": 2.1194,
      "step": 1318
    },
    {
      "epoch": 0.02931111111111111,
      "grad_norm": 1.255656123161316,
      "learning_rate": 0.0001941809290953545,
      "loss": 1.9347,
      "step": 1319
    },
    {
      "epoch": 0.029333333333333333,
      "grad_norm": 1.1959623098373413,
      "learning_rate": 0.00019417648366303625,
      "loss": 1.9494,
      "step": 1320
    },
    {
      "epoch": 0.029355555555555555,
      "grad_norm": 1.16342031955719,
      "learning_rate": 0.00019417203823071793,
      "loss": 1.9815,
      "step": 1321
    },
    {
      "epoch": 0.029377777777777777,
      "grad_norm": 1.1828595399856567,
      "learning_rate": 0.00019416759279839964,
      "loss": 2.1597,
      "step": 1322
    },
    {
      "epoch": 0.0294,
      "grad_norm": 1.2549855709075928,
      "learning_rate": 0.00019416314736608138,
      "loss": 1.7943,
      "step": 1323
    },
    {
      "epoch": 0.02942222222222222,
      "grad_norm": 1.229993224143982,
      "learning_rate": 0.00019415870193376306,
      "loss": 2.6202,
      "step": 1324
    },
    {
      "epoch": 0.029444444444444443,
      "grad_norm": 1.1661776304244995,
      "learning_rate": 0.00019415425650144477,
      "loss": 1.9805,
      "step": 1325
    },
    {
      "epoch": 0.029466666666666665,
      "grad_norm": 1.3411319255828857,
      "learning_rate": 0.00019414981106912648,
      "loss": 2.3422,
      "step": 1326
    },
    {
      "epoch": 0.029488888888888887,
      "grad_norm": 1.3102893829345703,
      "learning_rate": 0.0001941453656368082,
      "loss": 2.0509,
      "step": 1327
    },
    {
      "epoch": 0.02951111111111111,
      "grad_norm": 1.2834891080856323,
      "learning_rate": 0.0001941409202044899,
      "loss": 2.0528,
      "step": 1328
    },
    {
      "epoch": 0.029533333333333335,
      "grad_norm": 1.2266889810562134,
      "learning_rate": 0.0001941364747721716,
      "loss": 1.7905,
      "step": 1329
    },
    {
      "epoch": 0.029555555555555557,
      "grad_norm": 1.1042407751083374,
      "learning_rate": 0.00019413202933985332,
      "loss": 2.0377,
      "step": 1330
    },
    {
      "epoch": 0.02957777777777778,
      "grad_norm": 1.2236758470535278,
      "learning_rate": 0.00019412758390753503,
      "loss": 1.6366,
      "step": 1331
    },
    {
      "epoch": 0.0296,
      "grad_norm": 1.1336673498153687,
      "learning_rate": 0.00019412313847521674,
      "loss": 1.9529,
      "step": 1332
    },
    {
      "epoch": 0.029622222222222223,
      "grad_norm": 1.3581266403198242,
      "learning_rate": 0.00019411869304289842,
      "loss": 1.6828,
      "step": 1333
    },
    {
      "epoch": 0.029644444444444445,
      "grad_norm": 1.4858201742172241,
      "learning_rate": 0.00019411424761058016,
      "loss": 2.3644,
      "step": 1334
    },
    {
      "epoch": 0.029666666666666668,
      "grad_norm": 1.1644988059997559,
      "learning_rate": 0.00019410980217826184,
      "loss": 1.9407,
      "step": 1335
    },
    {
      "epoch": 0.02968888888888889,
      "grad_norm": 1.2442271709442139,
      "learning_rate": 0.00019410535674594355,
      "loss": 1.9879,
      "step": 1336
    },
    {
      "epoch": 0.029711111111111112,
      "grad_norm": 1.237561821937561,
      "learning_rate": 0.00019410091131362526,
      "loss": 1.9786,
      "step": 1337
    },
    {
      "epoch": 0.029733333333333334,
      "grad_norm": 1.1545387506484985,
      "learning_rate": 0.00019409646588130697,
      "loss": 2.0242,
      "step": 1338
    },
    {
      "epoch": 0.029755555555555556,
      "grad_norm": 1.2471667528152466,
      "learning_rate": 0.00019409202044898868,
      "loss": 2.0459,
      "step": 1339
    },
    {
      "epoch": 0.029777777777777778,
      "grad_norm": 1.1206274032592773,
      "learning_rate": 0.0001940875750166704,
      "loss": 1.5895,
      "step": 1340
    },
    {
      "epoch": 0.0298,
      "grad_norm": 1.1637393236160278,
      "learning_rate": 0.0001940831295843521,
      "loss": 1.8555,
      "step": 1341
    },
    {
      "epoch": 0.029822222222222222,
      "grad_norm": 1.1165112257003784,
      "learning_rate": 0.00019407868415203378,
      "loss": 1.8365,
      "step": 1342
    },
    {
      "epoch": 0.029844444444444444,
      "grad_norm": 1.1864840984344482,
      "learning_rate": 0.00019407423871971552,
      "loss": 1.9016,
      "step": 1343
    },
    {
      "epoch": 0.029866666666666666,
      "grad_norm": 1.2702369689941406,
      "learning_rate": 0.0001940697932873972,
      "loss": 2.1275,
      "step": 1344
    },
    {
      "epoch": 0.02988888888888889,
      "grad_norm": 1.359662413597107,
      "learning_rate": 0.0001940653478550789,
      "loss": 1.8477,
      "step": 1345
    },
    {
      "epoch": 0.02991111111111111,
      "grad_norm": 1.097072720527649,
      "learning_rate": 0.00019406090242276062,
      "loss": 1.0999,
      "step": 1346
    },
    {
      "epoch": 0.029933333333333333,
      "grad_norm": 1.7537930011749268,
      "learning_rate": 0.00019405645699044233,
      "loss": 1.8284,
      "step": 1347
    },
    {
      "epoch": 0.029955555555555555,
      "grad_norm": 1.150568962097168,
      "learning_rate": 0.00019405201155812404,
      "loss": 1.2282,
      "step": 1348
    },
    {
      "epoch": 0.029977777777777777,
      "grad_norm": 1.365552544593811,
      "learning_rate": 0.00019404756612580575,
      "loss": 1.7724,
      "step": 1349
    },
    {
      "epoch": 0.03,
      "grad_norm": 1.4891812801361084,
      "learning_rate": 0.00019404312069348746,
      "loss": 1.3562,
      "step": 1350
    },
    {
      "epoch": 0.03002222222222222,
      "grad_norm": 1.115997552871704,
      "learning_rate": 0.00019403867526116917,
      "loss": 2.498,
      "step": 1351
    },
    {
      "epoch": 0.030044444444444443,
      "grad_norm": 1.1016743183135986,
      "learning_rate": 0.00019403422982885088,
      "loss": 2.6421,
      "step": 1352
    },
    {
      "epoch": 0.030066666666666665,
      "grad_norm": 0.9888730645179749,
      "learning_rate": 0.00019402978439653256,
      "loss": 2.4058,
      "step": 1353
    },
    {
      "epoch": 0.030088888888888887,
      "grad_norm": 1.0507988929748535,
      "learning_rate": 0.0001940253389642143,
      "loss": 2.3708,
      "step": 1354
    },
    {
      "epoch": 0.030111111111111113,
      "grad_norm": 1.081277847290039,
      "learning_rate": 0.00019402089353189598,
      "loss": 2.4283,
      "step": 1355
    },
    {
      "epoch": 0.030133333333333335,
      "grad_norm": 1.2856868505477905,
      "learning_rate": 0.0001940164480995777,
      "loss": 1.3402,
      "step": 1356
    },
    {
      "epoch": 0.030155555555555557,
      "grad_norm": 1.392534613609314,
      "learning_rate": 0.0001940120026672594,
      "loss": 2.6431,
      "step": 1357
    },
    {
      "epoch": 0.03017777777777778,
      "grad_norm": 1.1537054777145386,
      "learning_rate": 0.0001940075572349411,
      "loss": 2.6096,
      "step": 1358
    },
    {
      "epoch": 0.0302,
      "grad_norm": 1.141494631767273,
      "learning_rate": 0.00019400311180262282,
      "loss": 2.3316,
      "step": 1359
    },
    {
      "epoch": 0.030222222222222223,
      "grad_norm": 1.0294886827468872,
      "learning_rate": 0.00019399866637030453,
      "loss": 2.3628,
      "step": 1360
    },
    {
      "epoch": 0.030244444444444445,
      "grad_norm": 1.2637041807174683,
      "learning_rate": 0.00019399422093798624,
      "loss": 2.7852,
      "step": 1361
    },
    {
      "epoch": 0.030266666666666667,
      "grad_norm": 1.108982801437378,
      "learning_rate": 0.00019398977550566792,
      "loss": 2.4429,
      "step": 1362
    },
    {
      "epoch": 0.03028888888888889,
      "grad_norm": 1.092390537261963,
      "learning_rate": 0.00019398533007334965,
      "loss": 2.3518,
      "step": 1363
    },
    {
      "epoch": 0.03031111111111111,
      "grad_norm": 1.0303348302841187,
      "learning_rate": 0.00019398088464103134,
      "loss": 2.0581,
      "step": 1364
    },
    {
      "epoch": 0.030333333333333334,
      "grad_norm": 1.130509376525879,
      "learning_rate": 0.00019397643920871305,
      "loss": 2.103,
      "step": 1365
    },
    {
      "epoch": 0.030355555555555556,
      "grad_norm": 1.0822972059249878,
      "learning_rate": 0.00019397199377639476,
      "loss": 2.2136,
      "step": 1366
    },
    {
      "epoch": 0.030377777777777778,
      "grad_norm": 1.0611470937728882,
      "learning_rate": 0.00019396754834407647,
      "loss": 1.9926,
      "step": 1367
    },
    {
      "epoch": 0.0304,
      "grad_norm": 1.2307448387145996,
      "learning_rate": 0.00019396310291175818,
      "loss": 2.3068,
      "step": 1368
    },
    {
      "epoch": 0.030422222222222222,
      "grad_norm": 1.085154414176941,
      "learning_rate": 0.00019395865747943989,
      "loss": 2.1078,
      "step": 1369
    },
    {
      "epoch": 0.030444444444444444,
      "grad_norm": 1.1920729875564575,
      "learning_rate": 0.0001939542120471216,
      "loss": 2.3139,
      "step": 1370
    },
    {
      "epoch": 0.030466666666666666,
      "grad_norm": 1.1662993431091309,
      "learning_rate": 0.0001939497666148033,
      "loss": 1.7898,
      "step": 1371
    },
    {
      "epoch": 0.03048888888888889,
      "grad_norm": 1.177247166633606,
      "learning_rate": 0.00019394532118248501,
      "loss": 2.6138,
      "step": 1372
    },
    {
      "epoch": 0.03051111111111111,
      "grad_norm": 1.038445234298706,
      "learning_rate": 0.0001939408757501667,
      "loss": 1.9209,
      "step": 1373
    },
    {
      "epoch": 0.030533333333333332,
      "grad_norm": 1.1034603118896484,
      "learning_rate": 0.00019393643031784843,
      "loss": 1.927,
      "step": 1374
    },
    {
      "epoch": 0.030555555555555555,
      "grad_norm": 1.2844098806381226,
      "learning_rate": 0.00019393198488553012,
      "loss": 2.6916,
      "step": 1375
    },
    {
      "epoch": 0.030577777777777777,
      "grad_norm": 1.2443362474441528,
      "learning_rate": 0.00019392753945321183,
      "loss": 1.9068,
      "step": 1376
    },
    {
      "epoch": 0.0306,
      "grad_norm": 1.121250867843628,
      "learning_rate": 0.00019392309402089354,
      "loss": 2.5058,
      "step": 1377
    },
    {
      "epoch": 0.03062222222222222,
      "grad_norm": 1.1697667837142944,
      "learning_rate": 0.00019391864858857524,
      "loss": 2.2245,
      "step": 1378
    },
    {
      "epoch": 0.030644444444444443,
      "grad_norm": 1.1083139181137085,
      "learning_rate": 0.00019391420315625695,
      "loss": 1.7106,
      "step": 1379
    },
    {
      "epoch": 0.030666666666666665,
      "grad_norm": 1.138747215270996,
      "learning_rate": 0.00019390975772393866,
      "loss": 2.186,
      "step": 1380
    },
    {
      "epoch": 0.03068888888888889,
      "grad_norm": 1.1454265117645264,
      "learning_rate": 0.00019390531229162037,
      "loss": 1.867,
      "step": 1381
    },
    {
      "epoch": 0.030711111111111113,
      "grad_norm": 1.1329401731491089,
      "learning_rate": 0.00019390086685930206,
      "loss": 2.0394,
      "step": 1382
    },
    {
      "epoch": 0.030733333333333335,
      "grad_norm": 1.2314701080322266,
      "learning_rate": 0.0001938964214269838,
      "loss": 2.3292,
      "step": 1383
    },
    {
      "epoch": 0.030755555555555557,
      "grad_norm": 1.2723467350006104,
      "learning_rate": 0.00019389197599466548,
      "loss": 1.9802,
      "step": 1384
    },
    {
      "epoch": 0.03077777777777778,
      "grad_norm": 1.1512049436569214,
      "learning_rate": 0.0001938875305623472,
      "loss": 1.9535,
      "step": 1385
    },
    {
      "epoch": 0.0308,
      "grad_norm": 1.3449974060058594,
      "learning_rate": 0.0001938830851300289,
      "loss": 2.2411,
      "step": 1386
    },
    {
      "epoch": 0.030822222222222223,
      "grad_norm": 1.0658458471298218,
      "learning_rate": 0.0001938786396977106,
      "loss": 1.4589,
      "step": 1387
    },
    {
      "epoch": 0.030844444444444445,
      "grad_norm": 1.0926259756088257,
      "learning_rate": 0.00019387419426539234,
      "loss": 1.9042,
      "step": 1388
    },
    {
      "epoch": 0.030866666666666667,
      "grad_norm": 1.460528016090393,
      "learning_rate": 0.00019386974883307402,
      "loss": 1.1386,
      "step": 1389
    },
    {
      "epoch": 0.03088888888888889,
      "grad_norm": 1.5868712663650513,
      "learning_rate": 0.00019386530340075573,
      "loss": 1.9883,
      "step": 1390
    },
    {
      "epoch": 0.03091111111111111,
      "grad_norm": 1.166711449623108,
      "learning_rate": 0.00019386085796843744,
      "loss": 2.0818,
      "step": 1391
    },
    {
      "epoch": 0.030933333333333334,
      "grad_norm": 1.1120319366455078,
      "learning_rate": 0.00019385641253611915,
      "loss": 1.7654,
      "step": 1392
    },
    {
      "epoch": 0.030955555555555556,
      "grad_norm": 1.1007729768753052,
      "learning_rate": 0.00019385196710380083,
      "loss": 1.6074,
      "step": 1393
    },
    {
      "epoch": 0.030977777777777778,
      "grad_norm": 1.2273107767105103,
      "learning_rate": 0.00019384752167148257,
      "loss": 1.9269,
      "step": 1394
    },
    {
      "epoch": 0.031,
      "grad_norm": 1.3116095066070557,
      "learning_rate": 0.00019384307623916425,
      "loss": 2.1523,
      "step": 1395
    },
    {
      "epoch": 0.031022222222222222,
      "grad_norm": 1.1881606578826904,
      "learning_rate": 0.00019383863080684596,
      "loss": 1.8844,
      "step": 1396
    },
    {
      "epoch": 0.031044444444444444,
      "grad_norm": 1.218817949295044,
      "learning_rate": 0.0001938341853745277,
      "loss": 2.0528,
      "step": 1397
    },
    {
      "epoch": 0.031066666666666666,
      "grad_norm": 1.0829542875289917,
      "learning_rate": 0.00019382973994220938,
      "loss": 1.2301,
      "step": 1398
    },
    {
      "epoch": 0.031088888888888888,
      "grad_norm": 1.4752472639083862,
      "learning_rate": 0.0001938252945098911,
      "loss": 1.9669,
      "step": 1399
    },
    {
      "epoch": 0.03111111111111111,
      "grad_norm": 1.309036374092102,
      "learning_rate": 0.0001938208490775728,
      "loss": 0.9291,
      "step": 1400
    },
    {
      "epoch": 0.031133333333333332,
      "grad_norm": 0.9288570284843445,
      "learning_rate": 0.0001938164036452545,
      "loss": 2.4301,
      "step": 1401
    },
    {
      "epoch": 0.031155555555555554,
      "grad_norm": 0.9948990941047668,
      "learning_rate": 0.0001938119582129362,
      "loss": 2.225,
      "step": 1402
    },
    {
      "epoch": 0.031177777777777776,
      "grad_norm": 1.0610835552215576,
      "learning_rate": 0.00019380751278061793,
      "loss": 2.353,
      "step": 1403
    },
    {
      "epoch": 0.0312,
      "grad_norm": 1.1045212745666504,
      "learning_rate": 0.00019380306734829964,
      "loss": 2.1797,
      "step": 1404
    },
    {
      "epoch": 0.03122222222222222,
      "grad_norm": 1.0123965740203857,
      "learning_rate": 0.00019379862191598135,
      "loss": 2.4179,
      "step": 1405
    },
    {
      "epoch": 0.031244444444444443,
      "grad_norm": 1.0992077589035034,
      "learning_rate": 0.00019379417648366306,
      "loss": 1.9835,
      "step": 1406
    },
    {
      "epoch": 0.031266666666666665,
      "grad_norm": 1.0057796239852905,
      "learning_rate": 0.00019378973105134474,
      "loss": 2.2193,
      "step": 1407
    },
    {
      "epoch": 0.03128888888888889,
      "grad_norm": 1.2860620021820068,
      "learning_rate": 0.00019378528561902648,
      "loss": 2.4437,
      "step": 1408
    },
    {
      "epoch": 0.03131111111111111,
      "grad_norm": 1.0945990085601807,
      "learning_rate": 0.00019378084018670816,
      "loss": 2.4477,
      "step": 1409
    },
    {
      "epoch": 0.03133333333333333,
      "grad_norm": 1.1119942665100098,
      "learning_rate": 0.00019377639475438987,
      "loss": 2.1461,
      "step": 1410
    },
    {
      "epoch": 0.03135555555555555,
      "grad_norm": 1.1026381254196167,
      "learning_rate": 0.00019377194932207158,
      "loss": 1.9971,
      "step": 1411
    },
    {
      "epoch": 0.031377777777777775,
      "grad_norm": 1.1910585165023804,
      "learning_rate": 0.0001937675038897533,
      "loss": 2.3534,
      "step": 1412
    },
    {
      "epoch": 0.0314,
      "grad_norm": 1.024163842201233,
      "learning_rate": 0.000193763058457435,
      "loss": 2.3734,
      "step": 1413
    },
    {
      "epoch": 0.03142222222222222,
      "grad_norm": 0.9941502809524536,
      "learning_rate": 0.0001937586130251167,
      "loss": 1.7481,
      "step": 1414
    },
    {
      "epoch": 0.03144444444444444,
      "grad_norm": 1.148531198501587,
      "learning_rate": 0.00019375416759279842,
      "loss": 1.6367,
      "step": 1415
    },
    {
      "epoch": 0.031466666666666664,
      "grad_norm": 1.237642765045166,
      "learning_rate": 0.0001937497221604801,
      "loss": 2.3194,
      "step": 1416
    },
    {
      "epoch": 0.031488888888888886,
      "grad_norm": 1.2430555820465088,
      "learning_rate": 0.00019374527672816184,
      "loss": 1.971,
      "step": 1417
    },
    {
      "epoch": 0.03151111111111111,
      "grad_norm": 1.136256217956543,
      "learning_rate": 0.00019374083129584352,
      "loss": 2.3264,
      "step": 1418
    },
    {
      "epoch": 0.03153333333333333,
      "grad_norm": 0.9798897504806519,
      "learning_rate": 0.00019373638586352523,
      "loss": 2.0142,
      "step": 1419
    },
    {
      "epoch": 0.03155555555555556,
      "grad_norm": 1.3951666355133057,
      "learning_rate": 0.00019373194043120694,
      "loss": 2.2698,
      "step": 1420
    },
    {
      "epoch": 0.03157777777777778,
      "grad_norm": 1.1984292268753052,
      "learning_rate": 0.00019372749499888865,
      "loss": 2.006,
      "step": 1421
    },
    {
      "epoch": 0.0316,
      "grad_norm": 1.3106690645217896,
      "learning_rate": 0.00019372304956657036,
      "loss": 2.2945,
      "step": 1422
    },
    {
      "epoch": 0.031622222222222225,
      "grad_norm": 1.1117517948150635,
      "learning_rate": 0.00019371860413425207,
      "loss": 2.339,
      "step": 1423
    },
    {
      "epoch": 0.03164444444444445,
      "grad_norm": 1.4951661825180054,
      "learning_rate": 0.00019371415870193378,
      "loss": 2.4683,
      "step": 1424
    },
    {
      "epoch": 0.03166666666666667,
      "grad_norm": 1.1204643249511719,
      "learning_rate": 0.0001937097132696155,
      "loss": 2.1377,
      "step": 1425
    },
    {
      "epoch": 0.03168888888888889,
      "grad_norm": 1.2401949167251587,
      "learning_rate": 0.0001937052678372972,
      "loss": 2.2256,
      "step": 1426
    },
    {
      "epoch": 0.031711111111111114,
      "grad_norm": 1.2930660247802734,
      "learning_rate": 0.00019370082240497888,
      "loss": 2.0662,
      "step": 1427
    },
    {
      "epoch": 0.031733333333333336,
      "grad_norm": 1.1530430316925049,
      "learning_rate": 0.00019369637697266062,
      "loss": 2.1822,
      "step": 1428
    },
    {
      "epoch": 0.03175555555555556,
      "grad_norm": 1.1248830556869507,
      "learning_rate": 0.0001936919315403423,
      "loss": 2.0148,
      "step": 1429
    },
    {
      "epoch": 0.03177777777777778,
      "grad_norm": 1.1415965557098389,
      "learning_rate": 0.000193687486108024,
      "loss": 2.0016,
      "step": 1430
    },
    {
      "epoch": 0.0318,
      "grad_norm": 1.3775123357772827,
      "learning_rate": 0.00019368304067570572,
      "loss": 1.6689,
      "step": 1431
    },
    {
      "epoch": 0.031822222222222224,
      "grad_norm": 1.552697777748108,
      "learning_rate": 0.00019367859524338743,
      "loss": 1.9926,
      "step": 1432
    },
    {
      "epoch": 0.031844444444444446,
      "grad_norm": 1.0702333450317383,
      "learning_rate": 0.00019367414981106914,
      "loss": 1.8475,
      "step": 1433
    },
    {
      "epoch": 0.03186666666666667,
      "grad_norm": 1.1794770956039429,
      "learning_rate": 0.00019366970437875085,
      "loss": 1.7853,
      "step": 1434
    },
    {
      "epoch": 0.03188888888888889,
      "grad_norm": 1.177176833152771,
      "learning_rate": 0.00019366525894643256,
      "loss": 2.0982,
      "step": 1435
    },
    {
      "epoch": 0.03191111111111111,
      "grad_norm": 1.3725336790084839,
      "learning_rate": 0.00019366081351411424,
      "loss": 1.9322,
      "step": 1436
    },
    {
      "epoch": 0.031933333333333334,
      "grad_norm": 1.2420969009399414,
      "learning_rate": 0.00019365636808179598,
      "loss": 2.3835,
      "step": 1437
    },
    {
      "epoch": 0.031955555555555556,
      "grad_norm": 1.4265022277832031,
      "learning_rate": 0.00019365192264947766,
      "loss": 2.0316,
      "step": 1438
    },
    {
      "epoch": 0.03197777777777778,
      "grad_norm": 1.5354745388031006,
      "learning_rate": 0.00019364747721715937,
      "loss": 2.4962,
      "step": 1439
    },
    {
      "epoch": 0.032,
      "grad_norm": 1.0933946371078491,
      "learning_rate": 0.00019364303178484108,
      "loss": 1.9257,
      "step": 1440
    },
    {
      "epoch": 0.03202222222222222,
      "grad_norm": 1.3205199241638184,
      "learning_rate": 0.0001936385863525228,
      "loss": 2.2061,
      "step": 1441
    },
    {
      "epoch": 0.032044444444444445,
      "grad_norm": 1.2373632192611694,
      "learning_rate": 0.0001936341409202045,
      "loss": 1.8192,
      "step": 1442
    },
    {
      "epoch": 0.03206666666666667,
      "grad_norm": 1.3396754264831543,
      "learning_rate": 0.0001936296954878862,
      "loss": 2.4715,
      "step": 1443
    },
    {
      "epoch": 0.03208888888888889,
      "grad_norm": 1.1843315362930298,
      "learning_rate": 0.00019362525005556792,
      "loss": 1.766,
      "step": 1444
    },
    {
      "epoch": 0.03211111111111111,
      "grad_norm": 1.294612169265747,
      "learning_rate": 0.00019362080462324963,
      "loss": 2.2529,
      "step": 1445
    },
    {
      "epoch": 0.03213333333333333,
      "grad_norm": 1.3959919214248657,
      "learning_rate": 0.00019361635919093134,
      "loss": 1.8962,
      "step": 1446
    },
    {
      "epoch": 0.032155555555555555,
      "grad_norm": 1.978702425956726,
      "learning_rate": 0.00019361191375861302,
      "loss": 2.4322,
      "step": 1447
    },
    {
      "epoch": 0.03217777777777778,
      "grad_norm": 1.40666663646698,
      "learning_rate": 0.00019360746832629476,
      "loss": 0.5895,
      "step": 1448
    },
    {
      "epoch": 0.0322,
      "grad_norm": 1.2353925704956055,
      "learning_rate": 0.00019360302289397644,
      "loss": 1.4339,
      "step": 1449
    },
    {
      "epoch": 0.03222222222222222,
      "grad_norm": 1.3274462223052979,
      "learning_rate": 0.00019359857746165815,
      "loss": 1.5845,
      "step": 1450
    },
    {
      "epoch": 0.032244444444444444,
      "grad_norm": 0.9648881554603577,
      "learning_rate": 0.00019359413202933986,
      "loss": 2.3616,
      "step": 1451
    },
    {
      "epoch": 0.032266666666666666,
      "grad_norm": 1.0016754865646362,
      "learning_rate": 0.00019358968659702157,
      "loss": 2.5862,
      "step": 1452
    },
    {
      "epoch": 0.03228888888888889,
      "grad_norm": 0.9271038174629211,
      "learning_rate": 0.00019358524116470328,
      "loss": 2.4142,
      "step": 1453
    },
    {
      "epoch": 0.03231111111111111,
      "grad_norm": 1.5624194145202637,
      "learning_rate": 0.00019358079573238499,
      "loss": 1.2929,
      "step": 1454
    },
    {
      "epoch": 0.03233333333333333,
      "grad_norm": 1.1376678943634033,
      "learning_rate": 0.0001935763503000667,
      "loss": 2.502,
      "step": 1455
    },
    {
      "epoch": 0.032355555555555554,
      "grad_norm": 1.0469105243682861,
      "learning_rate": 0.00019357190486774838,
      "loss": 2.0188,
      "step": 1456
    },
    {
      "epoch": 0.032377777777777776,
      "grad_norm": 1.0091444253921509,
      "learning_rate": 0.00019356745943543011,
      "loss": 2.0905,
      "step": 1457
    },
    {
      "epoch": 0.0324,
      "grad_norm": 1.0449639558792114,
      "learning_rate": 0.0001935630140031118,
      "loss": 2.3309,
      "step": 1458
    },
    {
      "epoch": 0.03242222222222222,
      "grad_norm": 1.1234618425369263,
      "learning_rate": 0.0001935585685707935,
      "loss": 1.258,
      "step": 1459
    },
    {
      "epoch": 0.03244444444444444,
      "grad_norm": 1.0038764476776123,
      "learning_rate": 0.00019355412313847522,
      "loss": 1.9646,
      "step": 1460
    },
    {
      "epoch": 0.032466666666666665,
      "grad_norm": 1.1340619325637817,
      "learning_rate": 0.00019354967770615693,
      "loss": 2.0642,
      "step": 1461
    },
    {
      "epoch": 0.03248888888888889,
      "grad_norm": 1.312368392944336,
      "learning_rate": 0.00019354523227383866,
      "loss": 1.9686,
      "step": 1462
    },
    {
      "epoch": 0.03251111111111111,
      "grad_norm": 1.3528220653533936,
      "learning_rate": 0.00019354078684152035,
      "loss": 2.5536,
      "step": 1463
    },
    {
      "epoch": 0.03253333333333333,
      "grad_norm": 1.0594779253005981,
      "learning_rate": 0.00019353634140920206,
      "loss": 2.1737,
      "step": 1464
    },
    {
      "epoch": 0.03255555555555555,
      "grad_norm": 1.3068666458129883,
      "learning_rate": 0.00019353189597688376,
      "loss": 2.0797,
      "step": 1465
    },
    {
      "epoch": 0.032577777777777775,
      "grad_norm": 1.1094759702682495,
      "learning_rate": 0.00019352745054456547,
      "loss": 2.083,
      "step": 1466
    },
    {
      "epoch": 0.0326,
      "grad_norm": 1.749818205833435,
      "learning_rate": 0.00019352300511224716,
      "loss": 1.4231,
      "step": 1467
    },
    {
      "epoch": 0.03262222222222222,
      "grad_norm": 1.2045254707336426,
      "learning_rate": 0.0001935185596799289,
      "loss": 2.2931,
      "step": 1468
    },
    {
      "epoch": 0.03264444444444444,
      "grad_norm": 1.0714808702468872,
      "learning_rate": 0.00019351411424761058,
      "loss": 2.4447,
      "step": 1469
    },
    {
      "epoch": 0.03266666666666666,
      "grad_norm": 1.3730173110961914,
      "learning_rate": 0.00019350966881529229,
      "loss": 2.2009,
      "step": 1470
    },
    {
      "epoch": 0.03268888888888889,
      "grad_norm": 1.2142409086227417,
      "learning_rate": 0.00019350522338297402,
      "loss": 2.1613,
      "step": 1471
    },
    {
      "epoch": 0.032711111111111114,
      "grad_norm": 1.6318351030349731,
      "learning_rate": 0.0001935007779506557,
      "loss": 2.2736,
      "step": 1472
    },
    {
      "epoch": 0.032733333333333337,
      "grad_norm": 1.0275932550430298,
      "learning_rate": 0.00019349633251833741,
      "loss": 2.1899,
      "step": 1473
    },
    {
      "epoch": 0.03275555555555556,
      "grad_norm": 1.305526614189148,
      "learning_rate": 0.00019349188708601912,
      "loss": 1.884,
      "step": 1474
    },
    {
      "epoch": 0.03277777777777778,
      "grad_norm": 1.0775156021118164,
      "learning_rate": 0.00019348744165370083,
      "loss": 2.0182,
      "step": 1475
    },
    {
      "epoch": 0.0328,
      "grad_norm": 1.2992222309112549,
      "learning_rate": 0.00019348299622138252,
      "loss": 2.5619,
      "step": 1476
    },
    {
      "epoch": 0.032822222222222225,
      "grad_norm": 1.20382559299469,
      "learning_rate": 0.00019347855078906425,
      "loss": 1.8367,
      "step": 1477
    },
    {
      "epoch": 0.03284444444444445,
      "grad_norm": 1.132842779159546,
      "learning_rate": 0.00019347410535674596,
      "loss": 2.2789,
      "step": 1478
    },
    {
      "epoch": 0.03286666666666667,
      "grad_norm": 1.4192887544631958,
      "learning_rate": 0.00019346965992442767,
      "loss": 2.5217,
      "step": 1479
    },
    {
      "epoch": 0.03288888888888889,
      "grad_norm": 1.5791467428207397,
      "learning_rate": 0.00019346521449210938,
      "loss": 2.2756,
      "step": 1480
    },
    {
      "epoch": 0.03291111111111111,
      "grad_norm": 1.1871541738510132,
      "learning_rate": 0.00019346076905979106,
      "loss": 2.155,
      "step": 1481
    },
    {
      "epoch": 0.032933333333333335,
      "grad_norm": 1.2759143114089966,
      "learning_rate": 0.0001934563236274728,
      "loss": 1.3168,
      "step": 1482
    },
    {
      "epoch": 0.03295555555555556,
      "grad_norm": 0.9883295893669128,
      "learning_rate": 0.00019345187819515448,
      "loss": 1.0488,
      "step": 1483
    },
    {
      "epoch": 0.03297777777777778,
      "grad_norm": 1.1437863111495972,
      "learning_rate": 0.0001934474327628362,
      "loss": 1.8904,
      "step": 1484
    },
    {
      "epoch": 0.033,
      "grad_norm": 1.1389312744140625,
      "learning_rate": 0.0001934429873305179,
      "loss": 2.086,
      "step": 1485
    },
    {
      "epoch": 0.033022222222222224,
      "grad_norm": 1.2822202444076538,
      "learning_rate": 0.0001934385418981996,
      "loss": 2.2587,
      "step": 1486
    },
    {
      "epoch": 0.033044444444444446,
      "grad_norm": 1.0431591272354126,
      "learning_rate": 0.00019343409646588132,
      "loss": 1.8495,
      "step": 1487
    },
    {
      "epoch": 0.03306666666666667,
      "grad_norm": 1.1726051568984985,
      "learning_rate": 0.00019342965103356303,
      "loss": 2.138,
      "step": 1488
    },
    {
      "epoch": 0.03308888888888889,
      "grad_norm": 1.3496167659759521,
      "learning_rate": 0.00019342520560124474,
      "loss": 1.9932,
      "step": 1489
    },
    {
      "epoch": 0.03311111111111111,
      "grad_norm": 1.2583036422729492,
      "learning_rate": 0.00019342076016892642,
      "loss": 2.1386,
      "step": 1490
    },
    {
      "epoch": 0.033133333333333334,
      "grad_norm": 1.4691636562347412,
      "learning_rate": 0.00019341631473660816,
      "loss": 1.3703,
      "step": 1491
    },
    {
      "epoch": 0.033155555555555556,
      "grad_norm": 1.1774368286132812,
      "learning_rate": 0.00019341186930428984,
      "loss": 2.0667,
      "step": 1492
    },
    {
      "epoch": 0.03317777777777778,
      "grad_norm": 1.3176870346069336,
      "learning_rate": 0.00019340742387197155,
      "loss": 1.7939,
      "step": 1493
    },
    {
      "epoch": 0.0332,
      "grad_norm": 1.200920820236206,
      "learning_rate": 0.00019340297843965326,
      "loss": 1.8218,
      "step": 1494
    },
    {
      "epoch": 0.03322222222222222,
      "grad_norm": 1.1005281209945679,
      "learning_rate": 0.00019339853300733497,
      "loss": 1.7146,
      "step": 1495
    },
    {
      "epoch": 0.033244444444444445,
      "grad_norm": 1.296162486076355,
      "learning_rate": 0.00019339408757501668,
      "loss": 1.7528,
      "step": 1496
    },
    {
      "epoch": 0.03326666666666667,
      "grad_norm": 1.3360410928726196,
      "learning_rate": 0.0001933896421426984,
      "loss": 2.0615,
      "step": 1497
    },
    {
      "epoch": 0.03328888888888889,
      "grad_norm": 1.6123567819595337,
      "learning_rate": 0.0001933851967103801,
      "loss": 2.2322,
      "step": 1498
    },
    {
      "epoch": 0.03331111111111111,
      "grad_norm": 1.3130148649215698,
      "learning_rate": 0.0001933807512780618,
      "loss": 1.9794,
      "step": 1499
    },
    {
      "epoch": 0.03333333333333333,
      "grad_norm": 1.3729859590530396,
      "learning_rate": 0.00019337630584574352,
      "loss": 1.2751,
      "step": 1500
    },
    {
      "epoch": 0.033355555555555555,
      "grad_norm": 1.1282742023468018,
      "learning_rate": 0.0001933718604134252,
      "loss": 1.2849,
      "step": 1501
    },
    {
      "epoch": 0.03337777777777778,
      "grad_norm": 1.0388362407684326,
      "learning_rate": 0.00019336741498110694,
      "loss": 2.2858,
      "step": 1502
    },
    {
      "epoch": 0.0334,
      "grad_norm": 1.169311285018921,
      "learning_rate": 0.00019336296954878862,
      "loss": 2.5737,
      "step": 1503
    },
    {
      "epoch": 0.03342222222222222,
      "grad_norm": 1.2016757726669312,
      "learning_rate": 0.00019335852411647033,
      "loss": 2.4111,
      "step": 1504
    },
    {
      "epoch": 0.03344444444444444,
      "grad_norm": 0.9759643077850342,
      "learning_rate": 0.00019335407868415204,
      "loss": 2.2419,
      "step": 1505
    },
    {
      "epoch": 0.033466666666666665,
      "grad_norm": 0.9662378430366516,
      "learning_rate": 0.00019334963325183375,
      "loss": 2.0838,
      "step": 1506
    },
    {
      "epoch": 0.03348888888888889,
      "grad_norm": 1.0994617938995361,
      "learning_rate": 0.00019334518781951546,
      "loss": 2.3815,
      "step": 1507
    },
    {
      "epoch": 0.03351111111111111,
      "grad_norm": 1.055759310722351,
      "learning_rate": 0.00019334074238719717,
      "loss": 2.3268,
      "step": 1508
    },
    {
      "epoch": 0.03353333333333333,
      "grad_norm": 1.0728514194488525,
      "learning_rate": 0.00019333629695487888,
      "loss": 1.9877,
      "step": 1509
    },
    {
      "epoch": 0.033555555555555554,
      "grad_norm": 1.1055771112442017,
      "learning_rate": 0.00019333185152256056,
      "loss": 2.3137,
      "step": 1510
    },
    {
      "epoch": 0.033577777777777776,
      "grad_norm": 1.1033469438552856,
      "learning_rate": 0.0001933274060902423,
      "loss": 2.1682,
      "step": 1511
    },
    {
      "epoch": 0.0336,
      "grad_norm": 1.5016406774520874,
      "learning_rate": 0.00019332296065792398,
      "loss": 2.3402,
      "step": 1512
    },
    {
      "epoch": 0.03362222222222222,
      "grad_norm": 0.9581237435340881,
      "learning_rate": 0.0001933185152256057,
      "loss": 2.0432,
      "step": 1513
    },
    {
      "epoch": 0.03364444444444444,
      "grad_norm": 1.025452733039856,
      "learning_rate": 0.0001933140697932874,
      "loss": 1.9181,
      "step": 1514
    },
    {
      "epoch": 0.033666666666666664,
      "grad_norm": 1.1646183729171753,
      "learning_rate": 0.0001933096243609691,
      "loss": 2.5041,
      "step": 1515
    },
    {
      "epoch": 0.033688888888888886,
      "grad_norm": 1.073794960975647,
      "learning_rate": 0.00019330517892865082,
      "loss": 1.8492,
      "step": 1516
    },
    {
      "epoch": 0.03371111111111111,
      "grad_norm": 1.1617109775543213,
      "learning_rate": 0.00019330073349633253,
      "loss": 2.2649,
      "step": 1517
    },
    {
      "epoch": 0.03373333333333333,
      "grad_norm": 1.170148253440857,
      "learning_rate": 0.00019329628806401424,
      "loss": 1.948,
      "step": 1518
    },
    {
      "epoch": 0.03375555555555555,
      "grad_norm": 1.0890510082244873,
      "learning_rate": 0.00019329184263169595,
      "loss": 1.9921,
      "step": 1519
    },
    {
      "epoch": 0.033777777777777775,
      "grad_norm": 1.3151578903198242,
      "learning_rate": 0.00019328739719937766,
      "loss": 2.5887,
      "step": 1520
    },
    {
      "epoch": 0.0338,
      "grad_norm": 1.1833549737930298,
      "learning_rate": 0.00019328295176705934,
      "loss": 2.0948,
      "step": 1521
    },
    {
      "epoch": 0.03382222222222222,
      "grad_norm": 1.2709935903549194,
      "learning_rate": 0.00019327850633474108,
      "loss": 2.2601,
      "step": 1522
    },
    {
      "epoch": 0.03384444444444445,
      "grad_norm": 1.0645160675048828,
      "learning_rate": 0.00019327406090242276,
      "loss": 1.8649,
      "step": 1523
    },
    {
      "epoch": 0.03386666666666667,
      "grad_norm": 1.1719558238983154,
      "learning_rate": 0.00019326961547010447,
      "loss": 2.0675,
      "step": 1524
    },
    {
      "epoch": 0.03388888888888889,
      "grad_norm": 1.251046061515808,
      "learning_rate": 0.00019326517003778618,
      "loss": 2.2127,
      "step": 1525
    },
    {
      "epoch": 0.033911111111111114,
      "grad_norm": 1.2509682178497314,
      "learning_rate": 0.0001932607246054679,
      "loss": 2.3012,
      "step": 1526
    },
    {
      "epoch": 0.033933333333333336,
      "grad_norm": 1.164339303970337,
      "learning_rate": 0.0001932562791731496,
      "loss": 2.0108,
      "step": 1527
    },
    {
      "epoch": 0.03395555555555556,
      "grad_norm": 1.2120718955993652,
      "learning_rate": 0.0001932518337408313,
      "loss": 2.0606,
      "step": 1528
    },
    {
      "epoch": 0.03397777777777778,
      "grad_norm": 1.1924437284469604,
      "learning_rate": 0.00019324738830851302,
      "loss": 1.7896,
      "step": 1529
    },
    {
      "epoch": 0.034,
      "grad_norm": 1.42878258228302,
      "learning_rate": 0.0001932429428761947,
      "loss": 2.4899,
      "step": 1530
    },
    {
      "epoch": 0.034022222222222225,
      "grad_norm": 1.4489352703094482,
      "learning_rate": 0.00019323849744387644,
      "loss": 2.0391,
      "step": 1531
    },
    {
      "epoch": 0.03404444444444445,
      "grad_norm": 1.1656326055526733,
      "learning_rate": 0.00019323405201155812,
      "loss": 2.0498,
      "step": 1532
    },
    {
      "epoch": 0.03406666666666667,
      "grad_norm": 1.5094213485717773,
      "learning_rate": 0.00019322960657923983,
      "loss": 2.577,
      "step": 1533
    },
    {
      "epoch": 0.03408888888888889,
      "grad_norm": 1.2051565647125244,
      "learning_rate": 0.00019322516114692154,
      "loss": 2.0995,
      "step": 1534
    },
    {
      "epoch": 0.03411111111111111,
      "grad_norm": 1.2065091133117676,
      "learning_rate": 0.00019322071571460325,
      "loss": 1.9204,
      "step": 1535
    },
    {
      "epoch": 0.034133333333333335,
      "grad_norm": 1.180587887763977,
      "learning_rate": 0.00019321627028228498,
      "loss": 1.6939,
      "step": 1536
    },
    {
      "epoch": 0.03415555555555556,
      "grad_norm": 1.3259631395339966,
      "learning_rate": 0.00019321182484996667,
      "loss": 1.8811,
      "step": 1537
    },
    {
      "epoch": 0.03417777777777778,
      "grad_norm": 1.3118047714233398,
      "learning_rate": 0.00019320737941764838,
      "loss": 2.0082,
      "step": 1538
    },
    {
      "epoch": 0.0342,
      "grad_norm": 1.3475799560546875,
      "learning_rate": 0.0001932029339853301,
      "loss": 2.048,
      "step": 1539
    },
    {
      "epoch": 0.03422222222222222,
      "grad_norm": 1.1897367238998413,
      "learning_rate": 0.0001931984885530118,
      "loss": 1.8778,
      "step": 1540
    },
    {
      "epoch": 0.034244444444444445,
      "grad_norm": 1.2741882801055908,
      "learning_rate": 0.00019319404312069348,
      "loss": 1.9792,
      "step": 1541
    },
    {
      "epoch": 0.03426666666666667,
      "grad_norm": 1.103155493736267,
      "learning_rate": 0.00019318959768837522,
      "loss": 1.8665,
      "step": 1542
    },
    {
      "epoch": 0.03428888888888889,
      "grad_norm": 1.1629788875579834,
      "learning_rate": 0.0001931851522560569,
      "loss": 1.7662,
      "step": 1543
    },
    {
      "epoch": 0.03431111111111111,
      "grad_norm": 1.2028809785842896,
      "learning_rate": 0.0001931807068237386,
      "loss": 1.7697,
      "step": 1544
    },
    {
      "epoch": 0.034333333333333334,
      "grad_norm": 1.0899524688720703,
      "learning_rate": 0.00019317626139142034,
      "loss": 1.5889,
      "step": 1545
    },
    {
      "epoch": 0.034355555555555556,
      "grad_norm": 2.2114458084106445,
      "learning_rate": 0.00019317181595910203,
      "loss": 1.8964,
      "step": 1546
    },
    {
      "epoch": 0.03437777777777778,
      "grad_norm": 1.3060212135314941,
      "learning_rate": 0.00019316737052678374,
      "loss": 0.9665,
      "step": 1547
    },
    {
      "epoch": 0.0344,
      "grad_norm": 1.2669345140457153,
      "learning_rate": 0.00019316292509446545,
      "loss": 1.895,
      "step": 1548
    },
    {
      "epoch": 0.03442222222222222,
      "grad_norm": 1.737618088722229,
      "learning_rate": 0.00019315847966214716,
      "loss": 2.2731,
      "step": 1549
    },
    {
      "epoch": 0.034444444444444444,
      "grad_norm": 1.082196831703186,
      "learning_rate": 0.00019315403422982884,
      "loss": 0.6085,
      "step": 1550
    },
    {
      "epoch": 0.034466666666666666,
      "grad_norm": 1.2861276865005493,
      "learning_rate": 0.00019314958879751058,
      "loss": 2.8675,
      "step": 1551
    },
    {
      "epoch": 0.03448888888888889,
      "grad_norm": 1.0323752164840698,
      "learning_rate": 0.00019314514336519228,
      "loss": 2.9297,
      "step": 1552
    },
    {
      "epoch": 0.03451111111111111,
      "grad_norm": 0.9915749430656433,
      "learning_rate": 0.00019314069793287397,
      "loss": 2.55,
      "step": 1553
    },
    {
      "epoch": 0.03453333333333333,
      "grad_norm": 1.0444973707199097,
      "learning_rate": 0.0001931362525005557,
      "loss": 2.6642,
      "step": 1554
    },
    {
      "epoch": 0.034555555555555555,
      "grad_norm": 0.9511508941650391,
      "learning_rate": 0.00019313180706823739,
      "loss": 2.0044,
      "step": 1555
    },
    {
      "epoch": 0.03457777777777778,
      "grad_norm": 1.3596376180648804,
      "learning_rate": 0.00019312736163591912,
      "loss": 1.1496,
      "step": 1556
    },
    {
      "epoch": 0.0346,
      "grad_norm": 1.0855063199996948,
      "learning_rate": 0.0001931229162036008,
      "loss": 2.3195,
      "step": 1557
    },
    {
      "epoch": 0.03462222222222222,
      "grad_norm": 1.0310297012329102,
      "learning_rate": 0.00019311847077128252,
      "loss": 2.2401,
      "step": 1558
    },
    {
      "epoch": 0.03464444444444444,
      "grad_norm": 1.2717889547348022,
      "learning_rate": 0.00019311402533896422,
      "loss": 2.5257,
      "step": 1559
    },
    {
      "epoch": 0.034666666666666665,
      "grad_norm": 1.0537046194076538,
      "learning_rate": 0.00019310957990664593,
      "loss": 2.0173,
      "step": 1560
    },
    {
      "epoch": 0.03468888888888889,
      "grad_norm": 1.0954219102859497,
      "learning_rate": 0.00019310513447432764,
      "loss": 2.2333,
      "step": 1561
    },
    {
      "epoch": 0.03471111111111111,
      "grad_norm": 1.106155514717102,
      "learning_rate": 0.00019310068904200935,
      "loss": 1.7137,
      "step": 1562
    },
    {
      "epoch": 0.03473333333333333,
      "grad_norm": 1.042556643486023,
      "learning_rate": 0.00019309624360969106,
      "loss": 1.7789,
      "step": 1563
    },
    {
      "epoch": 0.03475555555555555,
      "grad_norm": 1.250775933265686,
      "learning_rate": 0.00019309179817737275,
      "loss": 2.2798,
      "step": 1564
    },
    {
      "epoch": 0.034777777777777776,
      "grad_norm": 1.2479610443115234,
      "learning_rate": 0.00019308735274505448,
      "loss": 2.6462,
      "step": 1565
    },
    {
      "epoch": 0.0348,
      "grad_norm": 1.0425524711608887,
      "learning_rate": 0.00019308290731273617,
      "loss": 1.8033,
      "step": 1566
    },
    {
      "epoch": 0.03482222222222222,
      "grad_norm": 1.228369116783142,
      "learning_rate": 0.00019307846188041787,
      "loss": 2.6753,
      "step": 1567
    },
    {
      "epoch": 0.03484444444444444,
      "grad_norm": 1.2939426898956299,
      "learning_rate": 0.00019307401644809958,
      "loss": 2.0066,
      "step": 1568
    },
    {
      "epoch": 0.034866666666666664,
      "grad_norm": 1.106898546218872,
      "learning_rate": 0.0001930695710157813,
      "loss": 1.9016,
      "step": 1569
    },
    {
      "epoch": 0.034888888888888886,
      "grad_norm": 1.0723423957824707,
      "learning_rate": 0.000193065125583463,
      "loss": 1.8617,
      "step": 1570
    },
    {
      "epoch": 0.03491111111111111,
      "grad_norm": 1.1328529119491577,
      "learning_rate": 0.0001930606801511447,
      "loss": 2.1399,
      "step": 1571
    },
    {
      "epoch": 0.03493333333333333,
      "grad_norm": 1.014874815940857,
      "learning_rate": 0.00019305623471882642,
      "loss": 1.8384,
      "step": 1572
    },
    {
      "epoch": 0.03495555555555555,
      "grad_norm": 1.1854385137557983,
      "learning_rate": 0.0001930517892865081,
      "loss": 2.1582,
      "step": 1573
    },
    {
      "epoch": 0.03497777777777778,
      "grad_norm": 1.204401969909668,
      "learning_rate": 0.00019304734385418984,
      "loss": 2.0826,
      "step": 1574
    },
    {
      "epoch": 0.035,
      "grad_norm": 1.547637701034546,
      "learning_rate": 0.00019304289842187152,
      "loss": 2.0409,
      "step": 1575
    },
    {
      "epoch": 0.035022222222222225,
      "grad_norm": 1.2782498598098755,
      "learning_rate": 0.00019303845298955326,
      "loss": 1.5767,
      "step": 1576
    },
    {
      "epoch": 0.03504444444444445,
      "grad_norm": 1.264570951461792,
      "learning_rate": 0.00019303400755723494,
      "loss": 1.5904,
      "step": 1577
    },
    {
      "epoch": 0.03506666666666667,
      "grad_norm": 1.0112229585647583,
      "learning_rate": 0.00019302956212491665,
      "loss": 1.1745,
      "step": 1578
    },
    {
      "epoch": 0.03508888888888889,
      "grad_norm": 1.4174708127975464,
      "learning_rate": 0.00019302511669259836,
      "loss": 2.8066,
      "step": 1579
    },
    {
      "epoch": 0.035111111111111114,
      "grad_norm": 1.2562214136123657,
      "learning_rate": 0.00019302067126028007,
      "loss": 1.7302,
      "step": 1580
    },
    {
      "epoch": 0.035133333333333336,
      "grad_norm": 1.2634434700012207,
      "learning_rate": 0.00019301622582796178,
      "loss": 1.9925,
      "step": 1581
    },
    {
      "epoch": 0.03515555555555556,
      "grad_norm": 1.2283315658569336,
      "learning_rate": 0.0001930117803956435,
      "loss": 2.2805,
      "step": 1582
    },
    {
      "epoch": 0.03517777777777778,
      "grad_norm": 1.3432462215423584,
      "learning_rate": 0.0001930073349633252,
      "loss": 2.1874,
      "step": 1583
    },
    {
      "epoch": 0.0352,
      "grad_norm": 1.4123488664627075,
      "learning_rate": 0.00019300288953100688,
      "loss": 2.3004,
      "step": 1584
    },
    {
      "epoch": 0.035222222222222224,
      "grad_norm": 1.1645655632019043,
      "learning_rate": 0.00019299844409868862,
      "loss": 2.0793,
      "step": 1585
    },
    {
      "epoch": 0.035244444444444446,
      "grad_norm": 1.1561622619628906,
      "learning_rate": 0.0001929939986663703,
      "loss": 2.1651,
      "step": 1586
    },
    {
      "epoch": 0.03526666666666667,
      "grad_norm": 1.447200894355774,
      "learning_rate": 0.000192989553234052,
      "loss": 2.3525,
      "step": 1587
    },
    {
      "epoch": 0.03528888888888889,
      "grad_norm": 1.1419998407363892,
      "learning_rate": 0.00019298510780173372,
      "loss": 1.901,
      "step": 1588
    },
    {
      "epoch": 0.03531111111111111,
      "grad_norm": 1.2339032888412476,
      "learning_rate": 0.00019298066236941543,
      "loss": 2.1305,
      "step": 1589
    },
    {
      "epoch": 0.035333333333333335,
      "grad_norm": 1.2740687131881714,
      "learning_rate": 0.00019297621693709714,
      "loss": 1.9447,
      "step": 1590
    },
    {
      "epoch": 0.03535555555555556,
      "grad_norm": 1.2346866130828857,
      "learning_rate": 0.00019297177150477885,
      "loss": 1.8371,
      "step": 1591
    },
    {
      "epoch": 0.03537777777777778,
      "grad_norm": 1.367735505104065,
      "learning_rate": 0.00019296732607246056,
      "loss": 2.483,
      "step": 1592
    },
    {
      "epoch": 0.0354,
      "grad_norm": 1.1464039087295532,
      "learning_rate": 0.00019296288064014227,
      "loss": 1.8843,
      "step": 1593
    },
    {
      "epoch": 0.03542222222222222,
      "grad_norm": 1.0014337301254272,
      "learning_rate": 0.00019295843520782398,
      "loss": 1.6699,
      "step": 1594
    },
    {
      "epoch": 0.035444444444444445,
      "grad_norm": 1.1374380588531494,
      "learning_rate": 0.00019295398977550566,
      "loss": 1.6318,
      "step": 1595
    },
    {
      "epoch": 0.03546666666666667,
      "grad_norm": 1.027539849281311,
      "learning_rate": 0.0001929495443431874,
      "loss": 1.3634,
      "step": 1596
    },
    {
      "epoch": 0.03548888888888889,
      "grad_norm": 1.2553808689117432,
      "learning_rate": 0.00019294509891086908,
      "loss": 1.92,
      "step": 1597
    },
    {
      "epoch": 0.03551111111111111,
      "grad_norm": 1.5323386192321777,
      "learning_rate": 0.0001929406534785508,
      "loss": 2.0675,
      "step": 1598
    },
    {
      "epoch": 0.03553333333333333,
      "grad_norm": 1.322381854057312,
      "learning_rate": 0.0001929362080462325,
      "loss": 1.8776,
      "step": 1599
    },
    {
      "epoch": 0.035555555555555556,
      "grad_norm": 1.1956552267074585,
      "learning_rate": 0.0001929317626139142,
      "loss": 1.535,
      "step": 1600
    },
    {
      "epoch": 0.03557777777777778,
      "grad_norm": 1.0654809474945068,
      "learning_rate": 0.00019292731718159592,
      "loss": 2.5483,
      "step": 1601
    },
    {
      "epoch": 0.0356,
      "grad_norm": 0.9427987933158875,
      "learning_rate": 0.00019292287174927763,
      "loss": 2.3314,
      "step": 1602
    },
    {
      "epoch": 0.03562222222222222,
      "grad_norm": 1.0185790061950684,
      "learning_rate": 0.00019291842631695934,
      "loss": 2.2234,
      "step": 1603
    },
    {
      "epoch": 0.035644444444444444,
      "grad_norm": 1.0985407829284668,
      "learning_rate": 0.00019291398088464102,
      "loss": 2.1942,
      "step": 1604
    },
    {
      "epoch": 0.035666666666666666,
      "grad_norm": 1.17117178440094,
      "learning_rate": 0.00019290953545232276,
      "loss": 2.5517,
      "step": 1605
    },
    {
      "epoch": 0.03568888888888889,
      "grad_norm": 1.4354678392410278,
      "learning_rate": 0.00019290509002000444,
      "loss": 2.3936,
      "step": 1606
    },
    {
      "epoch": 0.03571111111111111,
      "grad_norm": 0.9360921382904053,
      "learning_rate": 0.00019290064458768615,
      "loss": 1.985,
      "step": 1607
    },
    {
      "epoch": 0.03573333333333333,
      "grad_norm": 1.102998971939087,
      "learning_rate": 0.00019289619915536786,
      "loss": 2.1309,
      "step": 1608
    },
    {
      "epoch": 0.035755555555555554,
      "grad_norm": 1.000748872756958,
      "learning_rate": 0.00019289175372304957,
      "loss": 2.1232,
      "step": 1609
    },
    {
      "epoch": 0.035777777777777776,
      "grad_norm": 1.1651393175125122,
      "learning_rate": 0.00019288730829073128,
      "loss": 1.6339,
      "step": 1610
    },
    {
      "epoch": 0.0358,
      "grad_norm": 1.0569050312042236,
      "learning_rate": 0.000192882862858413,
      "loss": 2.2817,
      "step": 1611
    },
    {
      "epoch": 0.03582222222222222,
      "grad_norm": 1.1219130754470825,
      "learning_rate": 0.0001928784174260947,
      "loss": 2.1398,
      "step": 1612
    },
    {
      "epoch": 0.03584444444444444,
      "grad_norm": 1.4168156385421753,
      "learning_rate": 0.0001928739719937764,
      "loss": 1.6243,
      "step": 1613
    },
    {
      "epoch": 0.035866666666666665,
      "grad_norm": 1.0991692543029785,
      "learning_rate": 0.00019286952656145812,
      "loss": 2.3464,
      "step": 1614
    },
    {
      "epoch": 0.03588888888888889,
      "grad_norm": 1.196455717086792,
      "learning_rate": 0.0001928650811291398,
      "loss": 2.1513,
      "step": 1615
    },
    {
      "epoch": 0.03591111111111111,
      "grad_norm": 1.131048321723938,
      "learning_rate": 0.00019286063569682154,
      "loss": 2.2837,
      "step": 1616
    },
    {
      "epoch": 0.03593333333333333,
      "grad_norm": 1.0808967351913452,
      "learning_rate": 0.00019285619026450322,
      "loss": 2.1656,
      "step": 1617
    },
    {
      "epoch": 0.03595555555555555,
      "grad_norm": 1.131663203239441,
      "learning_rate": 0.00019285174483218493,
      "loss": 2.2383,
      "step": 1618
    },
    {
      "epoch": 0.035977777777777775,
      "grad_norm": 1.8503128290176392,
      "learning_rate": 0.00019284729939986667,
      "loss": 1.199,
      "step": 1619
    },
    {
      "epoch": 0.036,
      "grad_norm": 1.1101024150848389,
      "learning_rate": 0.00019284285396754835,
      "loss": 1.9646,
      "step": 1620
    },
    {
      "epoch": 0.03602222222222222,
      "grad_norm": 1.0288583040237427,
      "learning_rate": 0.00019283840853523006,
      "loss": 1.9303,
      "step": 1621
    },
    {
      "epoch": 0.03604444444444444,
      "grad_norm": 1.068770408630371,
      "learning_rate": 0.00019283396310291177,
      "loss": 2.1843,
      "step": 1622
    },
    {
      "epoch": 0.036066666666666664,
      "grad_norm": 1.0957071781158447,
      "learning_rate": 0.00019282951767059348,
      "loss": 1.9444,
      "step": 1623
    },
    {
      "epoch": 0.036088888888888886,
      "grad_norm": 1.1025582551956177,
      "learning_rate": 0.00019282507223827516,
      "loss": 1.8602,
      "step": 1624
    },
    {
      "epoch": 0.03611111111111111,
      "grad_norm": 1.0950126647949219,
      "learning_rate": 0.0001928206268059569,
      "loss": 2.1894,
      "step": 1625
    },
    {
      "epoch": 0.03613333333333334,
      "grad_norm": 1.1343626976013184,
      "learning_rate": 0.0001928161813736386,
      "loss": 1.9778,
      "step": 1626
    },
    {
      "epoch": 0.03615555555555556,
      "grad_norm": 1.1559494733810425,
      "learning_rate": 0.0001928117359413203,
      "loss": 1.6899,
      "step": 1627
    },
    {
      "epoch": 0.03617777777777778,
      "grad_norm": 1.2241156101226807,
      "learning_rate": 0.00019280729050900203,
      "loss": 2.0864,
      "step": 1628
    },
    {
      "epoch": 0.0362,
      "grad_norm": 0.7917470932006836,
      "learning_rate": 0.0001928028450766837,
      "loss": 0.9533,
      "step": 1629
    },
    {
      "epoch": 0.036222222222222225,
      "grad_norm": 1.103376030921936,
      "learning_rate": 0.00019279839964436542,
      "loss": 1.8007,
      "step": 1630
    },
    {
      "epoch": 0.03624444444444445,
      "grad_norm": 1.1854441165924072,
      "learning_rate": 0.00019279395421204713,
      "loss": 1.9496,
      "step": 1631
    },
    {
      "epoch": 0.03626666666666667,
      "grad_norm": 1.283071756362915,
      "learning_rate": 0.00019278950877972884,
      "loss": 2.0651,
      "step": 1632
    },
    {
      "epoch": 0.03628888888888889,
      "grad_norm": 1.3536968231201172,
      "learning_rate": 0.00019278506334741055,
      "loss": 2.3606,
      "step": 1633
    },
    {
      "epoch": 0.03631111111111111,
      "grad_norm": 1.1884193420410156,
      "learning_rate": 0.00019278061791509226,
      "loss": 1.6877,
      "step": 1634
    },
    {
      "epoch": 0.036333333333333336,
      "grad_norm": 1.1790130138397217,
      "learning_rate": 0.00019277617248277397,
      "loss": 1.7944,
      "step": 1635
    },
    {
      "epoch": 0.03635555555555556,
      "grad_norm": 1.4631588459014893,
      "learning_rate": 0.00019277172705045568,
      "loss": 2.0584,
      "step": 1636
    },
    {
      "epoch": 0.03637777777777778,
      "grad_norm": 1.1450132131576538,
      "learning_rate": 0.00019276728161813739,
      "loss": 1.9185,
      "step": 1637
    },
    {
      "epoch": 0.0364,
      "grad_norm": 1.4707188606262207,
      "learning_rate": 0.00019276283618581907,
      "loss": 2.3511,
      "step": 1638
    },
    {
      "epoch": 0.036422222222222224,
      "grad_norm": 1.3113077878952026,
      "learning_rate": 0.0001927583907535008,
      "loss": 2.3162,
      "step": 1639
    },
    {
      "epoch": 0.036444444444444446,
      "grad_norm": 1.2973928451538086,
      "learning_rate": 0.0001927539453211825,
      "loss": 1.9532,
      "step": 1640
    },
    {
      "epoch": 0.03646666666666667,
      "grad_norm": 1.091458797454834,
      "learning_rate": 0.0001927494998888642,
      "loss": 1.8042,
      "step": 1641
    },
    {
      "epoch": 0.03648888888888889,
      "grad_norm": 1.2639678716659546,
      "learning_rate": 0.0001927450544565459,
      "loss": 1.9437,
      "step": 1642
    },
    {
      "epoch": 0.03651111111111111,
      "grad_norm": 1.384123682975769,
      "learning_rate": 0.00019274060902422762,
      "loss": 2.0447,
      "step": 1643
    },
    {
      "epoch": 0.036533333333333334,
      "grad_norm": 1.5155600309371948,
      "learning_rate": 0.00019273616359190933,
      "loss": 2.1028,
      "step": 1644
    },
    {
      "epoch": 0.036555555555555556,
      "grad_norm": 1.74246084690094,
      "learning_rate": 0.00019273171815959104,
      "loss": 2.019,
      "step": 1645
    },
    {
      "epoch": 0.03657777777777778,
      "grad_norm": 1.4755514860153198,
      "learning_rate": 0.00019272727272727274,
      "loss": 2.1065,
      "step": 1646
    },
    {
      "epoch": 0.0366,
      "grad_norm": 0.9459998607635498,
      "learning_rate": 0.00019272282729495443,
      "loss": 0.8836,
      "step": 1647
    },
    {
      "epoch": 0.03662222222222222,
      "grad_norm": 1.3147807121276855,
      "learning_rate": 0.00019271838186263616,
      "loss": 1.893,
      "step": 1648
    },
    {
      "epoch": 0.036644444444444445,
      "grad_norm": 1.478476643562317,
      "learning_rate": 0.00019271393643031785,
      "loss": 1.5637,
      "step": 1649
    },
    {
      "epoch": 0.03666666666666667,
      "grad_norm": 1.6118906736373901,
      "learning_rate": 0.00019270949099799958,
      "loss": 1.5086,
      "step": 1650
    },
    {
      "epoch": 0.03668888888888889,
      "grad_norm": 0.8905341625213623,
      "learning_rate": 0.00019270504556568127,
      "loss": 2.4148,
      "step": 1651
    },
    {
      "epoch": 0.03671111111111111,
      "grad_norm": 0.8563937544822693,
      "learning_rate": 0.00019270060013336298,
      "loss": 2.2786,
      "step": 1652
    },
    {
      "epoch": 0.03673333333333333,
      "grad_norm": 0.9282917380332947,
      "learning_rate": 0.00019269615470104469,
      "loss": 2.3942,
      "step": 1653
    },
    {
      "epoch": 0.036755555555555555,
      "grad_norm": 1.0072396993637085,
      "learning_rate": 0.0001926917092687264,
      "loss": 1.3516,
      "step": 1654
    },
    {
      "epoch": 0.03677777777777778,
      "grad_norm": 0.6960182189941406,
      "learning_rate": 0.0001926872638364081,
      "loss": 1.0296,
      "step": 1655
    },
    {
      "epoch": 0.0368,
      "grad_norm": 1.1755566596984863,
      "learning_rate": 0.00019268281840408981,
      "loss": 3.0354,
      "step": 1656
    },
    {
      "epoch": 0.03682222222222222,
      "grad_norm": 1.2352008819580078,
      "learning_rate": 0.00019267837297177152,
      "loss": 2.5728,
      "step": 1657
    },
    {
      "epoch": 0.036844444444444444,
      "grad_norm": 1.0424734354019165,
      "learning_rate": 0.0001926739275394532,
      "loss": 2.1906,
      "step": 1658
    },
    {
      "epoch": 0.036866666666666666,
      "grad_norm": 0.9990553855895996,
      "learning_rate": 0.00019266948210713494,
      "loss": 2.3221,
      "step": 1659
    },
    {
      "epoch": 0.03688888888888889,
      "grad_norm": 1.0603668689727783,
      "learning_rate": 0.00019266503667481663,
      "loss": 2.3523,
      "step": 1660
    },
    {
      "epoch": 0.03691111111111111,
      "grad_norm": 1.1015915870666504,
      "learning_rate": 0.00019266059124249833,
      "loss": 2.4637,
      "step": 1661
    },
    {
      "epoch": 0.03693333333333333,
      "grad_norm": 1.0183284282684326,
      "learning_rate": 0.00019265614581018004,
      "loss": 2.1596,
      "step": 1662
    },
    {
      "epoch": 0.036955555555555554,
      "grad_norm": 1.097563624382019,
      "learning_rate": 0.00019265170037786175,
      "loss": 2.3855,
      "step": 1663
    },
    {
      "epoch": 0.036977777777777776,
      "grad_norm": 1.0424779653549194,
      "learning_rate": 0.00019264725494554346,
      "loss": 2.1794,
      "step": 1664
    },
    {
      "epoch": 0.037,
      "grad_norm": 1.0053038597106934,
      "learning_rate": 0.00019264280951322517,
      "loss": 2.0104,
      "step": 1665
    },
    {
      "epoch": 0.03702222222222222,
      "grad_norm": 1.2662198543548584,
      "learning_rate": 0.00019263836408090688,
      "loss": 2.3109,
      "step": 1666
    },
    {
      "epoch": 0.03704444444444444,
      "grad_norm": 1.0046722888946533,
      "learning_rate": 0.00019263391864858857,
      "loss": 2.3037,
      "step": 1667
    },
    {
      "epoch": 0.037066666666666664,
      "grad_norm": 1.1860179901123047,
      "learning_rate": 0.0001926294732162703,
      "loss": 2.537,
      "step": 1668
    },
    {
      "epoch": 0.037088888888888887,
      "grad_norm": 1.0056655406951904,
      "learning_rate": 0.00019262502778395198,
      "loss": 1.9345,
      "step": 1669
    },
    {
      "epoch": 0.03711111111111111,
      "grad_norm": 1.1387861967086792,
      "learning_rate": 0.00019262058235163372,
      "loss": 1.224,
      "step": 1670
    },
    {
      "epoch": 0.03713333333333333,
      "grad_norm": 1.0878708362579346,
      "learning_rate": 0.0001926161369193154,
      "loss": 2.1147,
      "step": 1671
    },
    {
      "epoch": 0.03715555555555555,
      "grad_norm": 1.1541792154312134,
      "learning_rate": 0.00019261169148699711,
      "loss": 2.3138,
      "step": 1672
    },
    {
      "epoch": 0.037177777777777775,
      "grad_norm": 1.2388761043548584,
      "learning_rate": 0.00019260724605467882,
      "loss": 2.0522,
      "step": 1673
    },
    {
      "epoch": 0.0372,
      "grad_norm": 1.0342973470687866,
      "learning_rate": 0.00019260280062236053,
      "loss": 1.9513,
      "step": 1674
    },
    {
      "epoch": 0.03722222222222222,
      "grad_norm": 1.2679888010025024,
      "learning_rate": 0.00019259835519004224,
      "loss": 1.982,
      "step": 1675
    },
    {
      "epoch": 0.03724444444444444,
      "grad_norm": 1.2131075859069824,
      "learning_rate": 0.00019259390975772395,
      "loss": 2.1498,
      "step": 1676
    },
    {
      "epoch": 0.03726666666666666,
      "grad_norm": 0.9604787230491638,
      "learning_rate": 0.00019258946432540566,
      "loss": 1.5668,
      "step": 1677
    },
    {
      "epoch": 0.03728888888888889,
      "grad_norm": 1.054021954536438,
      "learning_rate": 0.00019258501889308734,
      "loss": 1.8568,
      "step": 1678
    },
    {
      "epoch": 0.037311111111111114,
      "grad_norm": 1.190492868423462,
      "learning_rate": 0.00019258057346076908,
      "loss": 0.9899,
      "step": 1679
    },
    {
      "epoch": 0.037333333333333336,
      "grad_norm": 1.5572409629821777,
      "learning_rate": 0.00019257612802845076,
      "loss": 2.3164,
      "step": 1680
    },
    {
      "epoch": 0.03735555555555556,
      "grad_norm": 1.1587527990341187,
      "learning_rate": 0.00019257168259613247,
      "loss": 2.1015,
      "step": 1681
    },
    {
      "epoch": 0.03737777777777778,
      "grad_norm": 1.2043633460998535,
      "learning_rate": 0.00019256723716381418,
      "loss": 1.9227,
      "step": 1682
    },
    {
      "epoch": 0.0374,
      "grad_norm": 1.2729018926620483,
      "learning_rate": 0.0001925627917314959,
      "loss": 2.0728,
      "step": 1683
    },
    {
      "epoch": 0.037422222222222225,
      "grad_norm": 1.287742018699646,
      "learning_rate": 0.0001925583462991776,
      "loss": 2.4982,
      "step": 1684
    },
    {
      "epoch": 0.03744444444444445,
      "grad_norm": 1.3554203510284424,
      "learning_rate": 0.0001925539008668593,
      "loss": 2.3082,
      "step": 1685
    },
    {
      "epoch": 0.03746666666666667,
      "grad_norm": 1.2895474433898926,
      "learning_rate": 0.00019254945543454102,
      "loss": 2.2616,
      "step": 1686
    },
    {
      "epoch": 0.03748888888888889,
      "grad_norm": 1.2018258571624756,
      "learning_rate": 0.0001925450100022227,
      "loss": 1.9035,
      "step": 1687
    },
    {
      "epoch": 0.03751111111111111,
      "grad_norm": 1.336531639099121,
      "learning_rate": 0.00019254056456990444,
      "loss": 2.2862,
      "step": 1688
    },
    {
      "epoch": 0.037533333333333335,
      "grad_norm": 1.0696642398834229,
      "learning_rate": 0.00019253611913758612,
      "loss": 0.9648,
      "step": 1689
    },
    {
      "epoch": 0.03755555555555556,
      "grad_norm": 1.5599923133850098,
      "learning_rate": 0.00019253167370526786,
      "loss": 1.6956,
      "step": 1690
    },
    {
      "epoch": 0.03757777777777778,
      "grad_norm": 1.049018144607544,
      "learning_rate": 0.00019252722827294957,
      "loss": 1.6086,
      "step": 1691
    },
    {
      "epoch": 0.0376,
      "grad_norm": 1.2631961107254028,
      "learning_rate": 0.00019252278284063125,
      "loss": 1.5529,
      "step": 1692
    },
    {
      "epoch": 0.037622222222222224,
      "grad_norm": 1.404136300086975,
      "learning_rate": 0.000192518337408313,
      "loss": 2.0185,
      "step": 1693
    },
    {
      "epoch": 0.037644444444444446,
      "grad_norm": 1.5357671976089478,
      "learning_rate": 0.00019251389197599467,
      "loss": 2.2575,
      "step": 1694
    },
    {
      "epoch": 0.03766666666666667,
      "grad_norm": 1.2799744606018066,
      "learning_rate": 0.00019250944654367638,
      "loss": 1.8321,
      "step": 1695
    },
    {
      "epoch": 0.03768888888888889,
      "grad_norm": 1.5406770706176758,
      "learning_rate": 0.0001925050011113581,
      "loss": 2.0424,
      "step": 1696
    },
    {
      "epoch": 0.03771111111111111,
      "grad_norm": 1.5023655891418457,
      "learning_rate": 0.0001925005556790398,
      "loss": 2.0837,
      "step": 1697
    },
    {
      "epoch": 0.037733333333333334,
      "grad_norm": 1.220178484916687,
      "learning_rate": 0.00019249611024672148,
      "loss": 1.6124,
      "step": 1698
    },
    {
      "epoch": 0.037755555555555556,
      "grad_norm": 2.6782243251800537,
      "learning_rate": 0.00019249166481440322,
      "loss": 0.1081,
      "step": 1699
    },
    {
      "epoch": 0.03777777777777778,
      "grad_norm": 0.9028381705284119,
      "learning_rate": 0.00019248721938208493,
      "loss": 0.5841,
      "step": 1700
    },
    {
      "epoch": 0.0378,
      "grad_norm": 1.136002779006958,
      "learning_rate": 0.0001924827739497666,
      "loss": 2.7293,
      "step": 1701
    },
    {
      "epoch": 0.03782222222222222,
      "grad_norm": 1.3147175312042236,
      "learning_rate": 0.00019247832851744835,
      "loss": 2.8613,
      "step": 1702
    },
    {
      "epoch": 0.037844444444444444,
      "grad_norm": 1.1160030364990234,
      "learning_rate": 0.00019247388308513003,
      "loss": 2.5977,
      "step": 1703
    },
    {
      "epoch": 0.037866666666666667,
      "grad_norm": 1.2921942472457886,
      "learning_rate": 0.00019246943765281174,
      "loss": 2.3137,
      "step": 1704
    },
    {
      "epoch": 0.03788888888888889,
      "grad_norm": 0.9941746592521667,
      "learning_rate": 0.00019246499222049345,
      "loss": 1.8767,
      "step": 1705
    },
    {
      "epoch": 0.03791111111111111,
      "grad_norm": 1.2339857816696167,
      "learning_rate": 0.00019246054678817516,
      "loss": 2.1385,
      "step": 1706
    },
    {
      "epoch": 0.03793333333333333,
      "grad_norm": 1.158557415008545,
      "learning_rate": 0.00019245610135585687,
      "loss": 1.5991,
      "step": 1707
    },
    {
      "epoch": 0.037955555555555555,
      "grad_norm": 1.146208643913269,
      "learning_rate": 0.00019245165592353858,
      "loss": 2.2618,
      "step": 1708
    },
    {
      "epoch": 0.03797777777777778,
      "grad_norm": 1.0277339220046997,
      "learning_rate": 0.0001924472104912203,
      "loss": 2.3643,
      "step": 1709
    },
    {
      "epoch": 0.038,
      "grad_norm": 1.0269960165023804,
      "learning_rate": 0.000192442765058902,
      "loss": 2.0639,
      "step": 1710
    },
    {
      "epoch": 0.03802222222222222,
      "grad_norm": 1.0692329406738281,
      "learning_rate": 0.0001924383196265837,
      "loss": 1.7411,
      "step": 1711
    },
    {
      "epoch": 0.03804444444444444,
      "grad_norm": 1.3326133489608765,
      "learning_rate": 0.0001924338741942654,
      "loss": 2.2134,
      "step": 1712
    },
    {
      "epoch": 0.038066666666666665,
      "grad_norm": 0.9918487668037415,
      "learning_rate": 0.00019242942876194713,
      "loss": 1.4232,
      "step": 1713
    },
    {
      "epoch": 0.03808888888888889,
      "grad_norm": 1.0250266790390015,
      "learning_rate": 0.0001924249833296288,
      "loss": 1.9448,
      "step": 1714
    },
    {
      "epoch": 0.03811111111111111,
      "grad_norm": 1.34917414188385,
      "learning_rate": 0.00019242053789731052,
      "loss": 2.4693,
      "step": 1715
    },
    {
      "epoch": 0.03813333333333333,
      "grad_norm": 1.2300838232040405,
      "learning_rate": 0.00019241609246499223,
      "loss": 2.1846,
      "step": 1716
    },
    {
      "epoch": 0.038155555555555554,
      "grad_norm": 0.9363498091697693,
      "learning_rate": 0.00019241164703267394,
      "loss": 1.0052,
      "step": 1717
    },
    {
      "epoch": 0.038177777777777776,
      "grad_norm": 1.1219052076339722,
      "learning_rate": 0.00019240720160035565,
      "loss": 1.9205,
      "step": 1718
    },
    {
      "epoch": 0.0382,
      "grad_norm": 1.4701693058013916,
      "learning_rate": 0.00019240275616803736,
      "loss": 1.9902,
      "step": 1719
    },
    {
      "epoch": 0.03822222222222222,
      "grad_norm": 1.2562336921691895,
      "learning_rate": 0.00019239831073571907,
      "loss": 2.4119,
      "step": 1720
    },
    {
      "epoch": 0.03824444444444444,
      "grad_norm": 1.2237027883529663,
      "learning_rate": 0.00019239386530340075,
      "loss": 1.7287,
      "step": 1721
    },
    {
      "epoch": 0.038266666666666664,
      "grad_norm": 1.2052242755889893,
      "learning_rate": 0.00019238941987108249,
      "loss": 2.5344,
      "step": 1722
    },
    {
      "epoch": 0.038288888888888886,
      "grad_norm": 0.9924613237380981,
      "learning_rate": 0.00019238497443876417,
      "loss": 1.7375,
      "step": 1723
    },
    {
      "epoch": 0.03831111111111111,
      "grad_norm": 1.08962082862854,
      "learning_rate": 0.00019238052900644588,
      "loss": 2.1573,
      "step": 1724
    },
    {
      "epoch": 0.03833333333333333,
      "grad_norm": 1.3142993450164795,
      "learning_rate": 0.0001923760835741276,
      "loss": 2.4923,
      "step": 1725
    },
    {
      "epoch": 0.03835555555555555,
      "grad_norm": 1.0707851648330688,
      "learning_rate": 0.0001923716381418093,
      "loss": 1.9195,
      "step": 1726
    },
    {
      "epoch": 0.038377777777777775,
      "grad_norm": 1.232883334159851,
      "learning_rate": 0.000192367192709491,
      "loss": 2.4728,
      "step": 1727
    },
    {
      "epoch": 0.0384,
      "grad_norm": 1.2929331064224243,
      "learning_rate": 0.00019236274727717272,
      "loss": 2.4331,
      "step": 1728
    },
    {
      "epoch": 0.038422222222222226,
      "grad_norm": 1.191250205039978,
      "learning_rate": 0.00019235830184485443,
      "loss": 2.2616,
      "step": 1729
    },
    {
      "epoch": 0.03844444444444445,
      "grad_norm": 1.129345417022705,
      "learning_rate": 0.00019235385641253614,
      "loss": 2.0167,
      "step": 1730
    },
    {
      "epoch": 0.03846666666666667,
      "grad_norm": 1.148284912109375,
      "learning_rate": 0.00019234941098021785,
      "loss": 2.053,
      "step": 1731
    },
    {
      "epoch": 0.03848888888888889,
      "grad_norm": 1.1987674236297607,
      "learning_rate": 0.00019234496554789953,
      "loss": 1.875,
      "step": 1732
    },
    {
      "epoch": 0.038511111111111114,
      "grad_norm": 0.9068574905395508,
      "learning_rate": 0.00019234052011558126,
      "loss": 0.7785,
      "step": 1733
    },
    {
      "epoch": 0.038533333333333336,
      "grad_norm": 1.0912137031555176,
      "learning_rate": 0.00019233607468326295,
      "loss": 1.7885,
      "step": 1734
    },
    {
      "epoch": 0.03855555555555556,
      "grad_norm": 1.255879521369934,
      "learning_rate": 0.00019233162925094466,
      "loss": 2.1068,
      "step": 1735
    },
    {
      "epoch": 0.03857777777777778,
      "grad_norm": 1.1832062005996704,
      "learning_rate": 0.00019232718381862637,
      "loss": 2.2488,
      "step": 1736
    },
    {
      "epoch": 0.0386,
      "grad_norm": 1.4971884489059448,
      "learning_rate": 0.00019232273838630808,
      "loss": 2.012,
      "step": 1737
    },
    {
      "epoch": 0.038622222222222224,
      "grad_norm": 1.253125548362732,
      "learning_rate": 0.00019231829295398979,
      "loss": 1.9059,
      "step": 1738
    },
    {
      "epoch": 0.03864444444444445,
      "grad_norm": 1.2260684967041016,
      "learning_rate": 0.0001923138475216715,
      "loss": 1.7284,
      "step": 1739
    },
    {
      "epoch": 0.03866666666666667,
      "grad_norm": 1.1737374067306519,
      "learning_rate": 0.0001923094020893532,
      "loss": 2.164,
      "step": 1740
    },
    {
      "epoch": 0.03868888888888889,
      "grad_norm": 1.16877019405365,
      "learning_rate": 0.0001923049566570349,
      "loss": 2.0229,
      "step": 1741
    },
    {
      "epoch": 0.03871111111111111,
      "grad_norm": 0.9355736374855042,
      "learning_rate": 0.00019230051122471662,
      "loss": 1.0844,
      "step": 1742
    },
    {
      "epoch": 0.038733333333333335,
      "grad_norm": 1.0740021467208862,
      "learning_rate": 0.0001922960657923983,
      "loss": 1.4236,
      "step": 1743
    },
    {
      "epoch": 0.03875555555555556,
      "grad_norm": 1.2170355319976807,
      "learning_rate": 0.00019229162036008002,
      "loss": 1.845,
      "step": 1744
    },
    {
      "epoch": 0.03877777777777778,
      "grad_norm": 1.4682364463806152,
      "learning_rate": 0.00019228717492776173,
      "loss": 2.192,
      "step": 1745
    },
    {
      "epoch": 0.0388,
      "grad_norm": 1.6630189418792725,
      "learning_rate": 0.00019228272949544344,
      "loss": 2.353,
      "step": 1746
    },
    {
      "epoch": 0.03882222222222222,
      "grad_norm": 1.3849523067474365,
      "learning_rate": 0.00019227828406312515,
      "loss": 2.1318,
      "step": 1747
    },
    {
      "epoch": 0.038844444444444445,
      "grad_norm": 1.407485008239746,
      "learning_rate": 0.00019227383863080685,
      "loss": 1.7946,
      "step": 1748
    },
    {
      "epoch": 0.03886666666666667,
      "grad_norm": 1.2454653978347778,
      "learning_rate": 0.00019226939319848856,
      "loss": 1.8537,
      "step": 1749
    },
    {
      "epoch": 0.03888888888888889,
      "grad_norm": 1.2907649278640747,
      "learning_rate": 0.00019226494776617027,
      "loss": 1.8048,
      "step": 1750
    },
    {
      "epoch": 0.03891111111111111,
      "grad_norm": 0.984199047088623,
      "learning_rate": 0.00019226050233385198,
      "loss": 2.1876,
      "step": 1751
    },
    {
      "epoch": 0.038933333333333334,
      "grad_norm": 1.2915271520614624,
      "learning_rate": 0.00019225605690153367,
      "loss": 2.7688,
      "step": 1752
    },
    {
      "epoch": 0.038955555555555556,
      "grad_norm": 1.1002089977264404,
      "learning_rate": 0.0001922516114692154,
      "loss": 2.7393,
      "step": 1753
    },
    {
      "epoch": 0.03897777777777778,
      "grad_norm": 0.9147074222564697,
      "learning_rate": 0.00019224716603689709,
      "loss": 1.3076,
      "step": 1754
    },
    {
      "epoch": 0.039,
      "grad_norm": 0.9948516488075256,
      "learning_rate": 0.0001922427206045788,
      "loss": 2.1483,
      "step": 1755
    },
    {
      "epoch": 0.03902222222222222,
      "grad_norm": 1.1838185787200928,
      "learning_rate": 0.0001922382751722605,
      "loss": 2.004,
      "step": 1756
    },
    {
      "epoch": 0.039044444444444444,
      "grad_norm": 0.9836131930351257,
      "learning_rate": 0.00019223382973994221,
      "loss": 2.2423,
      "step": 1757
    },
    {
      "epoch": 0.039066666666666666,
      "grad_norm": 1.2149583101272583,
      "learning_rate": 0.00019222938430762392,
      "loss": 1.126,
      "step": 1758
    },
    {
      "epoch": 0.03908888888888889,
      "grad_norm": 1.1118990182876587,
      "learning_rate": 0.00019222493887530563,
      "loss": 2.6146,
      "step": 1759
    },
    {
      "epoch": 0.03911111111111111,
      "grad_norm": 0.9626356363296509,
      "learning_rate": 0.00019222049344298734,
      "loss": 1.8598,
      "step": 1760
    },
    {
      "epoch": 0.03913333333333333,
      "grad_norm": 1.1309908628463745,
      "learning_rate": 0.00019221604801066903,
      "loss": 2.3963,
      "step": 1761
    },
    {
      "epoch": 0.039155555555555555,
      "grad_norm": 1.1834784746170044,
      "learning_rate": 0.00019221160257835076,
      "loss": 2.0128,
      "step": 1762
    },
    {
      "epoch": 0.03917777777777778,
      "grad_norm": 1.1508394479751587,
      "learning_rate": 0.00019220715714603245,
      "loss": 2.3134,
      "step": 1763
    },
    {
      "epoch": 0.0392,
      "grad_norm": 1.193302869796753,
      "learning_rate": 0.00019220271171371418,
      "loss": 2.5307,
      "step": 1764
    },
    {
      "epoch": 0.03922222222222222,
      "grad_norm": 1.186457872390747,
      "learning_rate": 0.0001921982662813959,
      "loss": 2.4956,
      "step": 1765
    },
    {
      "epoch": 0.03924444444444444,
      "grad_norm": 1.466609239578247,
      "learning_rate": 0.00019219382084907757,
      "loss": 3.0103,
      "step": 1766
    },
    {
      "epoch": 0.039266666666666665,
      "grad_norm": 1.1625009775161743,
      "learning_rate": 0.0001921893754167593,
      "loss": 2.1725,
      "step": 1767
    },
    {
      "epoch": 0.03928888888888889,
      "grad_norm": 1.0614113807678223,
      "learning_rate": 0.000192184929984441,
      "loss": 1.9708,
      "step": 1768
    },
    {
      "epoch": 0.03931111111111111,
      "grad_norm": 1.2324970960617065,
      "learning_rate": 0.0001921804845521227,
      "loss": 2.3021,
      "step": 1769
    },
    {
      "epoch": 0.03933333333333333,
      "grad_norm": 1.1604976654052734,
      "learning_rate": 0.0001921760391198044,
      "loss": 1.9542,
      "step": 1770
    },
    {
      "epoch": 0.03935555555555555,
      "grad_norm": 1.2036832571029663,
      "learning_rate": 0.00019217159368748612,
      "loss": 1.793,
      "step": 1771
    },
    {
      "epoch": 0.039377777777777775,
      "grad_norm": 1.0490174293518066,
      "learning_rate": 0.0001921671482551678,
      "loss": 1.8467,
      "step": 1772
    },
    {
      "epoch": 0.0394,
      "grad_norm": 1.2819703817367554,
      "learning_rate": 0.00019216270282284954,
      "loss": 2.285,
      "step": 1773
    },
    {
      "epoch": 0.03942222222222222,
      "grad_norm": 1.321698784828186,
      "learning_rate": 0.00019215825739053125,
      "loss": 1.8766,
      "step": 1774
    },
    {
      "epoch": 0.03944444444444444,
      "grad_norm": 1.1334456205368042,
      "learning_rate": 0.00019215381195821293,
      "loss": 1.9917,
      "step": 1775
    },
    {
      "epoch": 0.039466666666666664,
      "grad_norm": 1.4410911798477173,
      "learning_rate": 0.00019214936652589467,
      "loss": 2.2526,
      "step": 1776
    },
    {
      "epoch": 0.039488888888888886,
      "grad_norm": 1.0513566732406616,
      "learning_rate": 0.00019214492109357635,
      "loss": 1.7513,
      "step": 1777
    },
    {
      "epoch": 0.03951111111111111,
      "grad_norm": 1.254146933555603,
      "learning_rate": 0.00019214047566125806,
      "loss": 2.009,
      "step": 1778
    },
    {
      "epoch": 0.03953333333333333,
      "grad_norm": 1.2576804161071777,
      "learning_rate": 0.00019213603022893977,
      "loss": 1.9602,
      "step": 1779
    },
    {
      "epoch": 0.03955555555555555,
      "grad_norm": 1.8374196290969849,
      "learning_rate": 0.00019213158479662148,
      "loss": 2.0253,
      "step": 1780
    },
    {
      "epoch": 0.03957777777777778,
      "grad_norm": 1.1337549686431885,
      "learning_rate": 0.00019212713936430316,
      "loss": 2.1113,
      "step": 1781
    },
    {
      "epoch": 0.0396,
      "grad_norm": 1.330061912536621,
      "learning_rate": 0.0001921226939319849,
      "loss": 2.01,
      "step": 1782
    },
    {
      "epoch": 0.039622222222222225,
      "grad_norm": 2.5931622982025146,
      "learning_rate": 0.0001921182484996666,
      "loss": 0.7704,
      "step": 1783
    },
    {
      "epoch": 0.03964444444444445,
      "grad_norm": 1.2280597686767578,
      "learning_rate": 0.00019211380306734832,
      "loss": 2.1062,
      "step": 1784
    },
    {
      "epoch": 0.03966666666666667,
      "grad_norm": 1.3232183456420898,
      "learning_rate": 0.00019210935763503003,
      "loss": 1.9899,
      "step": 1785
    },
    {
      "epoch": 0.03968888888888889,
      "grad_norm": 1.3776732683181763,
      "learning_rate": 0.0001921049122027117,
      "loss": 2.0363,
      "step": 1786
    },
    {
      "epoch": 0.039711111111111114,
      "grad_norm": 1.3296781778335571,
      "learning_rate": 0.00019210046677039345,
      "loss": 1.9252,
      "step": 1787
    },
    {
      "epoch": 0.039733333333333336,
      "grad_norm": 1.2858179807662964,
      "learning_rate": 0.00019209602133807513,
      "loss": 2.1333,
      "step": 1788
    },
    {
      "epoch": 0.03975555555555556,
      "grad_norm": 1.5770024061203003,
      "learning_rate": 0.00019209157590575684,
      "loss": 1.9526,
      "step": 1789
    },
    {
      "epoch": 0.03977777777777778,
      "grad_norm": 1.169321060180664,
      "learning_rate": 0.00019208713047343855,
      "loss": 1.5478,
      "step": 1790
    },
    {
      "epoch": 0.0398,
      "grad_norm": 1.3757535219192505,
      "learning_rate": 0.00019208268504112026,
      "loss": 1.8472,
      "step": 1791
    },
    {
      "epoch": 0.039822222222222224,
      "grad_norm": 1.3419402837753296,
      "learning_rate": 0.00019207823960880197,
      "loss": 1.7444,
      "step": 1792
    },
    {
      "epoch": 0.039844444444444446,
      "grad_norm": 1.5073256492614746,
      "learning_rate": 0.00019207379417648368,
      "loss": 2.0931,
      "step": 1793
    },
    {
      "epoch": 0.03986666666666667,
      "grad_norm": 1.3753446340560913,
      "learning_rate": 0.0001920693487441654,
      "loss": 1.6753,
      "step": 1794
    },
    {
      "epoch": 0.03988888888888889,
      "grad_norm": 1.4067362546920776,
      "learning_rate": 0.00019206490331184707,
      "loss": 1.6566,
      "step": 1795
    },
    {
      "epoch": 0.03991111111111111,
      "grad_norm": 1.3025190830230713,
      "learning_rate": 0.0001920604578795288,
      "loss": 1.8397,
      "step": 1796
    },
    {
      "epoch": 0.039933333333333335,
      "grad_norm": 1.521903157234192,
      "learning_rate": 0.0001920560124472105,
      "loss": 1.9017,
      "step": 1797
    },
    {
      "epoch": 0.03995555555555556,
      "grad_norm": 1.7126338481903076,
      "learning_rate": 0.0001920515670148922,
      "loss": 2.2629,
      "step": 1798
    },
    {
      "epoch": 0.03997777777777778,
      "grad_norm": 1.5529956817626953,
      "learning_rate": 0.0001920471215825739,
      "loss": 1.6043,
      "step": 1799
    },
    {
      "epoch": 0.04,
      "grad_norm": 1.7723318338394165,
      "learning_rate": 0.00019204267615025562,
      "loss": 2.2176,
      "step": 1800
    },
    {
      "epoch": 0.04002222222222222,
      "grad_norm": 1.1991795301437378,
      "learning_rate": 0.00019203823071793733,
      "loss": 3.281,
      "step": 1801
    },
    {
      "epoch": 0.040044444444444445,
      "grad_norm": 1.3677946329116821,
      "learning_rate": 0.00019203378528561904,
      "loss": 2.1734,
      "step": 1802
    },
    {
      "epoch": 0.04006666666666667,
      "grad_norm": 1.0866068601608276,
      "learning_rate": 0.00019202933985330075,
      "loss": 2.5766,
      "step": 1803
    },
    {
      "epoch": 0.04008888888888889,
      "grad_norm": 1.1193768978118896,
      "learning_rate": 0.00019202489442098246,
      "loss": 2.478,
      "step": 1804
    },
    {
      "epoch": 0.04011111111111111,
      "grad_norm": 1.3724201917648315,
      "learning_rate": 0.00019202044898866417,
      "loss": 2.5114,
      "step": 1805
    },
    {
      "epoch": 0.04013333333333333,
      "grad_norm": 0.9693953394889832,
      "learning_rate": 0.00019201600355634585,
      "loss": 2.2679,
      "step": 1806
    },
    {
      "epoch": 0.040155555555555555,
      "grad_norm": 1.1534337997436523,
      "learning_rate": 0.0001920115581240276,
      "loss": 2.1458,
      "step": 1807
    },
    {
      "epoch": 0.04017777777777778,
      "grad_norm": 1.200800895690918,
      "learning_rate": 0.00019200711269170927,
      "loss": 2.363,
      "step": 1808
    },
    {
      "epoch": 0.0402,
      "grad_norm": 1.1132547855377197,
      "learning_rate": 0.00019200266725939098,
      "loss": 2.1045,
      "step": 1809
    },
    {
      "epoch": 0.04022222222222222,
      "grad_norm": 1.2257728576660156,
      "learning_rate": 0.0001919982218270727,
      "loss": 2.6259,
      "step": 1810
    },
    {
      "epoch": 0.040244444444444444,
      "grad_norm": 0.910944938659668,
      "learning_rate": 0.0001919937763947544,
      "loss": 1.8674,
      "step": 1811
    },
    {
      "epoch": 0.040266666666666666,
      "grad_norm": 1.0394186973571777,
      "learning_rate": 0.0001919893309624361,
      "loss": 2.0576,
      "step": 1812
    },
    {
      "epoch": 0.04028888888888889,
      "grad_norm": 1.2120990753173828,
      "learning_rate": 0.00019198488553011782,
      "loss": 2.1069,
      "step": 1813
    },
    {
      "epoch": 0.04031111111111111,
      "grad_norm": 1.1127886772155762,
      "learning_rate": 0.00019198044009779953,
      "loss": 1.666,
      "step": 1814
    },
    {
      "epoch": 0.04033333333333333,
      "grad_norm": 1.0183290243148804,
      "learning_rate": 0.0001919759946654812,
      "loss": 1.9361,
      "step": 1815
    },
    {
      "epoch": 0.040355555555555554,
      "grad_norm": 1.260033130645752,
      "learning_rate": 0.00019197154923316295,
      "loss": 2.1165,
      "step": 1816
    },
    {
      "epoch": 0.040377777777777776,
      "grad_norm": 1.2956593036651611,
      "learning_rate": 0.00019196710380084463,
      "loss": 2.3572,
      "step": 1817
    },
    {
      "epoch": 0.0404,
      "grad_norm": 1.1641860008239746,
      "learning_rate": 0.00019196265836852634,
      "loss": 1.2891,
      "step": 1818
    },
    {
      "epoch": 0.04042222222222222,
      "grad_norm": 1.1531250476837158,
      "learning_rate": 0.00019195821293620805,
      "loss": 1.7384,
      "step": 1819
    },
    {
      "epoch": 0.04044444444444444,
      "grad_norm": 1.1654103994369507,
      "learning_rate": 0.00019195376750388976,
      "loss": 2.0527,
      "step": 1820
    },
    {
      "epoch": 0.040466666666666665,
      "grad_norm": 1.1668634414672852,
      "learning_rate": 0.00019194932207157147,
      "loss": 2.3365,
      "step": 1821
    },
    {
      "epoch": 0.04048888888888889,
      "grad_norm": 1.055076003074646,
      "learning_rate": 0.00019194487663925318,
      "loss": 1.9914,
      "step": 1822
    },
    {
      "epoch": 0.04051111111111111,
      "grad_norm": 1.306888222694397,
      "learning_rate": 0.0001919404312069349,
      "loss": 2.3354,
      "step": 1823
    },
    {
      "epoch": 0.04053333333333333,
      "grad_norm": 1.0843337774276733,
      "learning_rate": 0.0001919359857746166,
      "loss": 2.1434,
      "step": 1824
    },
    {
      "epoch": 0.04055555555555555,
      "grad_norm": 1.167205810546875,
      "learning_rate": 0.0001919315403422983,
      "loss": 1.9047,
      "step": 1825
    },
    {
      "epoch": 0.040577777777777775,
      "grad_norm": 1.0783348083496094,
      "learning_rate": 0.00019192709490998,
      "loss": 2.0416,
      "step": 1826
    },
    {
      "epoch": 0.0406,
      "grad_norm": 1.4117889404296875,
      "learning_rate": 0.00019192264947766173,
      "loss": 2.6675,
      "step": 1827
    },
    {
      "epoch": 0.04062222222222222,
      "grad_norm": 1.2423501014709473,
      "learning_rate": 0.0001919182040453434,
      "loss": 1.9645,
      "step": 1828
    },
    {
      "epoch": 0.04064444444444444,
      "grad_norm": 1.4264363050460815,
      "learning_rate": 0.00019191375861302512,
      "loss": 2.4745,
      "step": 1829
    },
    {
      "epoch": 0.04066666666666666,
      "grad_norm": 1.229703426361084,
      "learning_rate": 0.00019190931318070683,
      "loss": 2.2294,
      "step": 1830
    },
    {
      "epoch": 0.040688888888888886,
      "grad_norm": 1.2256559133529663,
      "learning_rate": 0.00019190486774838854,
      "loss": 2.0544,
      "step": 1831
    },
    {
      "epoch": 0.040711111111111115,
      "grad_norm": 1.4052708148956299,
      "learning_rate": 0.00019190042231607025,
      "loss": 2.5493,
      "step": 1832
    },
    {
      "epoch": 0.04073333333333334,
      "grad_norm": 1.0882868766784668,
      "learning_rate": 0.00019189597688375196,
      "loss": 1.7074,
      "step": 1833
    },
    {
      "epoch": 0.04075555555555556,
      "grad_norm": 1.136404037475586,
      "learning_rate": 0.00019189153145143367,
      "loss": 1.7895,
      "step": 1834
    },
    {
      "epoch": 0.04077777777777778,
      "grad_norm": 1.478893756866455,
      "learning_rate": 0.00019188708601911535,
      "loss": 2.1396,
      "step": 1835
    },
    {
      "epoch": 0.0408,
      "grad_norm": 1.1789064407348633,
      "learning_rate": 0.00019188264058679708,
      "loss": 1.9921,
      "step": 1836
    },
    {
      "epoch": 0.040822222222222225,
      "grad_norm": 1.2615991830825806,
      "learning_rate": 0.00019187819515447877,
      "loss": 1.9984,
      "step": 1837
    },
    {
      "epoch": 0.04084444444444445,
      "grad_norm": 1.2081987857818604,
      "learning_rate": 0.00019187374972216048,
      "loss": 1.7769,
      "step": 1838
    },
    {
      "epoch": 0.04086666666666667,
      "grad_norm": 2.0135223865509033,
      "learning_rate": 0.0001918693042898422,
      "loss": 2.5425,
      "step": 1839
    },
    {
      "epoch": 0.04088888888888889,
      "grad_norm": 1.2716548442840576,
      "learning_rate": 0.0001918648588575239,
      "loss": 1.8521,
      "step": 1840
    },
    {
      "epoch": 0.04091111111111111,
      "grad_norm": 1.3172060251235962,
      "learning_rate": 0.00019186041342520563,
      "loss": 1.8708,
      "step": 1841
    },
    {
      "epoch": 0.040933333333333335,
      "grad_norm": 1.390977144241333,
      "learning_rate": 0.00019185596799288732,
      "loss": 2.1785,
      "step": 1842
    },
    {
      "epoch": 0.04095555555555556,
      "grad_norm": 1.1495133638381958,
      "learning_rate": 0.00019185152256056902,
      "loss": 1.8629,
      "step": 1843
    },
    {
      "epoch": 0.04097777777777778,
      "grad_norm": 1.3957880735397339,
      "learning_rate": 0.00019184707712825073,
      "loss": 1.938,
      "step": 1844
    },
    {
      "epoch": 0.041,
      "grad_norm": 1.5530160665512085,
      "learning_rate": 0.00019184263169593244,
      "loss": 2.178,
      "step": 1845
    },
    {
      "epoch": 0.041022222222222224,
      "grad_norm": 1.5242080688476562,
      "learning_rate": 0.00019183818626361413,
      "loss": 2.2788,
      "step": 1846
    },
    {
      "epoch": 0.041044444444444446,
      "grad_norm": 1.5541326999664307,
      "learning_rate": 0.00019183374083129586,
      "loss": 2.0234,
      "step": 1847
    },
    {
      "epoch": 0.04106666666666667,
      "grad_norm": 1.292238712310791,
      "learning_rate": 0.00019182929539897757,
      "loss": 1.8976,
      "step": 1848
    },
    {
      "epoch": 0.04108888888888889,
      "grad_norm": 1.21194589138031,
      "learning_rate": 0.00019182484996665926,
      "loss": 1.8551,
      "step": 1849
    },
    {
      "epoch": 0.04111111111111111,
      "grad_norm": 1.2845172882080078,
      "learning_rate": 0.000191820404534341,
      "loss": 1.1576,
      "step": 1850
    },
    {
      "epoch": 0.041133333333333334,
      "grad_norm": 1.0696463584899902,
      "learning_rate": 0.00019181595910202267,
      "loss": 1.1998,
      "step": 1851
    },
    {
      "epoch": 0.041155555555555556,
      "grad_norm": 0.9326448440551758,
      "learning_rate": 0.00019181151366970438,
      "loss": 2.2532,
      "step": 1852
    },
    {
      "epoch": 0.04117777777777778,
      "grad_norm": 0.9580495953559875,
      "learning_rate": 0.0001918070682373861,
      "loss": 2.2173,
      "step": 1853
    },
    {
      "epoch": 0.0412,
      "grad_norm": 1.163463830947876,
      "learning_rate": 0.0001918026228050678,
      "loss": 2.4942,
      "step": 1854
    },
    {
      "epoch": 0.04122222222222222,
      "grad_norm": 1.0326623916625977,
      "learning_rate": 0.00019179817737274949,
      "loss": 2.2857,
      "step": 1855
    },
    {
      "epoch": 0.041244444444444445,
      "grad_norm": 1.1594367027282715,
      "learning_rate": 0.00019179373194043122,
      "loss": 2.4411,
      "step": 1856
    },
    {
      "epoch": 0.04126666666666667,
      "grad_norm": 0.9663302898406982,
      "learning_rate": 0.00019178928650811293,
      "loss": 2.3332,
      "step": 1857
    },
    {
      "epoch": 0.04128888888888889,
      "grad_norm": 1.1134085655212402,
      "learning_rate": 0.00019178484107579464,
      "loss": 2.2708,
      "step": 1858
    },
    {
      "epoch": 0.04131111111111111,
      "grad_norm": 1.1311769485473633,
      "learning_rate": 0.00019178039564347635,
      "loss": 2.0297,
      "step": 1859
    },
    {
      "epoch": 0.04133333333333333,
      "grad_norm": 1.1480071544647217,
      "learning_rate": 0.00019177595021115803,
      "loss": 2.255,
      "step": 1860
    },
    {
      "epoch": 0.041355555555555555,
      "grad_norm": 1.3008390665054321,
      "learning_rate": 0.00019177150477883977,
      "loss": 2.2869,
      "step": 1861
    },
    {
      "epoch": 0.04137777777777778,
      "grad_norm": 1.1569377183914185,
      "learning_rate": 0.00019176705934652145,
      "loss": 2.0248,
      "step": 1862
    },
    {
      "epoch": 0.0414,
      "grad_norm": 1.2025002241134644,
      "learning_rate": 0.00019176261391420316,
      "loss": 2.5978,
      "step": 1863
    },
    {
      "epoch": 0.04142222222222222,
      "grad_norm": 1.0956943035125732,
      "learning_rate": 0.00019175816848188487,
      "loss": 1.7053,
      "step": 1864
    },
    {
      "epoch": 0.041444444444444443,
      "grad_norm": 1.1871134042739868,
      "learning_rate": 0.00019175372304956658,
      "loss": 2.1594,
      "step": 1865
    },
    {
      "epoch": 0.041466666666666666,
      "grad_norm": 1.2127585411071777,
      "learning_rate": 0.0001917492776172483,
      "loss": 2.8572,
      "step": 1866
    },
    {
      "epoch": 0.04148888888888889,
      "grad_norm": 1.0137825012207031,
      "learning_rate": 0.00019174483218493,
      "loss": 2.019,
      "step": 1867
    },
    {
      "epoch": 0.04151111111111111,
      "grad_norm": 1.3373006582260132,
      "learning_rate": 0.0001917403867526117,
      "loss": 2.3209,
      "step": 1868
    },
    {
      "epoch": 0.04153333333333333,
      "grad_norm": 1.067268967628479,
      "learning_rate": 0.0001917359413202934,
      "loss": 2.2086,
      "step": 1869
    },
    {
      "epoch": 0.041555555555555554,
      "grad_norm": 1.0184361934661865,
      "learning_rate": 0.00019173149588797513,
      "loss": 1.8515,
      "step": 1870
    },
    {
      "epoch": 0.041577777777777776,
      "grad_norm": 1.0436663627624512,
      "learning_rate": 0.0001917270504556568,
      "loss": 1.9124,
      "step": 1871
    },
    {
      "epoch": 0.0416,
      "grad_norm": 1.1637758016586304,
      "learning_rate": 0.00019172260502333852,
      "loss": 2.2636,
      "step": 1872
    },
    {
      "epoch": 0.04162222222222222,
      "grad_norm": 1.303212285041809,
      "learning_rate": 0.00019171815959102023,
      "loss": 2.1515,
      "step": 1873
    },
    {
      "epoch": 0.04164444444444444,
      "grad_norm": 1.107704997062683,
      "learning_rate": 0.00019171371415870194,
      "loss": 1.749,
      "step": 1874
    },
    {
      "epoch": 0.041666666666666664,
      "grad_norm": 1.062366008758545,
      "learning_rate": 0.00019170926872638365,
      "loss": 1.793,
      "step": 1875
    },
    {
      "epoch": 0.041688888888888886,
      "grad_norm": 1.4433813095092773,
      "learning_rate": 0.00019170482329406536,
      "loss": 2.0772,
      "step": 1876
    },
    {
      "epoch": 0.04171111111111111,
      "grad_norm": 1.2462506294250488,
      "learning_rate": 0.00019170037786174707,
      "loss": 2.0799,
      "step": 1877
    },
    {
      "epoch": 0.04173333333333333,
      "grad_norm": 1.2223600149154663,
      "learning_rate": 0.00019169593242942878,
      "loss": 2.1752,
      "step": 1878
    },
    {
      "epoch": 0.04175555555555555,
      "grad_norm": 1.185003638267517,
      "learning_rate": 0.0001916914869971105,
      "loss": 2.1943,
      "step": 1879
    },
    {
      "epoch": 0.041777777777777775,
      "grad_norm": 1.332453966140747,
      "learning_rate": 0.00019168704156479217,
      "loss": 2.0462,
      "step": 1880
    },
    {
      "epoch": 0.0418,
      "grad_norm": 1.2166739702224731,
      "learning_rate": 0.0001916825961324739,
      "loss": 2.085,
      "step": 1881
    },
    {
      "epoch": 0.04182222222222222,
      "grad_norm": 1.2287523746490479,
      "learning_rate": 0.0001916781507001556,
      "loss": 2.1032,
      "step": 1882
    },
    {
      "epoch": 0.04184444444444444,
      "grad_norm": 1.4310650825500488,
      "learning_rate": 0.0001916737052678373,
      "loss": 1.8752,
      "step": 1883
    },
    {
      "epoch": 0.04186666666666667,
      "grad_norm": 1.894676923751831,
      "learning_rate": 0.000191669259835519,
      "loss": 1.5636,
      "step": 1884
    },
    {
      "epoch": 0.04188888888888889,
      "grad_norm": 1.3769009113311768,
      "learning_rate": 0.00019166481440320072,
      "loss": 2.1381,
      "step": 1885
    },
    {
      "epoch": 0.041911111111111114,
      "grad_norm": 1.2243010997772217,
      "learning_rate": 0.00019166036897088243,
      "loss": 2.2507,
      "step": 1886
    },
    {
      "epoch": 0.041933333333333336,
      "grad_norm": 1.433355689048767,
      "learning_rate": 0.00019165592353856414,
      "loss": 2.3409,
      "step": 1887
    },
    {
      "epoch": 0.04195555555555556,
      "grad_norm": 1.450310230255127,
      "learning_rate": 0.00019165147810624585,
      "loss": 2.1942,
      "step": 1888
    },
    {
      "epoch": 0.04197777777777778,
      "grad_norm": 1.0777829885482788,
      "learning_rate": 0.00019164703267392753,
      "loss": 1.0536,
      "step": 1889
    },
    {
      "epoch": 0.042,
      "grad_norm": 1.162574052810669,
      "learning_rate": 0.00019164258724160927,
      "loss": 1.9861,
      "step": 1890
    },
    {
      "epoch": 0.042022222222222225,
      "grad_norm": 1.26123046875,
      "learning_rate": 0.00019163814180929095,
      "loss": 1.8709,
      "step": 1891
    },
    {
      "epoch": 0.04204444444444445,
      "grad_norm": 1.343668818473816,
      "learning_rate": 0.00019163369637697266,
      "loss": 2.2974,
      "step": 1892
    },
    {
      "epoch": 0.04206666666666667,
      "grad_norm": 1.3049241304397583,
      "learning_rate": 0.00019162925094465437,
      "loss": 1.8877,
      "step": 1893
    },
    {
      "epoch": 0.04208888888888889,
      "grad_norm": 1.3508896827697754,
      "learning_rate": 0.00019162480551233608,
      "loss": 1.475,
      "step": 1894
    },
    {
      "epoch": 0.04211111111111111,
      "grad_norm": 1.3263405561447144,
      "learning_rate": 0.0001916203600800178,
      "loss": 2.1018,
      "step": 1895
    },
    {
      "epoch": 0.042133333333333335,
      "grad_norm": 1.1588985919952393,
      "learning_rate": 0.0001916159146476995,
      "loss": 1.8846,
      "step": 1896
    },
    {
      "epoch": 0.04215555555555556,
      "grad_norm": 1.2116475105285645,
      "learning_rate": 0.0001916114692153812,
      "loss": 1.7266,
      "step": 1897
    },
    {
      "epoch": 0.04217777777777778,
      "grad_norm": 1.6070256233215332,
      "learning_rate": 0.00019160702378306292,
      "loss": 1.507,
      "step": 1898
    },
    {
      "epoch": 0.0422,
      "grad_norm": 1.2048518657684326,
      "learning_rate": 0.00019160257835074463,
      "loss": 1.6388,
      "step": 1899
    },
    {
      "epoch": 0.042222222222222223,
      "grad_norm": 1.258184790611267,
      "learning_rate": 0.0001915981329184263,
      "loss": 1.0054,
      "step": 1900
    },
    {
      "epoch": 0.042244444444444446,
      "grad_norm": 0.9699717164039612,
      "learning_rate": 0.00019159368748610805,
      "loss": 2.2259,
      "step": 1901
    },
    {
      "epoch": 0.04226666666666667,
      "grad_norm": 0.9850199222564697,
      "learning_rate": 0.00019158924205378973,
      "loss": 2.2399,
      "step": 1902
    },
    {
      "epoch": 0.04228888888888889,
      "grad_norm": 1.1542946100234985,
      "learning_rate": 0.00019158479662147144,
      "loss": 2.7975,
      "step": 1903
    },
    {
      "epoch": 0.04231111111111111,
      "grad_norm": 1.0074743032455444,
      "learning_rate": 0.00019158035118915315,
      "loss": 2.0686,
      "step": 1904
    },
    {
      "epoch": 0.042333333333333334,
      "grad_norm": 1.0204215049743652,
      "learning_rate": 0.00019157590575683486,
      "loss": 2.3164,
      "step": 1905
    },
    {
      "epoch": 0.042355555555555556,
      "grad_norm": 1.078226923942566,
      "learning_rate": 0.00019157146032451657,
      "loss": 2.4789,
      "step": 1906
    },
    {
      "epoch": 0.04237777777777778,
      "grad_norm": 1.1347357034683228,
      "learning_rate": 0.00019156701489219828,
      "loss": 2.1502,
      "step": 1907
    },
    {
      "epoch": 0.0424,
      "grad_norm": 1.0686572790145874,
      "learning_rate": 0.00019156256945988,
      "loss": 2.4498,
      "step": 1908
    },
    {
      "epoch": 0.04242222222222222,
      "grad_norm": 1.219796061515808,
      "learning_rate": 0.00019155812402756167,
      "loss": 2.1141,
      "step": 1909
    },
    {
      "epoch": 0.042444444444444444,
      "grad_norm": 1.14406156539917,
      "learning_rate": 0.0001915536785952434,
      "loss": 2.4928,
      "step": 1910
    },
    {
      "epoch": 0.042466666666666666,
      "grad_norm": 1.0536446571350098,
      "learning_rate": 0.0001915492331629251,
      "loss": 2.208,
      "step": 1911
    },
    {
      "epoch": 0.04248888888888889,
      "grad_norm": 0.9767941832542419,
      "learning_rate": 0.0001915447877306068,
      "loss": 2.286,
      "step": 1912
    },
    {
      "epoch": 0.04251111111111111,
      "grad_norm": 1.0415289402008057,
      "learning_rate": 0.00019154034229828854,
      "loss": 1.9729,
      "step": 1913
    },
    {
      "epoch": 0.04253333333333333,
      "grad_norm": 1.1619441509246826,
      "learning_rate": 0.00019153589686597022,
      "loss": 1.7091,
      "step": 1914
    },
    {
      "epoch": 0.042555555555555555,
      "grad_norm": 1.118539571762085,
      "learning_rate": 0.00019153145143365195,
      "loss": 2.1521,
      "step": 1915
    },
    {
      "epoch": 0.04257777777777778,
      "grad_norm": 1.1259968280792236,
      "learning_rate": 0.00019152700600133364,
      "loss": 2.5297,
      "step": 1916
    },
    {
      "epoch": 0.0426,
      "grad_norm": 1.3698863983154297,
      "learning_rate": 0.00019152256056901535,
      "loss": 1.892,
      "step": 1917
    },
    {
      "epoch": 0.04262222222222222,
      "grad_norm": 1.1201448440551758,
      "learning_rate": 0.00019151811513669706,
      "loss": 2.1697,
      "step": 1918
    },
    {
      "epoch": 0.04264444444444444,
      "grad_norm": 1.2097538709640503,
      "learning_rate": 0.00019151366970437877,
      "loss": 2.183,
      "step": 1919
    },
    {
      "epoch": 0.042666666666666665,
      "grad_norm": 1.2014886140823364,
      "learning_rate": 0.00019150922427206045,
      "loss": 2.2489,
      "step": 1920
    },
    {
      "epoch": 0.04268888888888889,
      "grad_norm": 1.113774061203003,
      "learning_rate": 0.00019150477883974219,
      "loss": 2.1225,
      "step": 1921
    },
    {
      "epoch": 0.04271111111111111,
      "grad_norm": 1.1442086696624756,
      "learning_rate": 0.0001915003334074239,
      "loss": 1.9999,
      "step": 1922
    },
    {
      "epoch": 0.04273333333333333,
      "grad_norm": 1.0915108919143677,
      "learning_rate": 0.00019149588797510558,
      "loss": 2.1103,
      "step": 1923
    },
    {
      "epoch": 0.042755555555555554,
      "grad_norm": 1.295320749282837,
      "learning_rate": 0.00019149144254278731,
      "loss": 2.3109,
      "step": 1924
    },
    {
      "epoch": 0.042777777777777776,
      "grad_norm": 1.1278232336044312,
      "learning_rate": 0.000191486997110469,
      "loss": 1.6493,
      "step": 1925
    },
    {
      "epoch": 0.0428,
      "grad_norm": 1.3750613927841187,
      "learning_rate": 0.0001914825516781507,
      "loss": 2.5288,
      "step": 1926
    },
    {
      "epoch": 0.04282222222222222,
      "grad_norm": 1.1537458896636963,
      "learning_rate": 0.00019147810624583242,
      "loss": 1.7565,
      "step": 1927
    },
    {
      "epoch": 0.04284444444444444,
      "grad_norm": 1.107997179031372,
      "learning_rate": 0.00019147366081351413,
      "loss": 2.2038,
      "step": 1928
    },
    {
      "epoch": 0.042866666666666664,
      "grad_norm": 2.357999086380005,
      "learning_rate": 0.0001914692153811958,
      "loss": 2.1204,
      "step": 1929
    },
    {
      "epoch": 0.042888888888888886,
      "grad_norm": 1.1876354217529297,
      "learning_rate": 0.00019146476994887754,
      "loss": 2.0501,
      "step": 1930
    },
    {
      "epoch": 0.04291111111111111,
      "grad_norm": 1.4727190732955933,
      "learning_rate": 0.00019146032451655925,
      "loss": 2.4526,
      "step": 1931
    },
    {
      "epoch": 0.04293333333333333,
      "grad_norm": 1.2574357986450195,
      "learning_rate": 0.00019145587908424094,
      "loss": 2.4175,
      "step": 1932
    },
    {
      "epoch": 0.04295555555555555,
      "grad_norm": 1.3092460632324219,
      "learning_rate": 0.00019145143365192267,
      "loss": 1.9369,
      "step": 1933
    },
    {
      "epoch": 0.042977777777777774,
      "grad_norm": 0.7002347111701965,
      "learning_rate": 0.00019144698821960436,
      "loss": 0.8446,
      "step": 1934
    },
    {
      "epoch": 0.043,
      "grad_norm": 1.3503941297531128,
      "learning_rate": 0.0001914425427872861,
      "loss": 2.1603,
      "step": 1935
    },
    {
      "epoch": 0.043022222222222226,
      "grad_norm": 1.2673624753952026,
      "learning_rate": 0.00019143809735496778,
      "loss": 2.2836,
      "step": 1936
    },
    {
      "epoch": 0.04304444444444445,
      "grad_norm": 1.2485898733139038,
      "learning_rate": 0.00019143365192264949,
      "loss": 1.973,
      "step": 1937
    },
    {
      "epoch": 0.04306666666666667,
      "grad_norm": 1.2386231422424316,
      "learning_rate": 0.0001914292064903312,
      "loss": 2.2743,
      "step": 1938
    },
    {
      "epoch": 0.04308888888888889,
      "grad_norm": 1.2765767574310303,
      "learning_rate": 0.0001914247610580129,
      "loss": 1.9542,
      "step": 1939
    },
    {
      "epoch": 0.043111111111111114,
      "grad_norm": 1.3189082145690918,
      "learning_rate": 0.00019142031562569461,
      "loss": 2.005,
      "step": 1940
    },
    {
      "epoch": 0.043133333333333336,
      "grad_norm": 1.1719998121261597,
      "learning_rate": 0.00019141587019337632,
      "loss": 1.6759,
      "step": 1941
    },
    {
      "epoch": 0.04315555555555556,
      "grad_norm": 1.3698196411132812,
      "learning_rate": 0.00019141142476105803,
      "loss": 2.3095,
      "step": 1942
    },
    {
      "epoch": 0.04317777777777778,
      "grad_norm": 1.6985986232757568,
      "learning_rate": 0.00019140697932873972,
      "loss": 1.8207,
      "step": 1943
    },
    {
      "epoch": 0.0432,
      "grad_norm": 1.4392225742340088,
      "learning_rate": 0.00019140253389642145,
      "loss": 2.0524,
      "step": 1944
    },
    {
      "epoch": 0.043222222222222224,
      "grad_norm": 1.4467380046844482,
      "learning_rate": 0.00019139808846410313,
      "loss": 2.2741,
      "step": 1945
    },
    {
      "epoch": 0.043244444444444446,
      "grad_norm": 1.2616316080093384,
      "learning_rate": 0.00019139364303178484,
      "loss": 2.1121,
      "step": 1946
    },
    {
      "epoch": 0.04326666666666667,
      "grad_norm": 1.4060750007629395,
      "learning_rate": 0.00019138919759946655,
      "loss": 1.3509,
      "step": 1947
    },
    {
      "epoch": 0.04328888888888889,
      "grad_norm": 1.632578730583191,
      "learning_rate": 0.00019138475216714826,
      "loss": 1.7544,
      "step": 1948
    },
    {
      "epoch": 0.04331111111111111,
      "grad_norm": 1.547832727432251,
      "learning_rate": 0.00019138030673482997,
      "loss": 1.671,
      "step": 1949
    },
    {
      "epoch": 0.043333333333333335,
      "grad_norm": 1.5339981317520142,
      "learning_rate": 0.00019137586130251168,
      "loss": 0.7453,
      "step": 1950
    },
    {
      "epoch": 0.04335555555555556,
      "grad_norm": 1.1269524097442627,
      "learning_rate": 0.0001913714158701934,
      "loss": 2.4914,
      "step": 1951
    },
    {
      "epoch": 0.04337777777777778,
      "grad_norm": 0.9670594334602356,
      "learning_rate": 0.00019136697043787508,
      "loss": 2.0237,
      "step": 1952
    },
    {
      "epoch": 0.0434,
      "grad_norm": 1.0013749599456787,
      "learning_rate": 0.0001913625250055568,
      "loss": 2.1902,
      "step": 1953
    },
    {
      "epoch": 0.04342222222222222,
      "grad_norm": 0.9302488565444946,
      "learning_rate": 0.0001913580795732385,
      "loss": 0.0561,
      "step": 1954
    },
    {
      "epoch": 0.043444444444444445,
      "grad_norm": 1.3020941019058228,
      "learning_rate": 0.00019135363414092023,
      "loss": 2.0093,
      "step": 1955
    },
    {
      "epoch": 0.04346666666666667,
      "grad_norm": 1.2969642877578735,
      "learning_rate": 0.00019134918870860191,
      "loss": 2.6568,
      "step": 1956
    },
    {
      "epoch": 0.04348888888888889,
      "grad_norm": 1.1942919492721558,
      "learning_rate": 0.00019134474327628362,
      "loss": 2.7805,
      "step": 1957
    },
    {
      "epoch": 0.04351111111111111,
      "grad_norm": 1.395605206489563,
      "learning_rate": 0.00019134029784396533,
      "loss": 2.2032,
      "step": 1958
    },
    {
      "epoch": 0.043533333333333334,
      "grad_norm": 1.089299201965332,
      "learning_rate": 0.00019133585241164704,
      "loss": 2.3004,
      "step": 1959
    },
    {
      "epoch": 0.043555555555555556,
      "grad_norm": 1.1255239248275757,
      "learning_rate": 0.00019133140697932875,
      "loss": 1.267,
      "step": 1960
    },
    {
      "epoch": 0.04357777777777778,
      "grad_norm": 1.1029146909713745,
      "learning_rate": 0.00019132696154701046,
      "loss": 1.8903,
      "step": 1961
    },
    {
      "epoch": 0.0436,
      "grad_norm": 1.4411638975143433,
      "learning_rate": 0.00019132251611469217,
      "loss": 2.3138,
      "step": 1962
    },
    {
      "epoch": 0.04362222222222222,
      "grad_norm": 1.036385416984558,
      "learning_rate": 0.00019131807068237385,
      "loss": 2.1527,
      "step": 1963
    },
    {
      "epoch": 0.043644444444444444,
      "grad_norm": 1.1047844886779785,
      "learning_rate": 0.0001913136252500556,
      "loss": 2.4258,
      "step": 1964
    },
    {
      "epoch": 0.043666666666666666,
      "grad_norm": 1.3916735649108887,
      "learning_rate": 0.00019130917981773727,
      "loss": 1.8861,
      "step": 1965
    },
    {
      "epoch": 0.04368888888888889,
      "grad_norm": 1.0504308938980103,
      "learning_rate": 0.00019130473438541898,
      "loss": 1.9441,
      "step": 1966
    },
    {
      "epoch": 0.04371111111111111,
      "grad_norm": 1.0184171199798584,
      "learning_rate": 0.0001913002889531007,
      "loss": 1.4679,
      "step": 1967
    },
    {
      "epoch": 0.04373333333333333,
      "grad_norm": 1.156490683555603,
      "learning_rate": 0.0001912958435207824,
      "loss": 1.7375,
      "step": 1968
    },
    {
      "epoch": 0.043755555555555554,
      "grad_norm": 1.1118831634521484,
      "learning_rate": 0.0001912913980884641,
      "loss": 2.0988,
      "step": 1969
    },
    {
      "epoch": 0.04377777777777778,
      "grad_norm": 1.3156795501708984,
      "learning_rate": 0.00019128695265614582,
      "loss": 2.2782,
      "step": 1970
    },
    {
      "epoch": 0.0438,
      "grad_norm": 1.2438026666641235,
      "learning_rate": 0.00019128250722382753,
      "loss": 2.2393,
      "step": 1971
    },
    {
      "epoch": 0.04382222222222222,
      "grad_norm": 1.1352112293243408,
      "learning_rate": 0.00019127806179150924,
      "loss": 1.9712,
      "step": 1972
    },
    {
      "epoch": 0.04384444444444444,
      "grad_norm": 1.2578608989715576,
      "learning_rate": 0.00019127361635919095,
      "loss": 1.9257,
      "step": 1973
    },
    {
      "epoch": 0.043866666666666665,
      "grad_norm": 1.28665292263031,
      "learning_rate": 0.00019126917092687263,
      "loss": 2.2718,
      "step": 1974
    },
    {
      "epoch": 0.04388888888888889,
      "grad_norm": 1.2211873531341553,
      "learning_rate": 0.00019126472549455437,
      "loss": 1.4196,
      "step": 1975
    },
    {
      "epoch": 0.04391111111111111,
      "grad_norm": 0.8537003993988037,
      "learning_rate": 0.00019126028006223605,
      "loss": 1.1943,
      "step": 1976
    },
    {
      "epoch": 0.04393333333333333,
      "grad_norm": 1.29036283493042,
      "learning_rate": 0.00019125583462991776,
      "loss": 2.3325,
      "step": 1977
    },
    {
      "epoch": 0.04395555555555555,
      "grad_norm": 1.3858702182769775,
      "learning_rate": 0.00019125138919759947,
      "loss": 2.1372,
      "step": 1978
    },
    {
      "epoch": 0.043977777777777775,
      "grad_norm": 1.198378324508667,
      "learning_rate": 0.00019124694376528118,
      "loss": 1.8914,
      "step": 1979
    },
    {
      "epoch": 0.044,
      "grad_norm": 1.4767128229141235,
      "learning_rate": 0.0001912424983329629,
      "loss": 2.2288,
      "step": 1980
    },
    {
      "epoch": 0.04402222222222222,
      "grad_norm": 1.3688275814056396,
      "learning_rate": 0.0001912380529006446,
      "loss": 2.3921,
      "step": 1981
    },
    {
      "epoch": 0.04404444444444444,
      "grad_norm": 1.4493945837020874,
      "learning_rate": 0.0001912336074683263,
      "loss": 2.1145,
      "step": 1982
    },
    {
      "epoch": 0.044066666666666664,
      "grad_norm": 1.1819411516189575,
      "learning_rate": 0.000191229162036008,
      "loss": 2.0534,
      "step": 1983
    },
    {
      "epoch": 0.044088888888888886,
      "grad_norm": 1.3783243894577026,
      "learning_rate": 0.00019122471660368973,
      "loss": 2.0948,
      "step": 1984
    },
    {
      "epoch": 0.04411111111111111,
      "grad_norm": 1.2227838039398193,
      "learning_rate": 0.0001912202711713714,
      "loss": 1.8041,
      "step": 1985
    },
    {
      "epoch": 0.04413333333333333,
      "grad_norm": 1.240958571434021,
      "learning_rate": 0.00019121582573905312,
      "loss": 2.1281,
      "step": 1986
    },
    {
      "epoch": 0.04415555555555556,
      "grad_norm": 1.241132378578186,
      "learning_rate": 0.00019121138030673486,
      "loss": 1.5316,
      "step": 1987
    },
    {
      "epoch": 0.04417777777777778,
      "grad_norm": 1.322931170463562,
      "learning_rate": 0.00019120693487441654,
      "loss": 1.7657,
      "step": 1988
    },
    {
      "epoch": 0.0442,
      "grad_norm": 1.4412667751312256,
      "learning_rate": 0.00019120248944209825,
      "loss": 1.9451,
      "step": 1989
    },
    {
      "epoch": 0.044222222222222225,
      "grad_norm": 1.4083698987960815,
      "learning_rate": 0.00019119804400977996,
      "loss": 2.0041,
      "step": 1990
    },
    {
      "epoch": 0.04424444444444445,
      "grad_norm": 1.2746927738189697,
      "learning_rate": 0.00019119359857746167,
      "loss": 1.8777,
      "step": 1991
    },
    {
      "epoch": 0.04426666666666667,
      "grad_norm": 1.3022764921188354,
      "learning_rate": 0.00019118915314514338,
      "loss": 1.8062,
      "step": 1992
    },
    {
      "epoch": 0.04428888888888889,
      "grad_norm": 1.1984270811080933,
      "learning_rate": 0.0001911847077128251,
      "loss": 1.7355,
      "step": 1993
    },
    {
      "epoch": 0.044311111111111114,
      "grad_norm": 1.4208557605743408,
      "learning_rate": 0.00019118026228050677,
      "loss": 1.7095,
      "step": 1994
    },
    {
      "epoch": 0.044333333333333336,
      "grad_norm": 1.6517865657806396,
      "learning_rate": 0.0001911758168481885,
      "loss": 1.9629,
      "step": 1995
    },
    {
      "epoch": 0.04435555555555556,
      "grad_norm": 1.5286154747009277,
      "learning_rate": 0.00019117137141587022,
      "loss": 2.1979,
      "step": 1996
    },
    {
      "epoch": 0.04437777777777778,
      "grad_norm": 1.7356926202774048,
      "learning_rate": 0.0001911669259835519,
      "loss": 0.1054,
      "step": 1997
    },
    {
      "epoch": 0.0444,
      "grad_norm": 1.2469139099121094,
      "learning_rate": 0.00019116248055123364,
      "loss": 1.1958,
      "step": 1998
    },
    {
      "epoch": 0.044422222222222224,
      "grad_norm": 1.6873579025268555,
      "learning_rate": 0.00019115803511891532,
      "loss": 1.839,
      "step": 1999
    },
    {
      "epoch": 0.044444444444444446,
      "grad_norm": 1.4254117012023926,
      "learning_rate": 0.00019115358968659703,
      "loss": 1.5337,
      "step": 2000
    },
    {
      "epoch": 0.04446666666666667,
      "grad_norm": 1.0838704109191895,
      "learning_rate": 0.00019114914425427874,
      "loss": 1.106,
      "step": 2001
    },
    {
      "epoch": 0.04448888888888889,
      "grad_norm": 0.7966216206550598,
      "learning_rate": 0.00019114469882196045,
      "loss": 1.2112,
      "step": 2002
    },
    {
      "epoch": 0.04451111111111111,
      "grad_norm": 1.0265352725982666,
      "learning_rate": 0.00019114025338964213,
      "loss": 2.415,
      "step": 2003
    },
    {
      "epoch": 0.044533333333333334,
      "grad_norm": 1.2135584354400635,
      "learning_rate": 0.00019113580795732387,
      "loss": 2.7277,
      "step": 2004
    },
    {
      "epoch": 0.04455555555555556,
      "grad_norm": 1.117538332939148,
      "learning_rate": 0.00019113136252500558,
      "loss": 2.5271,
      "step": 2005
    },
    {
      "epoch": 0.04457777777777778,
      "grad_norm": 1.1192454099655151,
      "learning_rate": 0.00019112691709268726,
      "loss": 2.2969,
      "step": 2006
    },
    {
      "epoch": 0.0446,
      "grad_norm": 1.1067897081375122,
      "learning_rate": 0.000191122471660369,
      "loss": 2.2771,
      "step": 2007
    },
    {
      "epoch": 0.04462222222222222,
      "grad_norm": 1.0281237363815308,
      "learning_rate": 0.00019111802622805068,
      "loss": 2.0571,
      "step": 2008
    },
    {
      "epoch": 0.044644444444444445,
      "grad_norm": 1.2204391956329346,
      "learning_rate": 0.0001911135807957324,
      "loss": 2.255,
      "step": 2009
    },
    {
      "epoch": 0.04466666666666667,
      "grad_norm": 1.030470609664917,
      "learning_rate": 0.0001911091353634141,
      "loss": 1.4896,
      "step": 2010
    },
    {
      "epoch": 0.04468888888888889,
      "grad_norm": 1.093339204788208,
      "learning_rate": 0.0001911046899310958,
      "loss": 1.9308,
      "step": 2011
    },
    {
      "epoch": 0.04471111111111111,
      "grad_norm": 1.2781885862350464,
      "learning_rate": 0.00019110024449877752,
      "loss": 2.6854,
      "step": 2012
    },
    {
      "epoch": 0.04473333333333333,
      "grad_norm": 1.1154255867004395,
      "learning_rate": 0.00019109579906645923,
      "loss": 1.9294,
      "step": 2013
    },
    {
      "epoch": 0.044755555555555555,
      "grad_norm": 1.0550360679626465,
      "learning_rate": 0.00019109135363414094,
      "loss": 1.9543,
      "step": 2014
    },
    {
      "epoch": 0.04477777777777778,
      "grad_norm": 1.0893977880477905,
      "learning_rate": 0.00019108690820182265,
      "loss": 1.8128,
      "step": 2015
    },
    {
      "epoch": 0.0448,
      "grad_norm": 1.181086540222168,
      "learning_rate": 0.00019108246276950436,
      "loss": 1.7576,
      "step": 2016
    },
    {
      "epoch": 0.04482222222222222,
      "grad_norm": 1.1394709348678589,
      "learning_rate": 0.00019107801733718604,
      "loss": 2.2219,
      "step": 2017
    },
    {
      "epoch": 0.044844444444444444,
      "grad_norm": 1.3633637428283691,
      "learning_rate": 0.00019107357190486777,
      "loss": 0.7607,
      "step": 2018
    },
    {
      "epoch": 0.044866666666666666,
      "grad_norm": 1.1842632293701172,
      "learning_rate": 0.00019106912647254946,
      "loss": 2.5356,
      "step": 2019
    },
    {
      "epoch": 0.04488888888888889,
      "grad_norm": 1.2533390522003174,
      "learning_rate": 0.00019106468104023117,
      "loss": 1.867,
      "step": 2020
    },
    {
      "epoch": 0.04491111111111111,
      "grad_norm": 1.0170044898986816,
      "learning_rate": 0.00019106023560791288,
      "loss": 1.7942,
      "step": 2021
    },
    {
      "epoch": 0.04493333333333333,
      "grad_norm": 1.183278203010559,
      "learning_rate": 0.00019105579017559459,
      "loss": 2.045,
      "step": 2022
    },
    {
      "epoch": 0.044955555555555554,
      "grad_norm": 1.187788963317871,
      "learning_rate": 0.0001910513447432763,
      "loss": 1.8856,
      "step": 2023
    },
    {
      "epoch": 0.044977777777777776,
      "grad_norm": 1.1496013402938843,
      "learning_rate": 0.000191046899310958,
      "loss": 2.0814,
      "step": 2024
    },
    {
      "epoch": 0.045,
      "grad_norm": 1.2607262134552002,
      "learning_rate": 0.00019104245387863971,
      "loss": 2.246,
      "step": 2025
    },
    {
      "epoch": 0.04502222222222222,
      "grad_norm": 1.063953161239624,
      "learning_rate": 0.0001910380084463214,
      "loss": 1.874,
      "step": 2026
    },
    {
      "epoch": 0.04504444444444444,
      "grad_norm": 1.1491808891296387,
      "learning_rate": 0.00019103356301400313,
      "loss": 2.1215,
      "step": 2027
    },
    {
      "epoch": 0.045066666666666665,
      "grad_norm": 1.3369731903076172,
      "learning_rate": 0.00019102911758168482,
      "loss": 2.0328,
      "step": 2028
    },
    {
      "epoch": 0.04508888888888889,
      "grad_norm": 1.2467083930969238,
      "learning_rate": 0.00019102467214936655,
      "loss": 1.9431,
      "step": 2029
    },
    {
      "epoch": 0.04511111111111111,
      "grad_norm": 1.3760888576507568,
      "learning_rate": 0.00019102022671704824,
      "loss": 2.2211,
      "step": 2030
    },
    {
      "epoch": 0.04513333333333333,
      "grad_norm": 1.152650237083435,
      "learning_rate": 0.00019101578128472995,
      "loss": 2.0473,
      "step": 2031
    },
    {
      "epoch": 0.04515555555555555,
      "grad_norm": 1.8000417947769165,
      "learning_rate": 0.00019101133585241165,
      "loss": 1.0655,
      "step": 2032
    },
    {
      "epoch": 0.045177777777777775,
      "grad_norm": 1.390941858291626,
      "learning_rate": 0.00019100689042009336,
      "loss": 2.0624,
      "step": 2033
    },
    {
      "epoch": 0.0452,
      "grad_norm": 1.2860257625579834,
      "learning_rate": 0.00019100244498777507,
      "loss": 2.0774,
      "step": 2034
    },
    {
      "epoch": 0.04522222222222222,
      "grad_norm": 1.1774852275848389,
      "learning_rate": 0.00019099799955545678,
      "loss": 1.8678,
      "step": 2035
    },
    {
      "epoch": 0.04524444444444444,
      "grad_norm": 1.122209906578064,
      "learning_rate": 0.0001909935541231385,
      "loss": 1.7027,
      "step": 2036
    },
    {
      "epoch": 0.04526666666666666,
      "grad_norm": 1.410127878189087,
      "learning_rate": 0.00019098910869082018,
      "loss": 1.893,
      "step": 2037
    },
    {
      "epoch": 0.045288888888888885,
      "grad_norm": 1.2421706914901733,
      "learning_rate": 0.0001909846632585019,
      "loss": 1.9216,
      "step": 2038
    },
    {
      "epoch": 0.045311111111111115,
      "grad_norm": 1.2033071517944336,
      "learning_rate": 0.0001909802178261836,
      "loss": 1.7059,
      "step": 2039
    },
    {
      "epoch": 0.04533333333333334,
      "grad_norm": 1.1801608800888062,
      "learning_rate": 0.0001909757723938653,
      "loss": 1.8569,
      "step": 2040
    },
    {
      "epoch": 0.04535555555555556,
      "grad_norm": 1.1812193393707275,
      "learning_rate": 0.00019097132696154701,
      "loss": 1.6449,
      "step": 2041
    },
    {
      "epoch": 0.04537777777777778,
      "grad_norm": 1.3143105506896973,
      "learning_rate": 0.00019096688152922872,
      "loss": 2.0052,
      "step": 2042
    },
    {
      "epoch": 0.0454,
      "grad_norm": 1.5356136560440063,
      "learning_rate": 0.00019096243609691043,
      "loss": 1.9767,
      "step": 2043
    },
    {
      "epoch": 0.045422222222222225,
      "grad_norm": 1.32579505443573,
      "learning_rate": 0.00019095799066459214,
      "loss": 2.267,
      "step": 2044
    },
    {
      "epoch": 0.04544444444444445,
      "grad_norm": 1.5171310901641846,
      "learning_rate": 0.00019095354523227385,
      "loss": 2.0841,
      "step": 2045
    },
    {
      "epoch": 0.04546666666666667,
      "grad_norm": 1.3797420263290405,
      "learning_rate": 0.00019094909979995554,
      "loss": 2.0436,
      "step": 2046
    },
    {
      "epoch": 0.04548888888888889,
      "grad_norm": 1.2719680070877075,
      "learning_rate": 0.00019094465436763727,
      "loss": 2.1284,
      "step": 2047
    },
    {
      "epoch": 0.04551111111111111,
      "grad_norm": 1.4168221950531006,
      "learning_rate": 0.00019094020893531895,
      "loss": 2.1104,
      "step": 2048
    },
    {
      "epoch": 0.045533333333333335,
      "grad_norm": 1.7456079721450806,
      "learning_rate": 0.0001909357635030007,
      "loss": 2.0084,
      "step": 2049
    },
    {
      "epoch": 0.04555555555555556,
      "grad_norm": 1.3407574892044067,
      "learning_rate": 0.00019093131807068237,
      "loss": 1.985,
      "step": 2050
    },
    {
      "epoch": 0.04557777777777778,
      "grad_norm": 1.072956919670105,
      "learning_rate": 0.00019092687263836408,
      "loss": 2.4159,
      "step": 2051
    },
    {
      "epoch": 0.0456,
      "grad_norm": 1.1648443937301636,
      "learning_rate": 0.0001909224272060458,
      "loss": 2.5451,
      "step": 2052
    },
    {
      "epoch": 0.045622222222222224,
      "grad_norm": 1.623420238494873,
      "learning_rate": 0.0001909179817737275,
      "loss": 0.0626,
      "step": 2053
    },
    {
      "epoch": 0.045644444444444446,
      "grad_norm": 0.9642564654350281,
      "learning_rate": 0.0001909135363414092,
      "loss": 2.3418,
      "step": 2054
    },
    {
      "epoch": 0.04566666666666667,
      "grad_norm": 0.9753633737564087,
      "learning_rate": 0.00019090909090909092,
      "loss": 2.2821,
      "step": 2055
    },
    {
      "epoch": 0.04568888888888889,
      "grad_norm": 0.9865321516990662,
      "learning_rate": 0.00019090464547677263,
      "loss": 2.3462,
      "step": 2056
    },
    {
      "epoch": 0.04571111111111111,
      "grad_norm": 1.3280198574066162,
      "learning_rate": 0.00019090020004445431,
      "loss": 2.3088,
      "step": 2057
    },
    {
      "epoch": 0.045733333333333334,
      "grad_norm": 1.1947888135910034,
      "learning_rate": 0.00019089575461213605,
      "loss": 2.1233,
      "step": 2058
    },
    {
      "epoch": 0.045755555555555556,
      "grad_norm": 1.1185452938079834,
      "learning_rate": 0.00019089130917981773,
      "loss": 2.2391,
      "step": 2059
    },
    {
      "epoch": 0.04577777777777778,
      "grad_norm": 1.1187952756881714,
      "learning_rate": 0.00019088686374749944,
      "loss": 2.3674,
      "step": 2060
    },
    {
      "epoch": 0.0458,
      "grad_norm": 1.0084055662155151,
      "learning_rate": 0.00019088241831518118,
      "loss": 1.6806,
      "step": 2061
    },
    {
      "epoch": 0.04582222222222222,
      "grad_norm": 1.1166616678237915,
      "learning_rate": 0.00019087797288286286,
      "loss": 1.7277,
      "step": 2062
    },
    {
      "epoch": 0.045844444444444445,
      "grad_norm": 1.1746793985366821,
      "learning_rate": 0.00019087352745054457,
      "loss": 2.3354,
      "step": 2063
    },
    {
      "epoch": 0.04586666666666667,
      "grad_norm": 1.0783172845840454,
      "learning_rate": 0.00019086908201822628,
      "loss": 2.0111,
      "step": 2064
    },
    {
      "epoch": 0.04588888888888889,
      "grad_norm": 1.250605583190918,
      "learning_rate": 0.000190864636585908,
      "loss": 2.3621,
      "step": 2065
    },
    {
      "epoch": 0.04591111111111111,
      "grad_norm": 1.1433264017105103,
      "learning_rate": 0.00019086019115358967,
      "loss": 2.1009,
      "step": 2066
    },
    {
      "epoch": 0.04593333333333333,
      "grad_norm": 1.0566843748092651,
      "learning_rate": 0.0001908557457212714,
      "loss": 1.4429,
      "step": 2067
    },
    {
      "epoch": 0.045955555555555555,
      "grad_norm": 1.267156720161438,
      "learning_rate": 0.0001908513002889531,
      "loss": 2.0563,
      "step": 2068
    },
    {
      "epoch": 0.04597777777777778,
      "grad_norm": 1.165600299835205,
      "learning_rate": 0.00019084685485663483,
      "loss": 2.003,
      "step": 2069
    },
    {
      "epoch": 0.046,
      "grad_norm": 1.1861345767974854,
      "learning_rate": 0.00019084240942431654,
      "loss": 1.8116,
      "step": 2070
    },
    {
      "epoch": 0.04602222222222222,
      "grad_norm": 1.1564280986785889,
      "learning_rate": 0.00019083796399199822,
      "loss": 2.3152,
      "step": 2071
    },
    {
      "epoch": 0.04604444444444444,
      "grad_norm": 1.4923527240753174,
      "learning_rate": 0.00019083351855967996,
      "loss": 1.2269,
      "step": 2072
    },
    {
      "epoch": 0.046066666666666665,
      "grad_norm": 1.4147422313690186,
      "learning_rate": 0.00019082907312736164,
      "loss": 2.9776,
      "step": 2073
    },
    {
      "epoch": 0.04608888888888889,
      "grad_norm": 1.1333788633346558,
      "learning_rate": 0.00019082462769504335,
      "loss": 1.9991,
      "step": 2074
    },
    {
      "epoch": 0.04611111111111111,
      "grad_norm": 1.23317289352417,
      "learning_rate": 0.00019082018226272506,
      "loss": 2.314,
      "step": 2075
    },
    {
      "epoch": 0.04613333333333333,
      "grad_norm": 1.3660361766815186,
      "learning_rate": 0.00019081573683040677,
      "loss": 2.0035,
      "step": 2076
    },
    {
      "epoch": 0.046155555555555554,
      "grad_norm": 1.224594235420227,
      "learning_rate": 0.00019081129139808845,
      "loss": 2.8309,
      "step": 2077
    },
    {
      "epoch": 0.046177777777777776,
      "grad_norm": 1.1179392337799072,
      "learning_rate": 0.0001908068459657702,
      "loss": 2.2855,
      "step": 2078
    },
    {
      "epoch": 0.0462,
      "grad_norm": 1.2921150922775269,
      "learning_rate": 0.0001908024005334519,
      "loss": 2.5331,
      "step": 2079
    },
    {
      "epoch": 0.04622222222222222,
      "grad_norm": 1.1048730611801147,
      "learning_rate": 0.00019079795510113358,
      "loss": 1.9631,
      "step": 2080
    },
    {
      "epoch": 0.04624444444444444,
      "grad_norm": 1.2944539785385132,
      "learning_rate": 0.00019079350966881532,
      "loss": 2.3925,
      "step": 2081
    },
    {
      "epoch": 0.046266666666666664,
      "grad_norm": 1.1384243965148926,
      "learning_rate": 0.000190789064236497,
      "loss": 1.9401,
      "step": 2082
    },
    {
      "epoch": 0.046288888888888886,
      "grad_norm": 1.2576638460159302,
      "learning_rate": 0.0001907846188041787,
      "loss": 2.0843,
      "step": 2083
    },
    {
      "epoch": 0.04631111111111111,
      "grad_norm": 1.1739925146102905,
      "learning_rate": 0.00019078017337186042,
      "loss": 1.9975,
      "step": 2084
    },
    {
      "epoch": 0.04633333333333333,
      "grad_norm": 1.2365814447402954,
      "learning_rate": 0.00019077572793954213,
      "loss": 1.7943,
      "step": 2085
    },
    {
      "epoch": 0.04635555555555555,
      "grad_norm": 1.1880892515182495,
      "learning_rate": 0.00019077128250722384,
      "loss": 1.9764,
      "step": 2086
    },
    {
      "epoch": 0.046377777777777775,
      "grad_norm": 1.3355467319488525,
      "learning_rate": 0.00019076683707490555,
      "loss": 1.8566,
      "step": 2087
    },
    {
      "epoch": 0.0464,
      "grad_norm": 1.2710083723068237,
      "learning_rate": 0.00019076239164258726,
      "loss": 2.1024,
      "step": 2088
    },
    {
      "epoch": 0.04642222222222222,
      "grad_norm": 1.2641454935073853,
      "learning_rate": 0.00019075794621026897,
      "loss": 2.1059,
      "step": 2089
    },
    {
      "epoch": 0.04644444444444444,
      "grad_norm": 0.8848752975463867,
      "learning_rate": 0.00019075350077795068,
      "loss": 0.0567,
      "step": 2090
    },
    {
      "epoch": 0.04646666666666667,
      "grad_norm": 1.2439645528793335,
      "learning_rate": 0.00019074905534563236,
      "loss": 2.1156,
      "step": 2091
    },
    {
      "epoch": 0.04648888888888889,
      "grad_norm": 1.2400275468826294,
      "learning_rate": 0.0001907446099133141,
      "loss": 1.8364,
      "step": 2092
    },
    {
      "epoch": 0.046511111111111114,
      "grad_norm": 1.0821958780288696,
      "learning_rate": 0.00019074016448099578,
      "loss": 1.1447,
      "step": 2093
    },
    {
      "epoch": 0.046533333333333336,
      "grad_norm": 1.4247181415557861,
      "learning_rate": 0.0001907357190486775,
      "loss": 2.2779,
      "step": 2094
    },
    {
      "epoch": 0.04655555555555556,
      "grad_norm": 1.7097673416137695,
      "learning_rate": 0.0001907312736163592,
      "loss": 2.0062,
      "step": 2095
    },
    {
      "epoch": 0.04657777777777778,
      "grad_norm": 1.294437050819397,
      "learning_rate": 0.0001907268281840409,
      "loss": 2.075,
      "step": 2096
    },
    {
      "epoch": 0.0466,
      "grad_norm": 1.3077166080474854,
      "learning_rate": 0.00019072238275172262,
      "loss": 2.0455,
      "step": 2097
    },
    {
      "epoch": 0.046622222222222225,
      "grad_norm": 1.5202935934066772,
      "learning_rate": 0.00019071793731940433,
      "loss": 2.1239,
      "step": 2098
    },
    {
      "epoch": 0.04664444444444445,
      "grad_norm": 1.3648747205734253,
      "learning_rate": 0.00019071349188708604,
      "loss": 1.9094,
      "step": 2099
    },
    {
      "epoch": 0.04666666666666667,
      "grad_norm": 1.1727713346481323,
      "learning_rate": 0.00019070904645476772,
      "loss": 0.6035,
      "step": 2100
    },
    {
      "epoch": 0.04668888888888889,
      "grad_norm": 1.0592330694198608,
      "learning_rate": 0.00019070460102244946,
      "loss": 2.3043,
      "step": 2101
    },
    {
      "epoch": 0.04671111111111111,
      "grad_norm": 1.4692808389663696,
      "learning_rate": 0.00019070015559013114,
      "loss": 0.0774,
      "step": 2102
    },
    {
      "epoch": 0.046733333333333335,
      "grad_norm": 1.0427197217941284,
      "learning_rate": 0.00019069571015781285,
      "loss": 2.4598,
      "step": 2103
    },
    {
      "epoch": 0.04675555555555556,
      "grad_norm": 0.9507056474685669,
      "learning_rate": 0.00019069126472549456,
      "loss": 2.253,
      "step": 2104
    },
    {
      "epoch": 0.04677777777777778,
      "grad_norm": 1.0771783590316772,
      "learning_rate": 0.00019068681929317627,
      "loss": 2.4605,
      "step": 2105
    },
    {
      "epoch": 0.0468,
      "grad_norm": 1.118393898010254,
      "learning_rate": 0.00019068237386085798,
      "loss": 2.2336,
      "step": 2106
    },
    {
      "epoch": 0.04682222222222222,
      "grad_norm": 1.0407181978225708,
      "learning_rate": 0.0001906779284285397,
      "loss": 2.7806,
      "step": 2107
    },
    {
      "epoch": 0.046844444444444445,
      "grad_norm": 1.0747175216674805,
      "learning_rate": 0.0001906734829962214,
      "loss": 2.3764,
      "step": 2108
    },
    {
      "epoch": 0.04686666666666667,
      "grad_norm": 1.0551825761795044,
      "learning_rate": 0.0001906690375639031,
      "loss": 2.3002,
      "step": 2109
    },
    {
      "epoch": 0.04688888888888889,
      "grad_norm": 0.9646710157394409,
      "learning_rate": 0.00019066459213158482,
      "loss": 0.9172,
      "step": 2110
    },
    {
      "epoch": 0.04691111111111111,
      "grad_norm": 1.11587393283844,
      "learning_rate": 0.0001906601466992665,
      "loss": 2.1653,
      "step": 2111
    },
    {
      "epoch": 0.046933333333333334,
      "grad_norm": 1.0653938055038452,
      "learning_rate": 0.00019065570126694823,
      "loss": 2.3112,
      "step": 2112
    },
    {
      "epoch": 0.046955555555555556,
      "grad_norm": 1.295440912246704,
      "learning_rate": 0.00019065125583462992,
      "loss": 2.3961,
      "step": 2113
    },
    {
      "epoch": 0.04697777777777778,
      "grad_norm": 1.1522328853607178,
      "learning_rate": 0.00019064681040231163,
      "loss": 2.315,
      "step": 2114
    },
    {
      "epoch": 0.047,
      "grad_norm": 1.2604814767837524,
      "learning_rate": 0.00019064236496999334,
      "loss": 2.3902,
      "step": 2115
    },
    {
      "epoch": 0.04702222222222222,
      "grad_norm": 1.2390669584274292,
      "learning_rate": 0.00019063791953767505,
      "loss": 2.076,
      "step": 2116
    },
    {
      "epoch": 0.047044444444444444,
      "grad_norm": 1.0419986248016357,
      "learning_rate": 0.00019063347410535676,
      "loss": 2.1553,
      "step": 2117
    },
    {
      "epoch": 0.047066666666666666,
      "grad_norm": 1.4347931146621704,
      "learning_rate": 0.00019062902867303847,
      "loss": 2.3195,
      "step": 2118
    },
    {
      "epoch": 0.04708888888888889,
      "grad_norm": 0.8490489721298218,
      "learning_rate": 0.00019062458324072017,
      "loss": 0.7223,
      "step": 2119
    },
    {
      "epoch": 0.04711111111111111,
      "grad_norm": 1.05935537815094,
      "learning_rate": 0.00019062013780840186,
      "loss": 1.9971,
      "step": 2120
    },
    {
      "epoch": 0.04713333333333333,
      "grad_norm": 1.193286657333374,
      "learning_rate": 0.0001906156923760836,
      "loss": 2.0918,
      "step": 2121
    },
    {
      "epoch": 0.047155555555555555,
      "grad_norm": 1.3203314542770386,
      "learning_rate": 0.00019061124694376528,
      "loss": 2.3659,
      "step": 2122
    },
    {
      "epoch": 0.04717777777777778,
      "grad_norm": 1.1700646877288818,
      "learning_rate": 0.00019060680151144699,
      "loss": 1.9754,
      "step": 2123
    },
    {
      "epoch": 0.0472,
      "grad_norm": 1.1315226554870605,
      "learning_rate": 0.0001906023560791287,
      "loss": 2.2132,
      "step": 2124
    },
    {
      "epoch": 0.04722222222222222,
      "grad_norm": 1.391614317893982,
      "learning_rate": 0.0001905979106468104,
      "loss": 2.4032,
      "step": 2125
    },
    {
      "epoch": 0.04724444444444444,
      "grad_norm": 1.2647062540054321,
      "learning_rate": 0.00019059346521449212,
      "loss": 2.3213,
      "step": 2126
    },
    {
      "epoch": 0.047266666666666665,
      "grad_norm": 1.7268121242523193,
      "learning_rate": 0.00019058901978217382,
      "loss": 2.4066,
      "step": 2127
    },
    {
      "epoch": 0.04728888888888889,
      "grad_norm": 1.2878731489181519,
      "learning_rate": 0.00019058457434985553,
      "loss": 2.2262,
      "step": 2128
    },
    {
      "epoch": 0.04731111111111111,
      "grad_norm": 1.2903292179107666,
      "learning_rate": 0.00019058012891753724,
      "loss": 1.6896,
      "step": 2129
    },
    {
      "epoch": 0.04733333333333333,
      "grad_norm": 1.0576634407043457,
      "learning_rate": 0.00019057568348521895,
      "loss": 1.1286,
      "step": 2130
    },
    {
      "epoch": 0.047355555555555554,
      "grad_norm": 1.6381458044052124,
      "learning_rate": 0.00019057123805290064,
      "loss": 1.8195,
      "step": 2131
    },
    {
      "epoch": 0.047377777777777776,
      "grad_norm": 1.3932732343673706,
      "learning_rate": 0.00019056679262058237,
      "loss": 2.1326,
      "step": 2132
    },
    {
      "epoch": 0.0474,
      "grad_norm": 1.4780395030975342,
      "learning_rate": 0.00019056234718826406,
      "loss": 1.8217,
      "step": 2133
    },
    {
      "epoch": 0.04742222222222222,
      "grad_norm": 1.263351559638977,
      "learning_rate": 0.00019055790175594576,
      "loss": 1.9574,
      "step": 2134
    },
    {
      "epoch": 0.04744444444444444,
      "grad_norm": 1.241752028465271,
      "learning_rate": 0.0001905534563236275,
      "loss": 1.987,
      "step": 2135
    },
    {
      "epoch": 0.047466666666666664,
      "grad_norm": 1.1108345985412598,
      "learning_rate": 0.00019054901089130918,
      "loss": 1.7884,
      "step": 2136
    },
    {
      "epoch": 0.047488888888888886,
      "grad_norm": 1.3020201921463013,
      "learning_rate": 0.0001905445654589909,
      "loss": 1.625,
      "step": 2137
    },
    {
      "epoch": 0.04751111111111111,
      "grad_norm": 1.0572000741958618,
      "learning_rate": 0.0001905401200266726,
      "loss": 1.5847,
      "step": 2138
    },
    {
      "epoch": 0.04753333333333333,
      "grad_norm": 1.4975395202636719,
      "learning_rate": 0.0001905356745943543,
      "loss": 2.4322,
      "step": 2139
    },
    {
      "epoch": 0.04755555555555555,
      "grad_norm": 1.4509907960891724,
      "learning_rate": 0.000190531229162036,
      "loss": 2.0507,
      "step": 2140
    },
    {
      "epoch": 0.047577777777777774,
      "grad_norm": 1.9150265455245972,
      "learning_rate": 0.00019052678372971773,
      "loss": 1.9737,
      "step": 2141
    },
    {
      "epoch": 0.0476,
      "grad_norm": 1.4166738986968994,
      "learning_rate": 0.00019052233829739941,
      "loss": 1.8219,
      "step": 2142
    },
    {
      "epoch": 0.047622222222222226,
      "grad_norm": 1.3880231380462646,
      "learning_rate": 0.00019051789286508115,
      "loss": 1.8047,
      "step": 2143
    },
    {
      "epoch": 0.04764444444444445,
      "grad_norm": 1.6355503797531128,
      "learning_rate": 0.00019051344743276286,
      "loss": 2.1546,
      "step": 2144
    },
    {
      "epoch": 0.04766666666666667,
      "grad_norm": 1.199230670928955,
      "learning_rate": 0.00019050900200044454,
      "loss": 1.6743,
      "step": 2145
    },
    {
      "epoch": 0.04768888888888889,
      "grad_norm": 1.1767323017120361,
      "learning_rate": 0.00019050455656812628,
      "loss": 1.5314,
      "step": 2146
    },
    {
      "epoch": 0.047711111111111114,
      "grad_norm": 1.4286943674087524,
      "learning_rate": 0.00019050011113580796,
      "loss": 2.0015,
      "step": 2147
    },
    {
      "epoch": 0.047733333333333336,
      "grad_norm": 1.2978568077087402,
      "learning_rate": 0.00019049566570348967,
      "loss": 1.8082,
      "step": 2148
    },
    {
      "epoch": 0.04775555555555556,
      "grad_norm": 1.5738790035247803,
      "learning_rate": 0.00019049122027117138,
      "loss": 1.7127,
      "step": 2149
    },
    {
      "epoch": 0.04777777777777778,
      "grad_norm": 1.3680119514465332,
      "learning_rate": 0.0001904867748388531,
      "loss": 1.7397,
      "step": 2150
    },
    {
      "epoch": 0.0478,
      "grad_norm": 0.9539645910263062,
      "learning_rate": 0.00019048232940653477,
      "loss": 2.3155,
      "step": 2151
    },
    {
      "epoch": 0.047822222222222224,
      "grad_norm": 1.417159914970398,
      "learning_rate": 0.0001904778839742165,
      "loss": 1.0597,
      "step": 2152
    },
    {
      "epoch": 0.047844444444444446,
      "grad_norm": 0.9663378596305847,
      "learning_rate": 0.00019047343854189822,
      "loss": 2.2059,
      "step": 2153
    },
    {
      "epoch": 0.04786666666666667,
      "grad_norm": 1.683668851852417,
      "learning_rate": 0.0001904689931095799,
      "loss": 1.9764,
      "step": 2154
    },
    {
      "epoch": 0.04788888888888889,
      "grad_norm": 1.0001846551895142,
      "learning_rate": 0.00019046454767726164,
      "loss": 2.107,
      "step": 2155
    },
    {
      "epoch": 0.04791111111111111,
      "grad_norm": 1.2340439558029175,
      "learning_rate": 0.00019046010224494332,
      "loss": 2.2413,
      "step": 2156
    },
    {
      "epoch": 0.047933333333333335,
      "grad_norm": 1.0808637142181396,
      "learning_rate": 0.00019045565681262503,
      "loss": 1.9932,
      "step": 2157
    },
    {
      "epoch": 0.04795555555555556,
      "grad_norm": 1.0250990390777588,
      "learning_rate": 0.00019045121138030674,
      "loss": 2.1214,
      "step": 2158
    },
    {
      "epoch": 0.04797777777777778,
      "grad_norm": 1.1706652641296387,
      "learning_rate": 0.00019044676594798845,
      "loss": 1.9382,
      "step": 2159
    },
    {
      "epoch": 0.048,
      "grad_norm": 1.2695238590240479,
      "learning_rate": 0.00019044232051567013,
      "loss": 2.2234,
      "step": 2160
    },
    {
      "epoch": 0.04802222222222222,
      "grad_norm": 1.4212697744369507,
      "learning_rate": 0.00019043787508335187,
      "loss": 1.8555,
      "step": 2161
    },
    {
      "epoch": 0.048044444444444445,
      "grad_norm": 1.1343293190002441,
      "learning_rate": 0.00019043342965103358,
      "loss": 2.1405,
      "step": 2162
    },
    {
      "epoch": 0.04806666666666667,
      "grad_norm": 1.3218437433242798,
      "learning_rate": 0.0001904289842187153,
      "loss": 2.6169,
      "step": 2163
    },
    {
      "epoch": 0.04808888888888889,
      "grad_norm": 1.0020099878311157,
      "learning_rate": 0.000190424538786397,
      "loss": 2.0023,
      "step": 2164
    },
    {
      "epoch": 0.04811111111111111,
      "grad_norm": 1.350276231765747,
      "learning_rate": 0.00019042009335407868,
      "loss": 2.6103,
      "step": 2165
    },
    {
      "epoch": 0.048133333333333334,
      "grad_norm": 1.2699103355407715,
      "learning_rate": 0.00019041564792176042,
      "loss": 1.8697,
      "step": 2166
    },
    {
      "epoch": 0.048155555555555556,
      "grad_norm": 1.1885381937026978,
      "learning_rate": 0.0001904112024894421,
      "loss": 2.2919,
      "step": 2167
    },
    {
      "epoch": 0.04817777777777778,
      "grad_norm": 1.2810090780258179,
      "learning_rate": 0.0001904067570571238,
      "loss": 2.0597,
      "step": 2168
    },
    {
      "epoch": 0.0482,
      "grad_norm": 2.396024227142334,
      "learning_rate": 0.00019040231162480552,
      "loss": 1.4093,
      "step": 2169
    },
    {
      "epoch": 0.04822222222222222,
      "grad_norm": 1.027547001838684,
      "learning_rate": 0.00019039786619248723,
      "loss": 1.8365,
      "step": 2170
    },
    {
      "epoch": 0.048244444444444444,
      "grad_norm": 1.0564228296279907,
      "learning_rate": 0.00019039342076016894,
      "loss": 1.9258,
      "step": 2171
    },
    {
      "epoch": 0.048266666666666666,
      "grad_norm": 1.2358144521713257,
      "learning_rate": 0.00019038897532785065,
      "loss": 2.2448,
      "step": 2172
    },
    {
      "epoch": 0.04828888888888889,
      "grad_norm": 1.2327159643173218,
      "learning_rate": 0.00019038452989553236,
      "loss": 2.3958,
      "step": 2173
    },
    {
      "epoch": 0.04831111111111111,
      "grad_norm": 1.0633187294006348,
      "learning_rate": 0.00019038008446321404,
      "loss": 1.9441,
      "step": 2174
    },
    {
      "epoch": 0.04833333333333333,
      "grad_norm": 1.302017092704773,
      "learning_rate": 0.00019037563903089578,
      "loss": 1.6284,
      "step": 2175
    },
    {
      "epoch": 0.048355555555555554,
      "grad_norm": 1.05088472366333,
      "learning_rate": 0.00019037119359857746,
      "loss": 1.5891,
      "step": 2176
    },
    {
      "epoch": 0.048377777777777776,
      "grad_norm": 1.2050260305404663,
      "learning_rate": 0.00019036674816625917,
      "loss": 1.5844,
      "step": 2177
    },
    {
      "epoch": 0.0484,
      "grad_norm": 1.3763909339904785,
      "learning_rate": 0.00019036230273394088,
      "loss": 2.0295,
      "step": 2178
    },
    {
      "epoch": 0.04842222222222222,
      "grad_norm": 1.5020549297332764,
      "learning_rate": 0.0001903578573016226,
      "loss": 1.8206,
      "step": 2179
    },
    {
      "epoch": 0.04844444444444444,
      "grad_norm": 1.5366060733795166,
      "learning_rate": 0.0001903534118693043,
      "loss": 1.9703,
      "step": 2180
    },
    {
      "epoch": 0.048466666666666665,
      "grad_norm": 1.2061278820037842,
      "learning_rate": 0.000190348966436986,
      "loss": 1.9894,
      "step": 2181
    },
    {
      "epoch": 0.04848888888888889,
      "grad_norm": 1.2145047187805176,
      "learning_rate": 0.00019034452100466772,
      "loss": 1.8444,
      "step": 2182
    },
    {
      "epoch": 0.04851111111111111,
      "grad_norm": 1.2839096784591675,
      "learning_rate": 0.00019034007557234943,
      "loss": 1.9565,
      "step": 2183
    },
    {
      "epoch": 0.04853333333333333,
      "grad_norm": 1.1375908851623535,
      "learning_rate": 0.00019033563014003114,
      "loss": 1.9852,
      "step": 2184
    },
    {
      "epoch": 0.04855555555555555,
      "grad_norm": 1.331023097038269,
      "learning_rate": 0.00019033118470771282,
      "loss": 1.876,
      "step": 2185
    },
    {
      "epoch": 0.048577777777777775,
      "grad_norm": 1.1749649047851562,
      "learning_rate": 0.00019032673927539456,
      "loss": 0.9166,
      "step": 2186
    },
    {
      "epoch": 0.0486,
      "grad_norm": 1.216256856918335,
      "learning_rate": 0.00019032229384307624,
      "loss": 1.8611,
      "step": 2187
    },
    {
      "epoch": 0.04862222222222222,
      "grad_norm": 1.2460013628005981,
      "learning_rate": 0.00019031784841075795,
      "loss": 1.7576,
      "step": 2188
    },
    {
      "epoch": 0.04864444444444444,
      "grad_norm": 1.45947265625,
      "learning_rate": 0.00019031340297843966,
      "loss": 2.3157,
      "step": 2189
    },
    {
      "epoch": 0.048666666666666664,
      "grad_norm": 1.2837003469467163,
      "learning_rate": 0.00019030895754612137,
      "loss": 2.1593,
      "step": 2190
    },
    {
      "epoch": 0.048688888888888886,
      "grad_norm": 1.4052823781967163,
      "learning_rate": 0.00019030451211380308,
      "loss": 2.1313,
      "step": 2191
    },
    {
      "epoch": 0.04871111111111111,
      "grad_norm": 1.762028694152832,
      "learning_rate": 0.0001903000666814848,
      "loss": 2.0798,
      "step": 2192
    },
    {
      "epoch": 0.04873333333333333,
      "grad_norm": 1.1744486093521118,
      "learning_rate": 0.0001902956212491665,
      "loss": 1.8133,
      "step": 2193
    },
    {
      "epoch": 0.04875555555555556,
      "grad_norm": 1.1974390745162964,
      "learning_rate": 0.00019029117581684818,
      "loss": 2.1615,
      "step": 2194
    },
    {
      "epoch": 0.04877777777777778,
      "grad_norm": 1.6326253414154053,
      "learning_rate": 0.00019028673038452992,
      "loss": 1.8916,
      "step": 2195
    },
    {
      "epoch": 0.0488,
      "grad_norm": 2.239137887954712,
      "learning_rate": 0.0001902822849522116,
      "loss": 1.1461,
      "step": 2196
    },
    {
      "epoch": 0.048822222222222225,
      "grad_norm": 0.8935621380805969,
      "learning_rate": 0.0001902778395198933,
      "loss": 0.7864,
      "step": 2197
    },
    {
      "epoch": 0.04884444444444445,
      "grad_norm": 1.669737458229065,
      "learning_rate": 0.00019027339408757502,
      "loss": 2.1494,
      "step": 2198
    },
    {
      "epoch": 0.04886666666666667,
      "grad_norm": 1.5537737607955933,
      "learning_rate": 0.00019026894865525673,
      "loss": 1.9874,
      "step": 2199
    },
    {
      "epoch": 0.04888888888888889,
      "grad_norm": 1.5555442571640015,
      "learning_rate": 0.00019026450322293844,
      "loss": 1.4338,
      "step": 2200
    },
    {
      "epoch": 0.048911111111111114,
      "grad_norm": 1.1961041688919067,
      "learning_rate": 0.00019026005779062015,
      "loss": 2.144,
      "step": 2201
    },
    {
      "epoch": 0.048933333333333336,
      "grad_norm": 1.071886658668518,
      "learning_rate": 0.00019025561235830186,
      "loss": 2.2126,
      "step": 2202
    },
    {
      "epoch": 0.04895555555555556,
      "grad_norm": 1.0875595808029175,
      "learning_rate": 0.00019025116692598357,
      "loss": 2.3797,
      "step": 2203
    },
    {
      "epoch": 0.04897777777777778,
      "grad_norm": 1.0179904699325562,
      "learning_rate": 0.00019024672149366528,
      "loss": 1.3905,
      "step": 2204
    },
    {
      "epoch": 0.049,
      "grad_norm": 1.1108838319778442,
      "learning_rate": 0.00019024227606134696,
      "loss": 2.5139,
      "step": 2205
    },
    {
      "epoch": 0.049022222222222224,
      "grad_norm": 1.3807833194732666,
      "learning_rate": 0.0001902378306290287,
      "loss": 2.2536,
      "step": 2206
    },
    {
      "epoch": 0.049044444444444446,
      "grad_norm": 0.9900107383728027,
      "learning_rate": 0.00019023338519671038,
      "loss": 1.9655,
      "step": 2207
    },
    {
      "epoch": 0.04906666666666667,
      "grad_norm": 1.012878179550171,
      "learning_rate": 0.0001902289397643921,
      "loss": 1.8911,
      "step": 2208
    },
    {
      "epoch": 0.04908888888888889,
      "grad_norm": 1.0251420736312866,
      "learning_rate": 0.00019022449433207382,
      "loss": 2.1765,
      "step": 2209
    },
    {
      "epoch": 0.04911111111111111,
      "grad_norm": 1.1455473899841309,
      "learning_rate": 0.0001902200488997555,
      "loss": 2.4118,
      "step": 2210
    },
    {
      "epoch": 0.049133333333333334,
      "grad_norm": 1.1235398054122925,
      "learning_rate": 0.00019021560346743722,
      "loss": 2.2401,
      "step": 2211
    },
    {
      "epoch": 0.049155555555555557,
      "grad_norm": 1.4231849908828735,
      "learning_rate": 0.00019021115803511893,
      "loss": 2.1533,
      "step": 2212
    },
    {
      "epoch": 0.04917777777777778,
      "grad_norm": 1.2946346998214722,
      "learning_rate": 0.00019020671260280064,
      "loss": 2.3782,
      "step": 2213
    },
    {
      "epoch": 0.0492,
      "grad_norm": 1.089881181716919,
      "learning_rate": 0.00019020226717048232,
      "loss": 1.8458,
      "step": 2214
    },
    {
      "epoch": 0.04922222222222222,
      "grad_norm": 1.3264265060424805,
      "learning_rate": 0.00019019782173816405,
      "loss": 2.1016,
      "step": 2215
    },
    {
      "epoch": 0.049244444444444445,
      "grad_norm": 1.1876800060272217,
      "learning_rate": 0.00019019337630584574,
      "loss": 1.9285,
      "step": 2216
    },
    {
      "epoch": 0.04926666666666667,
      "grad_norm": 1.311055302619934,
      "learning_rate": 0.00019018893087352745,
      "loss": 2.1146,
      "step": 2217
    },
    {
      "epoch": 0.04928888888888889,
      "grad_norm": 0.4364464581012726,
      "learning_rate": 0.00019018448544120918,
      "loss": 0.0333,
      "step": 2218
    },
    {
      "epoch": 0.04931111111111111,
      "grad_norm": 1.1805363893508911,
      "learning_rate": 0.00019018004000889087,
      "loss": 2.3977,
      "step": 2219
    },
    {
      "epoch": 0.04933333333333333,
      "grad_norm": 1.148947834968567,
      "learning_rate": 0.0001901755945765726,
      "loss": 1.8525,
      "step": 2220
    },
    {
      "epoch": 0.049355555555555555,
      "grad_norm": 1.3265146017074585,
      "learning_rate": 0.00019017114914425428,
      "loss": 2.0379,
      "step": 2221
    },
    {
      "epoch": 0.04937777777777778,
      "grad_norm": 1.1382170915603638,
      "learning_rate": 0.000190166703711936,
      "loss": 2.1619,
      "step": 2222
    },
    {
      "epoch": 0.0494,
      "grad_norm": 1.3868470191955566,
      "learning_rate": 0.0001901622582796177,
      "loss": 2.0016,
      "step": 2223
    },
    {
      "epoch": 0.04942222222222222,
      "grad_norm": 1.4530396461486816,
      "learning_rate": 0.00019015781284729941,
      "loss": 2.335,
      "step": 2224
    },
    {
      "epoch": 0.049444444444444444,
      "grad_norm": 1.0688259601593018,
      "learning_rate": 0.0001901533674149811,
      "loss": 1.9109,
      "step": 2225
    },
    {
      "epoch": 0.049466666666666666,
      "grad_norm": 1.3365429639816284,
      "learning_rate": 0.00019014892198266283,
      "loss": 2.3869,
      "step": 2226
    },
    {
      "epoch": 0.04948888888888889,
      "grad_norm": 1.1728482246398926,
      "learning_rate": 0.00019014447655034454,
      "loss": 2.1609,
      "step": 2227
    },
    {
      "epoch": 0.04951111111111111,
      "grad_norm": 1.1781708002090454,
      "learning_rate": 0.00019014003111802623,
      "loss": 2.1051,
      "step": 2228
    },
    {
      "epoch": 0.04953333333333333,
      "grad_norm": 1.1372687816619873,
      "learning_rate": 0.00019013558568570796,
      "loss": 1.5913,
      "step": 2229
    },
    {
      "epoch": 0.049555555555555554,
      "grad_norm": 1.1523760557174683,
      "learning_rate": 0.00019013114025338964,
      "loss": 2.1097,
      "step": 2230
    },
    {
      "epoch": 0.049577777777777776,
      "grad_norm": 1.2923730611801147,
      "learning_rate": 0.00019012669482107135,
      "loss": 1.8981,
      "step": 2231
    },
    {
      "epoch": 0.0496,
      "grad_norm": 1.347650170326233,
      "learning_rate": 0.00019012224938875306,
      "loss": 2.0159,
      "step": 2232
    },
    {
      "epoch": 0.04962222222222222,
      "grad_norm": 1.1617511510849,
      "learning_rate": 0.00019011780395643477,
      "loss": 1.7733,
      "step": 2233
    },
    {
      "epoch": 0.04964444444444444,
      "grad_norm": 1.1228108406066895,
      "learning_rate": 0.00019011335852411648,
      "loss": 1.8163,
      "step": 2234
    },
    {
      "epoch": 0.049666666666666665,
      "grad_norm": 1.2512744665145874,
      "learning_rate": 0.0001901089130917982,
      "loss": 2.153,
      "step": 2235
    },
    {
      "epoch": 0.04968888888888889,
      "grad_norm": 1.3398948907852173,
      "learning_rate": 0.0001901044676594799,
      "loss": 2.3011,
      "step": 2236
    },
    {
      "epoch": 0.04971111111111111,
      "grad_norm": 1.2189030647277832,
      "learning_rate": 0.0001901000222271616,
      "loss": 1.8891,
      "step": 2237
    },
    {
      "epoch": 0.04973333333333333,
      "grad_norm": 1.3764220476150513,
      "learning_rate": 0.00019009557679484332,
      "loss": 2.114,
      "step": 2238
    },
    {
      "epoch": 0.04975555555555555,
      "grad_norm": 1.0513441562652588,
      "learning_rate": 0.000190091131362525,
      "loss": 1.5712,
      "step": 2239
    },
    {
      "epoch": 0.049777777777777775,
      "grad_norm": 1.280617117881775,
      "learning_rate": 0.00019008668593020674,
      "loss": 2.1301,
      "step": 2240
    },
    {
      "epoch": 0.0498,
      "grad_norm": 1.305253028869629,
      "learning_rate": 0.00019008224049788842,
      "loss": 1.5889,
      "step": 2241
    },
    {
      "epoch": 0.04982222222222222,
      "grad_norm": 1.6078585386276245,
      "learning_rate": 0.00019007779506557013,
      "loss": 2.0905,
      "step": 2242
    },
    {
      "epoch": 0.04984444444444444,
      "grad_norm": 1.3110101222991943,
      "learning_rate": 0.00019007334963325184,
      "loss": 2.0125,
      "step": 2243
    },
    {
      "epoch": 0.04986666666666666,
      "grad_norm": 1.2234842777252197,
      "learning_rate": 0.00019006890420093355,
      "loss": 1.8807,
      "step": 2244
    },
    {
      "epoch": 0.04988888888888889,
      "grad_norm": 1.4274346828460693,
      "learning_rate": 0.00019006445876861526,
      "loss": 1.6449,
      "step": 2245
    },
    {
      "epoch": 0.049911111111111114,
      "grad_norm": 1.4516068696975708,
      "learning_rate": 0.00019006001333629697,
      "loss": 2.474,
      "step": 2246
    },
    {
      "epoch": 0.049933333333333337,
      "grad_norm": 1.3782916069030762,
      "learning_rate": 0.00019005556790397868,
      "loss": 1.211,
      "step": 2247
    },
    {
      "epoch": 0.04995555555555556,
      "grad_norm": 1.2721515893936157,
      "learning_rate": 0.00019005112247166036,
      "loss": 1.8499,
      "step": 2248
    },
    {
      "epoch": 0.04997777777777778,
      "grad_norm": 1.2720251083374023,
      "learning_rate": 0.0001900466770393421,
      "loss": 1.4365,
      "step": 2249
    },
    {
      "epoch": 0.05,
      "grad_norm": 1.4843260049819946,
      "learning_rate": 0.00019004223160702378,
      "loss": 1.24,
      "step": 2250
    },
    {
      "epoch": 0.050022222222222225,
      "grad_norm": 1.1406223773956299,
      "learning_rate": 0.0001900377861747055,
      "loss": 2.8505,
      "step": 2251
    },
    {
      "epoch": 0.05004444444444445,
      "grad_norm": 1.1631907224655151,
      "learning_rate": 0.0001900333407423872,
      "loss": 2.967,
      "step": 2252
    },
    {
      "epoch": 0.05006666666666667,
      "grad_norm": 0.9673673510551453,
      "learning_rate": 0.0001900288953100689,
      "loss": 2.215,
      "step": 2253
    },
    {
      "epoch": 0.05008888888888889,
      "grad_norm": 1.1196608543395996,
      "learning_rate": 0.00019002444987775062,
      "loss": 2.296,
      "step": 2254
    },
    {
      "epoch": 0.05011111111111111,
      "grad_norm": 1.0573066473007202,
      "learning_rate": 0.00019002000444543233,
      "loss": 2.808,
      "step": 2255
    },
    {
      "epoch": 0.050133333333333335,
      "grad_norm": 0.9258370399475098,
      "learning_rate": 0.00019001555901311404,
      "loss": 2.0213,
      "step": 2256
    },
    {
      "epoch": 0.05015555555555556,
      "grad_norm": 1.032148838043213,
      "learning_rate": 0.00019001111358079575,
      "loss": 2.4364,
      "step": 2257
    },
    {
      "epoch": 0.05017777777777778,
      "grad_norm": 1.0564199686050415,
      "learning_rate": 0.00019000666814847746,
      "loss": 2.0706,
      "step": 2258
    },
    {
      "epoch": 0.0502,
      "grad_norm": 1.120741605758667,
      "learning_rate": 0.00019000222271615914,
      "loss": 2.0469,
      "step": 2259
    },
    {
      "epoch": 0.050222222222222224,
      "grad_norm": 1.114100694656372,
      "learning_rate": 0.00018999777728384088,
      "loss": 2.2511,
      "step": 2260
    },
    {
      "epoch": 0.050244444444444446,
      "grad_norm": 1.1014926433563232,
      "learning_rate": 0.00018999333185152256,
      "loss": 2.1234,
      "step": 2261
    },
    {
      "epoch": 0.05026666666666667,
      "grad_norm": 1.182754635810852,
      "learning_rate": 0.00018998888641920427,
      "loss": 2.2326,
      "step": 2262
    },
    {
      "epoch": 0.05028888888888889,
      "grad_norm": 1.2462025880813599,
      "learning_rate": 0.00018998444098688598,
      "loss": 2.5571,
      "step": 2263
    },
    {
      "epoch": 0.05031111111111111,
      "grad_norm": 1.003087043762207,
      "learning_rate": 0.0001899799955545677,
      "loss": 1.7838,
      "step": 2264
    },
    {
      "epoch": 0.050333333333333334,
      "grad_norm": 1.1985787153244019,
      "learning_rate": 0.0001899755501222494,
      "loss": 2.373,
      "step": 2265
    },
    {
      "epoch": 0.050355555555555556,
      "grad_norm": 1.1282902956008911,
      "learning_rate": 0.0001899711046899311,
      "loss": 2.3078,
      "step": 2266
    },
    {
      "epoch": 0.05037777777777778,
      "grad_norm": 1.0998181104660034,
      "learning_rate": 0.00018996665925761282,
      "loss": 1.9219,
      "step": 2267
    },
    {
      "epoch": 0.0504,
      "grad_norm": 1.2063664197921753,
      "learning_rate": 0.0001899622138252945,
      "loss": 2.4054,
      "step": 2268
    },
    {
      "epoch": 0.05042222222222222,
      "grad_norm": 1.4806365966796875,
      "learning_rate": 0.00018995776839297624,
      "loss": 2.2313,
      "step": 2269
    },
    {
      "epoch": 0.050444444444444445,
      "grad_norm": 1.0827125310897827,
      "learning_rate": 0.00018995332296065792,
      "loss": 1.6185,
      "step": 2270
    },
    {
      "epoch": 0.05046666666666667,
      "grad_norm": 1.2718685865402222,
      "learning_rate": 0.00018994887752833963,
      "loss": 2.1157,
      "step": 2271
    },
    {
      "epoch": 0.05048888888888889,
      "grad_norm": 1.129123330116272,
      "learning_rate": 0.00018994443209602134,
      "loss": 2.0411,
      "step": 2272
    },
    {
      "epoch": 0.05051111111111111,
      "grad_norm": 1.2838066816329956,
      "learning_rate": 0.00018993998666370305,
      "loss": 2.0199,
      "step": 2273
    },
    {
      "epoch": 0.05053333333333333,
      "grad_norm": 1.083335280418396,
      "learning_rate": 0.00018993554123138476,
      "loss": 1.6263,
      "step": 2274
    },
    {
      "epoch": 0.050555555555555555,
      "grad_norm": 1.3512511253356934,
      "learning_rate": 0.00018993109579906647,
      "loss": 2.0137,
      "step": 2275
    },
    {
      "epoch": 0.05057777777777778,
      "grad_norm": 1.3298662900924683,
      "learning_rate": 0.00018992665036674818,
      "loss": 2.0815,
      "step": 2276
    },
    {
      "epoch": 0.0506,
      "grad_norm": 1.516985297203064,
      "learning_rate": 0.0001899222049344299,
      "loss": 2.3133,
      "step": 2277
    },
    {
      "epoch": 0.05062222222222222,
      "grad_norm": 1.2454760074615479,
      "learning_rate": 0.0001899177595021116,
      "loss": 2.0556,
      "step": 2278
    },
    {
      "epoch": 0.05064444444444444,
      "grad_norm": 1.2082703113555908,
      "learning_rate": 0.00018991331406979328,
      "loss": 1.9505,
      "step": 2279
    },
    {
      "epoch": 0.050666666666666665,
      "grad_norm": 0.983023464679718,
      "learning_rate": 0.00018990886863747502,
      "loss": 1.2615,
      "step": 2280
    },
    {
      "epoch": 0.05068888888888889,
      "grad_norm": 1.316780686378479,
      "learning_rate": 0.0001899044232051567,
      "loss": 1.9937,
      "step": 2281
    },
    {
      "epoch": 0.05071111111111111,
      "grad_norm": 1.427194356918335,
      "learning_rate": 0.0001898999777728384,
      "loss": 2.2436,
      "step": 2282
    },
    {
      "epoch": 0.05073333333333333,
      "grad_norm": 1.6661731004714966,
      "learning_rate": 0.00018989553234052015,
      "loss": 0.0851,
      "step": 2283
    },
    {
      "epoch": 0.050755555555555554,
      "grad_norm": 1.2097456455230713,
      "learning_rate": 0.00018989108690820183,
      "loss": 1.6042,
      "step": 2284
    },
    {
      "epoch": 0.050777777777777776,
      "grad_norm": 1.269895315170288,
      "learning_rate": 0.00018988664147588354,
      "loss": 1.9546,
      "step": 2285
    },
    {
      "epoch": 0.0508,
      "grad_norm": 1.3030612468719482,
      "learning_rate": 0.00018988219604356525,
      "loss": 2.1369,
      "step": 2286
    },
    {
      "epoch": 0.05082222222222222,
      "grad_norm": 1.2111833095550537,
      "learning_rate": 0.00018987775061124696,
      "loss": 1.9118,
      "step": 2287
    },
    {
      "epoch": 0.05084444444444444,
      "grad_norm": 1.5516785383224487,
      "learning_rate": 0.00018987330517892864,
      "loss": 1.7997,
      "step": 2288
    },
    {
      "epoch": 0.050866666666666664,
      "grad_norm": 1.3370234966278076,
      "learning_rate": 0.00018986885974661038,
      "loss": 1.9019,
      "step": 2289
    },
    {
      "epoch": 0.050888888888888886,
      "grad_norm": 1.9784932136535645,
      "learning_rate": 0.00018986441431429206,
      "loss": 2.3373,
      "step": 2290
    },
    {
      "epoch": 0.05091111111111111,
      "grad_norm": 1.2709294557571411,
      "learning_rate": 0.00018985996888197377,
      "loss": 2.1115,
      "step": 2291
    },
    {
      "epoch": 0.05093333333333333,
      "grad_norm": 1.4198848009109497,
      "learning_rate": 0.0001898555234496555,
      "loss": 1.852,
      "step": 2292
    },
    {
      "epoch": 0.05095555555555555,
      "grad_norm": 1.337188959121704,
      "learning_rate": 0.0001898510780173372,
      "loss": 2.3314,
      "step": 2293
    },
    {
      "epoch": 0.050977777777777775,
      "grad_norm": 1.2728619575500488,
      "learning_rate": 0.00018984663258501892,
      "loss": 1.8133,
      "step": 2294
    },
    {
      "epoch": 0.051,
      "grad_norm": 1.3903908729553223,
      "learning_rate": 0.0001898421871527006,
      "loss": 2.3299,
      "step": 2295
    },
    {
      "epoch": 0.05102222222222222,
      "grad_norm": 1.030693769454956,
      "learning_rate": 0.00018983774172038232,
      "loss": 0.7797,
      "step": 2296
    },
    {
      "epoch": 0.05104444444444445,
      "grad_norm": 1.488663673400879,
      "learning_rate": 0.00018983329628806403,
      "loss": 1.9355,
      "step": 2297
    },
    {
      "epoch": 0.05106666666666667,
      "grad_norm": 1.2341729402542114,
      "learning_rate": 0.00018982885085574574,
      "loss": 1.9369,
      "step": 2298
    },
    {
      "epoch": 0.05108888888888889,
      "grad_norm": 2.313055992126465,
      "learning_rate": 0.00018982440542342742,
      "loss": 0.8939,
      "step": 2299
    },
    {
      "epoch": 0.051111111111111114,
      "grad_norm": 1.303525447845459,
      "learning_rate": 0.00018981995999110916,
      "loss": 1.1322,
      "step": 2300
    },
    {
      "epoch": 0.051133333333333336,
      "grad_norm": 0.9481244683265686,
      "learning_rate": 0.00018981551455879086,
      "loss": 2.4678,
      "step": 2301
    },
    {
      "epoch": 0.05115555555555556,
      "grad_norm": 1.2568217515945435,
      "learning_rate": 0.00018981106912647255,
      "loss": 2.2967,
      "step": 2302
    },
    {
      "epoch": 0.05117777777777778,
      "grad_norm": 1.009139895439148,
      "learning_rate": 0.00018980662369415428,
      "loss": 2.2559,
      "step": 2303
    },
    {
      "epoch": 0.0512,
      "grad_norm": 0.9287073016166687,
      "learning_rate": 0.00018980217826183597,
      "loss": 2.3218,
      "step": 2304
    },
    {
      "epoch": 0.051222222222222225,
      "grad_norm": 1.0955108404159546,
      "learning_rate": 0.00018979773282951768,
      "loss": 2.3199,
      "step": 2305
    },
    {
      "epoch": 0.05124444444444445,
      "grad_norm": 1.0093859434127808,
      "learning_rate": 0.00018979328739719939,
      "loss": 2.2353,
      "step": 2306
    },
    {
      "epoch": 0.05126666666666667,
      "grad_norm": 0.9418924450874329,
      "learning_rate": 0.0001897888419648811,
      "loss": 1.6572,
      "step": 2307
    },
    {
      "epoch": 0.05128888888888889,
      "grad_norm": 1.0343866348266602,
      "learning_rate": 0.0001897843965325628,
      "loss": 2.2157,
      "step": 2308
    },
    {
      "epoch": 0.05131111111111111,
      "grad_norm": 1.1496596336364746,
      "learning_rate": 0.00018977995110024451,
      "loss": 2.3266,
      "step": 2309
    },
    {
      "epoch": 0.051333333333333335,
      "grad_norm": 0.9841002821922302,
      "learning_rate": 0.00018977550566792622,
      "loss": 2.0782,
      "step": 2310
    },
    {
      "epoch": 0.05135555555555556,
      "grad_norm": 1.158416509628296,
      "learning_rate": 0.0001897710602356079,
      "loss": 2.4363,
      "step": 2311
    },
    {
      "epoch": 0.05137777777777778,
      "grad_norm": 1.21837317943573,
      "learning_rate": 0.00018976661480328964,
      "loss": 2.6334,
      "step": 2312
    },
    {
      "epoch": 0.0514,
      "grad_norm": 1.5002174377441406,
      "learning_rate": 0.00018976216937097133,
      "loss": 2.1274,
      "step": 2313
    },
    {
      "epoch": 0.05142222222222222,
      "grad_norm": 1.1424044370651245,
      "learning_rate": 0.00018975772393865306,
      "loss": 2.4683,
      "step": 2314
    },
    {
      "epoch": 0.051444444444444445,
      "grad_norm": 0.9944825768470764,
      "learning_rate": 0.00018975327850633475,
      "loss": 1.8226,
      "step": 2315
    },
    {
      "epoch": 0.05146666666666667,
      "grad_norm": 1.1477516889572144,
      "learning_rate": 0.00018974883307401645,
      "loss": 2.1133,
      "step": 2316
    },
    {
      "epoch": 0.05148888888888889,
      "grad_norm": 1.0240275859832764,
      "learning_rate": 0.00018974438764169816,
      "loss": 1.7058,
      "step": 2317
    },
    {
      "epoch": 0.05151111111111111,
      "grad_norm": 1.2768690586090088,
      "learning_rate": 0.00018973994220937987,
      "loss": 2.6642,
      "step": 2318
    },
    {
      "epoch": 0.051533333333333334,
      "grad_norm": 1.1745579242706299,
      "learning_rate": 0.00018973549677706158,
      "loss": 2.4401,
      "step": 2319
    },
    {
      "epoch": 0.051555555555555556,
      "grad_norm": 1.1885981559753418,
      "learning_rate": 0.0001897310513447433,
      "loss": 1.8775,
      "step": 2320
    },
    {
      "epoch": 0.05157777777777778,
      "grad_norm": 1.4170076847076416,
      "learning_rate": 0.000189726605912425,
      "loss": 2.3107,
      "step": 2321
    },
    {
      "epoch": 0.0516,
      "grad_norm": 1.2378846406936646,
      "learning_rate": 0.00018972216048010669,
      "loss": 2.1506,
      "step": 2322
    },
    {
      "epoch": 0.05162222222222222,
      "grad_norm": 1.1762984991073608,
      "learning_rate": 0.00018971771504778842,
      "loss": 1.9022,
      "step": 2323
    },
    {
      "epoch": 0.051644444444444444,
      "grad_norm": 1.5881881713867188,
      "learning_rate": 0.0001897132696154701,
      "loss": 2.3016,
      "step": 2324
    },
    {
      "epoch": 0.051666666666666666,
      "grad_norm": 1.3380208015441895,
      "learning_rate": 0.00018970882418315181,
      "loss": 2.0756,
      "step": 2325
    },
    {
      "epoch": 0.05168888888888889,
      "grad_norm": 1.231576919555664,
      "learning_rate": 0.00018970437875083352,
      "loss": 2.102,
      "step": 2326
    },
    {
      "epoch": 0.05171111111111111,
      "grad_norm": 1.0062800645828247,
      "learning_rate": 0.00018969993331851523,
      "loss": 1.7528,
      "step": 2327
    },
    {
      "epoch": 0.05173333333333333,
      "grad_norm": 1.196985125541687,
      "learning_rate": 0.00018969548788619694,
      "loss": 2.1386,
      "step": 2328
    },
    {
      "epoch": 0.051755555555555555,
      "grad_norm": 1.203781008720398,
      "learning_rate": 0.00018969104245387865,
      "loss": 1.6447,
      "step": 2329
    },
    {
      "epoch": 0.05177777777777778,
      "grad_norm": 1.3276416063308716,
      "learning_rate": 0.00018968659702156036,
      "loss": 2.3762,
      "step": 2330
    },
    {
      "epoch": 0.0518,
      "grad_norm": 1.246086835861206,
      "learning_rate": 0.00018968215158924204,
      "loss": 1.9903,
      "step": 2331
    },
    {
      "epoch": 0.05182222222222222,
      "grad_norm": 1.1679178476333618,
      "learning_rate": 0.00018967770615692378,
      "loss": 1.6781,
      "step": 2332
    },
    {
      "epoch": 0.05184444444444444,
      "grad_norm": 1.2968538999557495,
      "learning_rate": 0.00018967326072460546,
      "loss": 2.1941,
      "step": 2333
    },
    {
      "epoch": 0.051866666666666665,
      "grad_norm": 1.2440041303634644,
      "learning_rate": 0.0001896688152922872,
      "loss": 1.5251,
      "step": 2334
    },
    {
      "epoch": 0.05188888888888889,
      "grad_norm": 1.2177753448486328,
      "learning_rate": 0.00018966436985996888,
      "loss": 1.9533,
      "step": 2335
    },
    {
      "epoch": 0.05191111111111111,
      "grad_norm": 1.5729150772094727,
      "learning_rate": 0.0001896599244276506,
      "loss": 2.2132,
      "step": 2336
    },
    {
      "epoch": 0.05193333333333333,
      "grad_norm": 1.2729722261428833,
      "learning_rate": 0.0001896554789953323,
      "loss": 1.9398,
      "step": 2337
    },
    {
      "epoch": 0.05195555555555555,
      "grad_norm": 1.475525140762329,
      "learning_rate": 0.000189651033563014,
      "loss": 2.2079,
      "step": 2338
    },
    {
      "epoch": 0.051977777777777776,
      "grad_norm": 1.564623475074768,
      "learning_rate": 0.00018964658813069572,
      "loss": 2.2597,
      "step": 2339
    },
    {
      "epoch": 0.052,
      "grad_norm": 1.4291465282440186,
      "learning_rate": 0.00018964214269837743,
      "loss": 2.5056,
      "step": 2340
    },
    {
      "epoch": 0.05202222222222222,
      "grad_norm": 1.27070152759552,
      "learning_rate": 0.00018963769726605914,
      "loss": 1.6326,
      "step": 2341
    },
    {
      "epoch": 0.05204444444444444,
      "grad_norm": 1.1755186319351196,
      "learning_rate": 0.00018963325183374082,
      "loss": 1.6277,
      "step": 2342
    },
    {
      "epoch": 0.052066666666666664,
      "grad_norm": 1.3973621129989624,
      "learning_rate": 0.00018962880640142256,
      "loss": 2.0718,
      "step": 2343
    },
    {
      "epoch": 0.052088888888888886,
      "grad_norm": 1.537056803703308,
      "learning_rate": 0.00018962436096910424,
      "loss": 1.8861,
      "step": 2344
    },
    {
      "epoch": 0.05211111111111111,
      "grad_norm": 1.6013939380645752,
      "learning_rate": 0.00018961991553678595,
      "loss": 2.0865,
      "step": 2345
    },
    {
      "epoch": 0.05213333333333333,
      "grad_norm": 1.6155565977096558,
      "learning_rate": 0.00018961547010446766,
      "loss": 1.9949,
      "step": 2346
    },
    {
      "epoch": 0.05215555555555555,
      "grad_norm": 1.3884861469268799,
      "learning_rate": 0.00018961102467214937,
      "loss": 2.253,
      "step": 2347
    },
    {
      "epoch": 0.052177777777777774,
      "grad_norm": 1.1273061037063599,
      "learning_rate": 0.00018960657923983108,
      "loss": 0.8344,
      "step": 2348
    },
    {
      "epoch": 0.0522,
      "grad_norm": 1.4665790796279907,
      "learning_rate": 0.0001896021338075128,
      "loss": 1.8642,
      "step": 2349
    },
    {
      "epoch": 0.052222222222222225,
      "grad_norm": 1.0834414958953857,
      "learning_rate": 0.0001895976883751945,
      "loss": 0.921,
      "step": 2350
    },
    {
      "epoch": 0.05224444444444445,
      "grad_norm": 1.3091169595718384,
      "learning_rate": 0.0001895932429428762,
      "loss": 2.7127,
      "step": 2351
    },
    {
      "epoch": 0.05226666666666667,
      "grad_norm": 1.173563003540039,
      "learning_rate": 0.00018958879751055792,
      "loss": 2.8469,
      "step": 2352
    },
    {
      "epoch": 0.05228888888888889,
      "grad_norm": 1.0140055418014526,
      "learning_rate": 0.0001895843520782396,
      "loss": 1.4903,
      "step": 2353
    },
    {
      "epoch": 0.052311111111111114,
      "grad_norm": 0.9908082485198975,
      "learning_rate": 0.00018957990664592134,
      "loss": 2.0947,
      "step": 2354
    },
    {
      "epoch": 0.052333333333333336,
      "grad_norm": 1.8170055150985718,
      "learning_rate": 0.00018957546121360302,
      "loss": 2.7524,
      "step": 2355
    },
    {
      "epoch": 0.05235555555555556,
      "grad_norm": 1.0227460861206055,
      "learning_rate": 0.00018957101578128473,
      "loss": 2.2746,
      "step": 2356
    },
    {
      "epoch": 0.05237777777777778,
      "grad_norm": 0.9263565540313721,
      "learning_rate": 0.00018956657034896647,
      "loss": 1.7847,
      "step": 2357
    },
    {
      "epoch": 0.0524,
      "grad_norm": 1.2337859869003296,
      "learning_rate": 0.00018956212491664815,
      "loss": 2.4752,
      "step": 2358
    },
    {
      "epoch": 0.052422222222222224,
      "grad_norm": 1.171648383140564,
      "learning_rate": 0.00018955767948432986,
      "loss": 2.4235,
      "step": 2359
    },
    {
      "epoch": 0.052444444444444446,
      "grad_norm": 0.9819696545600891,
      "learning_rate": 0.00018955323405201157,
      "loss": 1.115,
      "step": 2360
    },
    {
      "epoch": 0.05246666666666667,
      "grad_norm": 1.077548861503601,
      "learning_rate": 0.00018954878861969328,
      "loss": 1.7721,
      "step": 2361
    },
    {
      "epoch": 0.05248888888888889,
      "grad_norm": 1.0623936653137207,
      "learning_rate": 0.00018954434318737496,
      "loss": 2.3041,
      "step": 2362
    },
    {
      "epoch": 0.05251111111111111,
      "grad_norm": 1.0431392192840576,
      "learning_rate": 0.0001895398977550567,
      "loss": 1.928,
      "step": 2363
    },
    {
      "epoch": 0.052533333333333335,
      "grad_norm": 1.1533517837524414,
      "learning_rate": 0.00018953545232273838,
      "loss": 2.0593,
      "step": 2364
    },
    {
      "epoch": 0.05255555555555556,
      "grad_norm": 1.4033219814300537,
      "learning_rate": 0.0001895310068904201,
      "loss": 2.4855,
      "step": 2365
    },
    {
      "epoch": 0.05257777777777778,
      "grad_norm": 0.9098128080368042,
      "learning_rate": 0.00018952656145810183,
      "loss": 1.464,
      "step": 2366
    },
    {
      "epoch": 0.0526,
      "grad_norm": 1.2354823350906372,
      "learning_rate": 0.0001895221160257835,
      "loss": 2.6515,
      "step": 2367
    },
    {
      "epoch": 0.05262222222222222,
      "grad_norm": 1.0878663063049316,
      "learning_rate": 0.00018951767059346522,
      "loss": 2.0154,
      "step": 2368
    },
    {
      "epoch": 0.052644444444444445,
      "grad_norm": 1.2616039514541626,
      "learning_rate": 0.00018951322516114693,
      "loss": 2.1318,
      "step": 2369
    },
    {
      "epoch": 0.05266666666666667,
      "grad_norm": 1.3192627429962158,
      "learning_rate": 0.00018950877972882864,
      "loss": 2.0905,
      "step": 2370
    },
    {
      "epoch": 0.05268888888888889,
      "grad_norm": 1.243998646736145,
      "learning_rate": 0.00018950433429651035,
      "loss": 2.0889,
      "step": 2371
    },
    {
      "epoch": 0.05271111111111111,
      "grad_norm": 1.3276753425598145,
      "learning_rate": 0.00018949988886419206,
      "loss": 2.0204,
      "step": 2372
    },
    {
      "epoch": 0.05273333333333333,
      "grad_norm": 1.1520330905914307,
      "learning_rate": 0.00018949544343187374,
      "loss": 1.8058,
      "step": 2373
    },
    {
      "epoch": 0.052755555555555556,
      "grad_norm": 1.5755805969238281,
      "learning_rate": 0.00018949099799955548,
      "loss": 2.2712,
      "step": 2374
    },
    {
      "epoch": 0.05277777777777778,
      "grad_norm": 1.265557050704956,
      "learning_rate": 0.0001894865525672372,
      "loss": 1.8071,
      "step": 2375
    },
    {
      "epoch": 0.0528,
      "grad_norm": 1.1964306831359863,
      "learning_rate": 0.00018948210713491887,
      "loss": 2.0829,
      "step": 2376
    },
    {
      "epoch": 0.05282222222222222,
      "grad_norm": 1.7723175287246704,
      "learning_rate": 0.0001894776617026006,
      "loss": 2.4585,
      "step": 2377
    },
    {
      "epoch": 0.052844444444444444,
      "grad_norm": 1.2948371171951294,
      "learning_rate": 0.0001894732162702823,
      "loss": 1.7931,
      "step": 2378
    },
    {
      "epoch": 0.052866666666666666,
      "grad_norm": 1.6545947790145874,
      "learning_rate": 0.000189468770837964,
      "loss": 2.627,
      "step": 2379
    },
    {
      "epoch": 0.05288888888888889,
      "grad_norm": 1.1918590068817139,
      "learning_rate": 0.0001894643254056457,
      "loss": 2.4832,
      "step": 2380
    },
    {
      "epoch": 0.05291111111111111,
      "grad_norm": 1.3209351301193237,
      "learning_rate": 0.00018945987997332742,
      "loss": 2.0956,
      "step": 2381
    },
    {
      "epoch": 0.05293333333333333,
      "grad_norm": 1.279868483543396,
      "learning_rate": 0.00018945543454100913,
      "loss": 1.9356,
      "step": 2382
    },
    {
      "epoch": 0.052955555555555554,
      "grad_norm": 1.2751002311706543,
      "learning_rate": 0.00018945098910869084,
      "loss": 1.7475,
      "step": 2383
    },
    {
      "epoch": 0.052977777777777776,
      "grad_norm": 1.2927143573760986,
      "learning_rate": 0.00018944654367637255,
      "loss": 2.2396,
      "step": 2384
    },
    {
      "epoch": 0.053,
      "grad_norm": 1.314698338508606,
      "learning_rate": 0.00018944209824405423,
      "loss": 1.7448,
      "step": 2385
    },
    {
      "epoch": 0.05302222222222222,
      "grad_norm": 1.3616132736206055,
      "learning_rate": 0.00018943765281173597,
      "loss": 2.1451,
      "step": 2386
    },
    {
      "epoch": 0.05304444444444444,
      "grad_norm": 1.2678908109664917,
      "learning_rate": 0.00018943320737941765,
      "loss": 2.2548,
      "step": 2387
    },
    {
      "epoch": 0.053066666666666665,
      "grad_norm": 1.2714632749557495,
      "learning_rate": 0.00018942876194709936,
      "loss": 1.8186,
      "step": 2388
    },
    {
      "epoch": 0.05308888888888889,
      "grad_norm": 1.1509929895401,
      "learning_rate": 0.00018942431651478107,
      "loss": 1.5296,
      "step": 2389
    },
    {
      "epoch": 0.05311111111111111,
      "grad_norm": 1.3871374130249023,
      "learning_rate": 0.00018941987108246278,
      "loss": 1.701,
      "step": 2390
    },
    {
      "epoch": 0.05313333333333333,
      "grad_norm": 1.2524795532226562,
      "learning_rate": 0.0001894154256501445,
      "loss": 2.0234,
      "step": 2391
    },
    {
      "epoch": 0.05315555555555555,
      "grad_norm": 1.1746879816055298,
      "learning_rate": 0.0001894109802178262,
      "loss": 1.6097,
      "step": 2392
    },
    {
      "epoch": 0.053177777777777775,
      "grad_norm": 1.928781509399414,
      "learning_rate": 0.0001894065347855079,
      "loss": 1.6618,
      "step": 2393
    },
    {
      "epoch": 0.0532,
      "grad_norm": 1.4668447971343994,
      "learning_rate": 0.00018940208935318962,
      "loss": 1.9964,
      "step": 2394
    },
    {
      "epoch": 0.05322222222222222,
      "grad_norm": 1.4051446914672852,
      "learning_rate": 0.00018939764392087133,
      "loss": 2.0399,
      "step": 2395
    },
    {
      "epoch": 0.05324444444444444,
      "grad_norm": 1.2799900770187378,
      "learning_rate": 0.000189393198488553,
      "loss": 1.769,
      "step": 2396
    },
    {
      "epoch": 0.053266666666666664,
      "grad_norm": 1.543502926826477,
      "learning_rate": 0.00018938875305623474,
      "loss": 1.965,
      "step": 2397
    },
    {
      "epoch": 0.053288888888888886,
      "grad_norm": 2.0054454803466797,
      "learning_rate": 0.00018938430762391643,
      "loss": 2.0078,
      "step": 2398
    },
    {
      "epoch": 0.05331111111111111,
      "grad_norm": 1.122998595237732,
      "learning_rate": 0.00018937986219159814,
      "loss": 0.6365,
      "step": 2399
    },
    {
      "epoch": 0.05333333333333334,
      "grad_norm": 1.3832374811172485,
      "learning_rate": 0.00018937541675927985,
      "loss": 1.4609,
      "step": 2400
    },
    {
      "epoch": 0.05335555555555556,
      "grad_norm": 1.0088211297988892,
      "learning_rate": 0.00018937097132696156,
      "loss": 2.3437,
      "step": 2401
    },
    {
      "epoch": 0.05337777777777778,
      "grad_norm": 1.1041789054870605,
      "learning_rate": 0.00018936652589464327,
      "loss": 2.8084,
      "step": 2402
    },
    {
      "epoch": 0.0534,
      "grad_norm": 1.1989312171936035,
      "learning_rate": 0.00018936208046232497,
      "loss": 2.8785,
      "step": 2403
    },
    {
      "epoch": 0.053422222222222225,
      "grad_norm": 0.70741868019104,
      "learning_rate": 0.00018935763503000668,
      "loss": 0.8932,
      "step": 2404
    },
    {
      "epoch": 0.05344444444444445,
      "grad_norm": 0.9797938466072083,
      "learning_rate": 0.00018935318959768837,
      "loss": 2.1857,
      "step": 2405
    },
    {
      "epoch": 0.05346666666666667,
      "grad_norm": 1.1413230895996094,
      "learning_rate": 0.0001893487441653701,
      "loss": 2.2059,
      "step": 2406
    },
    {
      "epoch": 0.05348888888888889,
      "grad_norm": 0.9932123422622681,
      "learning_rate": 0.00018934429873305179,
      "loss": 2.5113,
      "step": 2407
    },
    {
      "epoch": 0.05351111111111111,
      "grad_norm": 1.2092759609222412,
      "learning_rate": 0.00018933985330073352,
      "loss": 1.8474,
      "step": 2408
    },
    {
      "epoch": 0.053533333333333336,
      "grad_norm": 1.3358006477355957,
      "learning_rate": 0.0001893354078684152,
      "loss": 2.5141,
      "step": 2409
    },
    {
      "epoch": 0.05355555555555556,
      "grad_norm": 1.2211167812347412,
      "learning_rate": 0.00018933096243609692,
      "loss": 2.0904,
      "step": 2410
    },
    {
      "epoch": 0.05357777777777778,
      "grad_norm": 1.1042029857635498,
      "learning_rate": 0.00018932651700377862,
      "loss": 2.2942,
      "step": 2411
    },
    {
      "epoch": 0.0536,
      "grad_norm": 1.422839641571045,
      "learning_rate": 0.00018932207157146033,
      "loss": 2.3406,
      "step": 2412
    },
    {
      "epoch": 0.053622222222222224,
      "grad_norm": 1.5759137868881226,
      "learning_rate": 0.00018931762613914204,
      "loss": 2.7206,
      "step": 2413
    },
    {
      "epoch": 0.053644444444444446,
      "grad_norm": 1.405296802520752,
      "learning_rate": 0.00018931318070682375,
      "loss": 2.7824,
      "step": 2414
    },
    {
      "epoch": 0.05366666666666667,
      "grad_norm": 1.0691838264465332,
      "learning_rate": 0.00018930873527450546,
      "loss": 1.8771,
      "step": 2415
    },
    {
      "epoch": 0.05368888888888889,
      "grad_norm": 1.08065927028656,
      "learning_rate": 0.00018930428984218715,
      "loss": 1.8229,
      "step": 2416
    },
    {
      "epoch": 0.05371111111111111,
      "grad_norm": 1.0633454322814941,
      "learning_rate": 0.00018929984440986888,
      "loss": 1.9051,
      "step": 2417
    },
    {
      "epoch": 0.053733333333333334,
      "grad_norm": 1.177459716796875,
      "learning_rate": 0.00018929539897755056,
      "loss": 1.9052,
      "step": 2418
    },
    {
      "epoch": 0.053755555555555556,
      "grad_norm": 1.132089376449585,
      "learning_rate": 0.00018929095354523227,
      "loss": 2.1315,
      "step": 2419
    },
    {
      "epoch": 0.05377777777777778,
      "grad_norm": 1.1427791118621826,
      "learning_rate": 0.00018928650811291398,
      "loss": 2.0587,
      "step": 2420
    },
    {
      "epoch": 0.0538,
      "grad_norm": 1.231881022453308,
      "learning_rate": 0.0001892820626805957,
      "loss": 2.3537,
      "step": 2421
    },
    {
      "epoch": 0.05382222222222222,
      "grad_norm": 1.288120150566101,
      "learning_rate": 0.0001892776172482774,
      "loss": 2.3701,
      "step": 2422
    },
    {
      "epoch": 0.053844444444444445,
      "grad_norm": 1.191667914390564,
      "learning_rate": 0.0001892731718159591,
      "loss": 2.3219,
      "step": 2423
    },
    {
      "epoch": 0.05386666666666667,
      "grad_norm": 1.1937075853347778,
      "learning_rate": 0.00018926872638364082,
      "loss": 2.1728,
      "step": 2424
    },
    {
      "epoch": 0.05388888888888889,
      "grad_norm": 1.0441638231277466,
      "learning_rate": 0.0001892642809513225,
      "loss": 1.4542,
      "step": 2425
    },
    {
      "epoch": 0.05391111111111111,
      "grad_norm": 1.3653444051742554,
      "learning_rate": 0.00018925983551900424,
      "loss": 2.1975,
      "step": 2426
    },
    {
      "epoch": 0.05393333333333333,
      "grad_norm": 1.2391129732131958,
      "learning_rate": 0.00018925539008668592,
      "loss": 2.2715,
      "step": 2427
    },
    {
      "epoch": 0.053955555555555555,
      "grad_norm": 1.4954770803451538,
      "learning_rate": 0.00018925094465436766,
      "loss": 1.6288,
      "step": 2428
    },
    {
      "epoch": 0.05397777777777778,
      "grad_norm": 1.317981481552124,
      "learning_rate": 0.00018924649922204934,
      "loss": 2.3077,
      "step": 2429
    },
    {
      "epoch": 0.054,
      "grad_norm": 1.3335977792739868,
      "learning_rate": 0.00018924205378973105,
      "loss": 1.9617,
      "step": 2430
    },
    {
      "epoch": 0.05402222222222222,
      "grad_norm": 1.132349967956543,
      "learning_rate": 0.0001892376083574128,
      "loss": 2.0535,
      "step": 2431
    },
    {
      "epoch": 0.054044444444444444,
      "grad_norm": 1.3031768798828125,
      "learning_rate": 0.00018923316292509447,
      "loss": 2.2856,
      "step": 2432
    },
    {
      "epoch": 0.054066666666666666,
      "grad_norm": 1.1036758422851562,
      "learning_rate": 0.00018922871749277618,
      "loss": 1.6712,
      "step": 2433
    },
    {
      "epoch": 0.05408888888888889,
      "grad_norm": 1.314907193183899,
      "learning_rate": 0.0001892242720604579,
      "loss": 1.6712,
      "step": 2434
    },
    {
      "epoch": 0.05411111111111111,
      "grad_norm": 1.287028431892395,
      "learning_rate": 0.0001892198266281396,
      "loss": 2.1933,
      "step": 2435
    },
    {
      "epoch": 0.05413333333333333,
      "grad_norm": 1.4043248891830444,
      "learning_rate": 0.00018921538119582128,
      "loss": 2.0347,
      "step": 2436
    },
    {
      "epoch": 0.054155555555555554,
      "grad_norm": 1.3338160514831543,
      "learning_rate": 0.00018921093576350302,
      "loss": 1.5641,
      "step": 2437
    },
    {
      "epoch": 0.054177777777777776,
      "grad_norm": 1.1076841354370117,
      "learning_rate": 0.0001892064903311847,
      "loss": 1.9741,
      "step": 2438
    },
    {
      "epoch": 0.0542,
      "grad_norm": 1.3298640251159668,
      "learning_rate": 0.0001892020448988664,
      "loss": 1.8845,
      "step": 2439
    },
    {
      "epoch": 0.05422222222222222,
      "grad_norm": 1.237134337425232,
      "learning_rate": 0.00018919759946654815,
      "loss": 2.0562,
      "step": 2440
    },
    {
      "epoch": 0.05424444444444444,
      "grad_norm": 1.533353328704834,
      "learning_rate": 0.00018919315403422983,
      "loss": 2.2939,
      "step": 2441
    },
    {
      "epoch": 0.054266666666666664,
      "grad_norm": 1.239883303642273,
      "learning_rate": 0.00018918870860191154,
      "loss": 1.865,
      "step": 2442
    },
    {
      "epoch": 0.054288888888888887,
      "grad_norm": 1.0204641819000244,
      "learning_rate": 0.00018918426316959325,
      "loss": 1.0265,
      "step": 2443
    },
    {
      "epoch": 0.05431111111111111,
      "grad_norm": 1.455061435699463,
      "learning_rate": 0.00018917981773727496,
      "loss": 2.3005,
      "step": 2444
    },
    {
      "epoch": 0.05433333333333333,
      "grad_norm": 1.2822335958480835,
      "learning_rate": 0.00018917537230495664,
      "loss": 2.352,
      "step": 2445
    },
    {
      "epoch": 0.05435555555555555,
      "grad_norm": 1.1937792301177979,
      "learning_rate": 0.00018917092687263838,
      "loss": 1.9667,
      "step": 2446
    },
    {
      "epoch": 0.054377777777777775,
      "grad_norm": 1.2129205465316772,
      "learning_rate": 0.00018916648144032006,
      "loss": 1.5441,
      "step": 2447
    },
    {
      "epoch": 0.0544,
      "grad_norm": 1.2139372825622559,
      "learning_rate": 0.0001891620360080018,
      "loss": 1.5881,
      "step": 2448
    },
    {
      "epoch": 0.05442222222222222,
      "grad_norm": 1.614974856376648,
      "learning_rate": 0.0001891575905756835,
      "loss": 1.9697,
      "step": 2449
    },
    {
      "epoch": 0.05444444444444444,
      "grad_norm": 1.494932770729065,
      "learning_rate": 0.0001891531451433652,
      "loss": 1.5232,
      "step": 2450
    },
    {
      "epoch": 0.05446666666666666,
      "grad_norm": 1.0456159114837646,
      "learning_rate": 0.00018914869971104693,
      "loss": 2.0489,
      "step": 2451
    },
    {
      "epoch": 0.05448888888888889,
      "grad_norm": 0.24582913517951965,
      "learning_rate": 0.0001891442542787286,
      "loss": 0.0238,
      "step": 2452
    },
    {
      "epoch": 0.054511111111111114,
      "grad_norm": 1.1495356559753418,
      "learning_rate": 0.00018913980884641032,
      "loss": 2.7597,
      "step": 2453
    },
    {
      "epoch": 0.054533333333333336,
      "grad_norm": 1.0543262958526611,
      "learning_rate": 0.00018913536341409203,
      "loss": 2.2041,
      "step": 2454
    },
    {
      "epoch": 0.05455555555555556,
      "grad_norm": 1.4828373193740845,
      "learning_rate": 0.00018913091798177374,
      "loss": 2.629,
      "step": 2455
    },
    {
      "epoch": 0.05457777777777778,
      "grad_norm": 1.1645830869674683,
      "learning_rate": 0.00018912647254945545,
      "loss": 2.3529,
      "step": 2456
    },
    {
      "epoch": 0.0546,
      "grad_norm": 1.1288797855377197,
      "learning_rate": 0.00018912202711713716,
      "loss": 1.9734,
      "step": 2457
    },
    {
      "epoch": 0.054622222222222225,
      "grad_norm": 1.039430022239685,
      "learning_rate": 0.00018911758168481887,
      "loss": 2.4457,
      "step": 2458
    },
    {
      "epoch": 0.05464444444444445,
      "grad_norm": 0.9661824703216553,
      "learning_rate": 0.00018911313625250055,
      "loss": 2.0711,
      "step": 2459
    },
    {
      "epoch": 0.05466666666666667,
      "grad_norm": 1.3233098983764648,
      "learning_rate": 0.0001891086908201823,
      "loss": 2.3527,
      "step": 2460
    },
    {
      "epoch": 0.05468888888888889,
      "grad_norm": 1.210202932357788,
      "learning_rate": 0.00018910424538786397,
      "loss": 2.3941,
      "step": 2461
    },
    {
      "epoch": 0.05471111111111111,
      "grad_norm": 1.165424108505249,
      "learning_rate": 0.00018909979995554568,
      "loss": 2.2124,
      "step": 2462
    },
    {
      "epoch": 0.054733333333333335,
      "grad_norm": 1.0688230991363525,
      "learning_rate": 0.0001890953545232274,
      "loss": 2.1726,
      "step": 2463
    },
    {
      "epoch": 0.05475555555555556,
      "grad_norm": 1.1547540426254272,
      "learning_rate": 0.0001890909090909091,
      "loss": 2.0078,
      "step": 2464
    },
    {
      "epoch": 0.05477777777777778,
      "grad_norm": 1.1661717891693115,
      "learning_rate": 0.0001890864636585908,
      "loss": 1.8699,
      "step": 2465
    },
    {
      "epoch": 0.0548,
      "grad_norm": 1.0058127641677856,
      "learning_rate": 0.00018908201822627252,
      "loss": 2.1049,
      "step": 2466
    },
    {
      "epoch": 0.054822222222222224,
      "grad_norm": 1.408481478691101,
      "learning_rate": 0.00018907757279395423,
      "loss": 1.9875,
      "step": 2467
    },
    {
      "epoch": 0.054844444444444446,
      "grad_norm": 1.2111340761184692,
      "learning_rate": 0.00018907312736163594,
      "loss": 2.6125,
      "step": 2468
    },
    {
      "epoch": 0.05486666666666667,
      "grad_norm": 1.196250319480896,
      "learning_rate": 0.00018906868192931765,
      "loss": 2.1727,
      "step": 2469
    },
    {
      "epoch": 0.05488888888888889,
      "grad_norm": 1.0017157793045044,
      "learning_rate": 0.00018906423649699933,
      "loss": 2.0192,
      "step": 2470
    },
    {
      "epoch": 0.05491111111111111,
      "grad_norm": 1.1697108745574951,
      "learning_rate": 0.00018905979106468107,
      "loss": 2.2805,
      "step": 2471
    },
    {
      "epoch": 0.054933333333333334,
      "grad_norm": 1.292067527770996,
      "learning_rate": 0.00018905534563236275,
      "loss": 2.3587,
      "step": 2472
    },
    {
      "epoch": 0.054955555555555556,
      "grad_norm": 1.3392435312271118,
      "learning_rate": 0.00018905090020004446,
      "loss": 2.1746,
      "step": 2473
    },
    {
      "epoch": 0.05497777777777778,
      "grad_norm": 1.0832107067108154,
      "learning_rate": 0.00018904645476772617,
      "loss": 1.9875,
      "step": 2474
    },
    {
      "epoch": 0.055,
      "grad_norm": 1.2673426866531372,
      "learning_rate": 0.00018904200933540788,
      "loss": 2.2346,
      "step": 2475
    },
    {
      "epoch": 0.05502222222222222,
      "grad_norm": 1.0961675643920898,
      "learning_rate": 0.0001890375639030896,
      "loss": 1.9001,
      "step": 2476
    },
    {
      "epoch": 0.055044444444444444,
      "grad_norm": 1.5389955043792725,
      "learning_rate": 0.0001890331184707713,
      "loss": 2.1704,
      "step": 2477
    },
    {
      "epoch": 0.05506666666666667,
      "grad_norm": 1.1380915641784668,
      "learning_rate": 0.000189028673038453,
      "loss": 1.5925,
      "step": 2478
    },
    {
      "epoch": 0.05508888888888889,
      "grad_norm": 1.1954318284988403,
      "learning_rate": 0.0001890242276061347,
      "loss": 1.8853,
      "step": 2479
    },
    {
      "epoch": 0.05511111111111111,
      "grad_norm": 1.4532486200332642,
      "learning_rate": 0.00018901978217381643,
      "loss": 2.3578,
      "step": 2480
    },
    {
      "epoch": 0.05513333333333333,
      "grad_norm": 1.2123574018478394,
      "learning_rate": 0.0001890153367414981,
      "loss": 2.0524,
      "step": 2481
    },
    {
      "epoch": 0.055155555555555555,
      "grad_norm": 1.3489240407943726,
      "learning_rate": 0.00018901089130917982,
      "loss": 1.9921,
      "step": 2482
    },
    {
      "epoch": 0.05517777777777778,
      "grad_norm": 1.2275818586349487,
      "learning_rate": 0.00018900644587686153,
      "loss": 1.0391,
      "step": 2483
    },
    {
      "epoch": 0.0552,
      "grad_norm": 1.301775574684143,
      "learning_rate": 0.00018900200044454324,
      "loss": 2.1361,
      "step": 2484
    },
    {
      "epoch": 0.05522222222222222,
      "grad_norm": 1.177973747253418,
      "learning_rate": 0.00018899755501222495,
      "loss": 1.7752,
      "step": 2485
    },
    {
      "epoch": 0.05524444444444444,
      "grad_norm": 1.614419937133789,
      "learning_rate": 0.00018899310957990666,
      "loss": 2.0485,
      "step": 2486
    },
    {
      "epoch": 0.055266666666666665,
      "grad_norm": 1.4591861963272095,
      "learning_rate": 0.00018898866414758837,
      "loss": 2.6826,
      "step": 2487
    },
    {
      "epoch": 0.05528888888888889,
      "grad_norm": 1.234574317932129,
      "learning_rate": 0.00018898421871527008,
      "loss": 1.8722,
      "step": 2488
    },
    {
      "epoch": 0.05531111111111111,
      "grad_norm": 1.2190479040145874,
      "learning_rate": 0.00018897977328295179,
      "loss": 1.6645,
      "step": 2489
    },
    {
      "epoch": 0.05533333333333333,
      "grad_norm": 1.2094649076461792,
      "learning_rate": 0.00018897532785063347,
      "loss": 1.7016,
      "step": 2490
    },
    {
      "epoch": 0.055355555555555554,
      "grad_norm": 1.2158609628677368,
      "learning_rate": 0.0001889708824183152,
      "loss": 1.6962,
      "step": 2491
    },
    {
      "epoch": 0.055377777777777776,
      "grad_norm": 1.3388298749923706,
      "learning_rate": 0.0001889664369859969,
      "loss": 1.8867,
      "step": 2492
    },
    {
      "epoch": 0.0554,
      "grad_norm": 1.4496742486953735,
      "learning_rate": 0.0001889619915536786,
      "loss": 2.1865,
      "step": 2493
    },
    {
      "epoch": 0.05542222222222222,
      "grad_norm": 1.4807302951812744,
      "learning_rate": 0.0001889575461213603,
      "loss": 1.861,
      "step": 2494
    },
    {
      "epoch": 0.05544444444444444,
      "grad_norm": 1.8118335008621216,
      "learning_rate": 0.00018895310068904202,
      "loss": 1.6623,
      "step": 2495
    },
    {
      "epoch": 0.055466666666666664,
      "grad_norm": 1.4286296367645264,
      "learning_rate": 0.00018894865525672373,
      "loss": 2.0063,
      "step": 2496
    },
    {
      "epoch": 0.055488888888888886,
      "grad_norm": 1.2867096662521362,
      "learning_rate": 0.00018894420982440544,
      "loss": 1.6976,
      "step": 2497
    },
    {
      "epoch": 0.05551111111111111,
      "grad_norm": 1.3115135431289673,
      "learning_rate": 0.00018893976439208714,
      "loss": 1.7672,
      "step": 2498
    },
    {
      "epoch": 0.05553333333333333,
      "grad_norm": 1.1507395505905151,
      "learning_rate": 0.00018893531895976883,
      "loss": 0.9649,
      "step": 2499
    },
    {
      "epoch": 0.05555555555555555,
      "grad_norm": 1.5662176609039307,
      "learning_rate": 0.00018893087352745056,
      "loss": 1.1995,
      "step": 2500
    },
    {
      "epoch": 0.055577777777777775,
      "grad_norm": 1.036569595336914,
      "learning_rate": 0.00018892642809513225,
      "loss": 2.6401,
      "step": 2501
    },
    {
      "epoch": 0.0556,
      "grad_norm": 1.2533944845199585,
      "learning_rate": 0.00018892198266281396,
      "loss": 1.2099,
      "step": 2502
    },
    {
      "epoch": 0.055622222222222226,
      "grad_norm": 0.9114360809326172,
      "learning_rate": 0.00018891753723049567,
      "loss": 2.2516,
      "step": 2503
    },
    {
      "epoch": 0.05564444444444445,
      "grad_norm": 0.8984512090682983,
      "learning_rate": 0.00018891309179817738,
      "loss": 2.0534,
      "step": 2504
    },
    {
      "epoch": 0.05566666666666667,
      "grad_norm": 0.8923514485359192,
      "learning_rate": 0.0001889086463658591,
      "loss": 1.7531,
      "step": 2505
    },
    {
      "epoch": 0.05568888888888889,
      "grad_norm": 1.4881649017333984,
      "learning_rate": 0.0001889042009335408,
      "loss": 2.4426,
      "step": 2506
    },
    {
      "epoch": 0.055711111111111114,
      "grad_norm": 1.2478203773498535,
      "learning_rate": 0.0001888997555012225,
      "loss": 2.4129,
      "step": 2507
    },
    {
      "epoch": 0.055733333333333336,
      "grad_norm": 1.231635570526123,
      "learning_rate": 0.00018889531006890421,
      "loss": 1.8812,
      "step": 2508
    },
    {
      "epoch": 0.05575555555555556,
      "grad_norm": 1.1915603876113892,
      "learning_rate": 0.00018889086463658592,
      "loss": 2.1337,
      "step": 2509
    },
    {
      "epoch": 0.05577777777777778,
      "grad_norm": 1.236119270324707,
      "learning_rate": 0.0001888864192042676,
      "loss": 2.4318,
      "step": 2510
    },
    {
      "epoch": 0.0558,
      "grad_norm": 1.2447643280029297,
      "learning_rate": 0.00018888197377194934,
      "loss": 2.0202,
      "step": 2511
    },
    {
      "epoch": 0.055822222222222224,
      "grad_norm": 1.2412337064743042,
      "learning_rate": 0.00018887752833963103,
      "loss": 1.8919,
      "step": 2512
    },
    {
      "epoch": 0.05584444444444445,
      "grad_norm": 1.2132288217544556,
      "learning_rate": 0.00018887308290731273,
      "loss": 1.6845,
      "step": 2513
    },
    {
      "epoch": 0.05586666666666667,
      "grad_norm": 0.9563615918159485,
      "learning_rate": 0.00018886863747499447,
      "loss": 1.2756,
      "step": 2514
    },
    {
      "epoch": 0.05588888888888889,
      "grad_norm": 1.4900014400482178,
      "learning_rate": 0.00018886419204267615,
      "loss": 2.0221,
      "step": 2515
    },
    {
      "epoch": 0.05591111111111111,
      "grad_norm": 1.4225016832351685,
      "learning_rate": 0.00018885974661035786,
      "loss": 2.4016,
      "step": 2516
    },
    {
      "epoch": 0.055933333333333335,
      "grad_norm": 1.2294126749038696,
      "learning_rate": 0.00018885530117803957,
      "loss": 2.046,
      "step": 2517
    },
    {
      "epoch": 0.05595555555555556,
      "grad_norm": 0.9636179804801941,
      "learning_rate": 0.00018885085574572128,
      "loss": 1.3756,
      "step": 2518
    },
    {
      "epoch": 0.05597777777777778,
      "grad_norm": 1.2330832481384277,
      "learning_rate": 0.00018884641031340297,
      "loss": 1.9757,
      "step": 2519
    },
    {
      "epoch": 0.056,
      "grad_norm": 1.3391579389572144,
      "learning_rate": 0.0001888419648810847,
      "loss": 1.9916,
      "step": 2520
    },
    {
      "epoch": 0.05602222222222222,
      "grad_norm": 1.2452796697616577,
      "learning_rate": 0.00018883751944876638,
      "loss": 2.2848,
      "step": 2521
    },
    {
      "epoch": 0.056044444444444445,
      "grad_norm": 1.3527039289474487,
      "learning_rate": 0.00018883307401644812,
      "loss": 2.2526,
      "step": 2522
    },
    {
      "epoch": 0.05606666666666667,
      "grad_norm": 1.3589142560958862,
      "learning_rate": 0.00018882862858412983,
      "loss": 2.0975,
      "step": 2523
    },
    {
      "epoch": 0.05608888888888889,
      "grad_norm": 1.259299397468567,
      "learning_rate": 0.0001888241831518115,
      "loss": 2.0097,
      "step": 2524
    },
    {
      "epoch": 0.05611111111111111,
      "grad_norm": 1.4315937757492065,
      "learning_rate": 0.00018881973771949325,
      "loss": 1.7777,
      "step": 2525
    },
    {
      "epoch": 0.056133333333333334,
      "grad_norm": 1.1376361846923828,
      "learning_rate": 0.00018881529228717493,
      "loss": 2.2056,
      "step": 2526
    },
    {
      "epoch": 0.056155555555555556,
      "grad_norm": 0.8034170269966125,
      "learning_rate": 0.00018881084685485664,
      "loss": 0.7347,
      "step": 2527
    },
    {
      "epoch": 0.05617777777777778,
      "grad_norm": 1.4560273885726929,
      "learning_rate": 0.00018880640142253835,
      "loss": 2.2216,
      "step": 2528
    },
    {
      "epoch": 0.0562,
      "grad_norm": 1.181087613105774,
      "learning_rate": 0.00018880195599022006,
      "loss": 1.8212,
      "step": 2529
    },
    {
      "epoch": 0.05622222222222222,
      "grad_norm": 0.8451790809631348,
      "learning_rate": 0.00018879751055790177,
      "loss": 0.7923,
      "step": 2530
    },
    {
      "epoch": 0.056244444444444444,
      "grad_norm": 1.3709419965744019,
      "learning_rate": 0.00018879306512558348,
      "loss": 2.2324,
      "step": 2531
    },
    {
      "epoch": 0.056266666666666666,
      "grad_norm": 1.372127890586853,
      "learning_rate": 0.0001887886196932652,
      "loss": 2.0432,
      "step": 2532
    },
    {
      "epoch": 0.05628888888888889,
      "grad_norm": 1.4520469903945923,
      "learning_rate": 0.00018878417426094687,
      "loss": 2.358,
      "step": 2533
    },
    {
      "epoch": 0.05631111111111111,
      "grad_norm": 1.3024083375930786,
      "learning_rate": 0.0001887797288286286,
      "loss": 2.4057,
      "step": 2534
    },
    {
      "epoch": 0.05633333333333333,
      "grad_norm": 1.2385015487670898,
      "learning_rate": 0.0001887752833963103,
      "loss": 1.9186,
      "step": 2535
    },
    {
      "epoch": 0.056355555555555555,
      "grad_norm": 1.5507334470748901,
      "learning_rate": 0.000188770837963992,
      "loss": 2.2698,
      "step": 2536
    },
    {
      "epoch": 0.05637777777777778,
      "grad_norm": 1.4196962118148804,
      "learning_rate": 0.0001887663925316737,
      "loss": 1.8153,
      "step": 2537
    },
    {
      "epoch": 0.0564,
      "grad_norm": 1.2866084575653076,
      "learning_rate": 0.00018876194709935542,
      "loss": 2.0998,
      "step": 2538
    },
    {
      "epoch": 0.05642222222222222,
      "grad_norm": 1.331620454788208,
      "learning_rate": 0.00018875750166703713,
      "loss": 1.8027,
      "step": 2539
    },
    {
      "epoch": 0.05644444444444444,
      "grad_norm": 1.1863762140274048,
      "learning_rate": 0.00018875305623471884,
      "loss": 1.8618,
      "step": 2540
    },
    {
      "epoch": 0.056466666666666665,
      "grad_norm": 1.1917874813079834,
      "learning_rate": 0.00018874861080240055,
      "loss": 1.776,
      "step": 2541
    },
    {
      "epoch": 0.05648888888888889,
      "grad_norm": 1.3376266956329346,
      "learning_rate": 0.00018874416537008226,
      "loss": 2.1375,
      "step": 2542
    },
    {
      "epoch": 0.05651111111111111,
      "grad_norm": 1.483438491821289,
      "learning_rate": 0.00018873971993776397,
      "loss": 2.0117,
      "step": 2543
    },
    {
      "epoch": 0.05653333333333333,
      "grad_norm": 1.204397439956665,
      "learning_rate": 0.00018873527450544565,
      "loss": 1.9788,
      "step": 2544
    },
    {
      "epoch": 0.05655555555555555,
      "grad_norm": 1.2496213912963867,
      "learning_rate": 0.0001887308290731274,
      "loss": 1.6697,
      "step": 2545
    },
    {
      "epoch": 0.056577777777777775,
      "grad_norm": 1.2381025552749634,
      "learning_rate": 0.00018872638364080907,
      "loss": 1.9932,
      "step": 2546
    },
    {
      "epoch": 0.0566,
      "grad_norm": 0.9621703624725342,
      "learning_rate": 0.00018872193820849078,
      "loss": 1.0976,
      "step": 2547
    },
    {
      "epoch": 0.05662222222222222,
      "grad_norm": 1.4206795692443848,
      "learning_rate": 0.0001887174927761725,
      "loss": 2.4123,
      "step": 2548
    },
    {
      "epoch": 0.05664444444444444,
      "grad_norm": 1.7977161407470703,
      "learning_rate": 0.0001887130473438542,
      "loss": 2.0407,
      "step": 2549
    },
    {
      "epoch": 0.056666666666666664,
      "grad_norm": 1.200404167175293,
      "learning_rate": 0.0001887086019115359,
      "loss": 0.7282,
      "step": 2550
    },
    {
      "epoch": 0.056688888888888886,
      "grad_norm": 1.2886850833892822,
      "learning_rate": 0.00018870415647921762,
      "loss": 2.8743,
      "step": 2551
    },
    {
      "epoch": 0.05671111111111111,
      "grad_norm": 1.3046247959136963,
      "learning_rate": 0.00018869971104689933,
      "loss": 2.721,
      "step": 2552
    },
    {
      "epoch": 0.05673333333333333,
      "grad_norm": 0.9942330718040466,
      "learning_rate": 0.000188695265614581,
      "loss": 2.8455,
      "step": 2553
    },
    {
      "epoch": 0.05675555555555555,
      "grad_norm": 1.0440577268600464,
      "learning_rate": 0.00018869082018226275,
      "loss": 2.2894,
      "step": 2554
    },
    {
      "epoch": 0.05677777777777778,
      "grad_norm": 1.0470658540725708,
      "learning_rate": 0.00018868637474994443,
      "loss": 2.5528,
      "step": 2555
    },
    {
      "epoch": 0.0568,
      "grad_norm": 1.0190290212631226,
      "learning_rate": 0.00018868192931762614,
      "loss": 2.4568,
      "step": 2556
    },
    {
      "epoch": 0.056822222222222225,
      "grad_norm": 1.4050205945968628,
      "learning_rate": 0.00018867748388530785,
      "loss": 2.1209,
      "step": 2557
    },
    {
      "epoch": 0.05684444444444445,
      "grad_norm": 1.1558541059494019,
      "learning_rate": 0.00018867303845298956,
      "loss": 2.3952,
      "step": 2558
    },
    {
      "epoch": 0.05686666666666667,
      "grad_norm": 1.1200963258743286,
      "learning_rate": 0.00018866859302067127,
      "loss": 2.0985,
      "step": 2559
    },
    {
      "epoch": 0.05688888888888889,
      "grad_norm": 1.091135025024414,
      "learning_rate": 0.00018866414758835298,
      "loss": 1.8624,
      "step": 2560
    },
    {
      "epoch": 0.056911111111111114,
      "grad_norm": 1.581621527671814,
      "learning_rate": 0.0001886597021560347,
      "loss": 3.2137,
      "step": 2561
    },
    {
      "epoch": 0.056933333333333336,
      "grad_norm": 1.1373692750930786,
      "learning_rate": 0.0001886552567237164,
      "loss": 1.992,
      "step": 2562
    },
    {
      "epoch": 0.05695555555555556,
      "grad_norm": 1.4724087715148926,
      "learning_rate": 0.0001886508112913981,
      "loss": 2.0838,
      "step": 2563
    },
    {
      "epoch": 0.05697777777777778,
      "grad_norm": 1.3630752563476562,
      "learning_rate": 0.0001886463658590798,
      "loss": 1.7094,
      "step": 2564
    },
    {
      "epoch": 0.057,
      "grad_norm": 1.2479501962661743,
      "learning_rate": 0.00018864192042676153,
      "loss": 2.1034,
      "step": 2565
    },
    {
      "epoch": 0.057022222222222224,
      "grad_norm": 1.1085615158081055,
      "learning_rate": 0.0001886374749944432,
      "loss": 1.8555,
      "step": 2566
    },
    {
      "epoch": 0.057044444444444446,
      "grad_norm": 1.1923258304595947,
      "learning_rate": 0.00018863302956212492,
      "loss": 1.9177,
      "step": 2567
    },
    {
      "epoch": 0.05706666666666667,
      "grad_norm": 1.0570402145385742,
      "learning_rate": 0.00018862858412980663,
      "loss": 1.6675,
      "step": 2568
    },
    {
      "epoch": 0.05708888888888889,
      "grad_norm": 1.3930308818817139,
      "learning_rate": 0.00018862413869748834,
      "loss": 2.0568,
      "step": 2569
    },
    {
      "epoch": 0.05711111111111111,
      "grad_norm": 1.2459723949432373,
      "learning_rate": 0.00018861969326517005,
      "loss": 2.5248,
      "step": 2570
    },
    {
      "epoch": 0.057133333333333335,
      "grad_norm": 1.4689371585845947,
      "learning_rate": 0.00018861524783285176,
      "loss": 1.9445,
      "step": 2571
    },
    {
      "epoch": 0.05715555555555556,
      "grad_norm": 1.2268513441085815,
      "learning_rate": 0.00018861080240053347,
      "loss": 2.1856,
      "step": 2572
    },
    {
      "epoch": 0.05717777777777778,
      "grad_norm": 1.2996394634246826,
      "learning_rate": 0.00018860635696821515,
      "loss": 2.4146,
      "step": 2573
    },
    {
      "epoch": 0.0572,
      "grad_norm": 1.3084443807601929,
      "learning_rate": 0.00018860191153589689,
      "loss": 2.2153,
      "step": 2574
    },
    {
      "epoch": 0.05722222222222222,
      "grad_norm": 1.2762608528137207,
      "learning_rate": 0.00018859746610357857,
      "loss": 2.0201,
      "step": 2575
    },
    {
      "epoch": 0.057244444444444445,
      "grad_norm": 1.3511669635772705,
      "learning_rate": 0.00018859302067126028,
      "loss": 1.9618,
      "step": 2576
    },
    {
      "epoch": 0.05726666666666667,
      "grad_norm": 1.2813236713409424,
      "learning_rate": 0.000188588575238942,
      "loss": 1.7119,
      "step": 2577
    },
    {
      "epoch": 0.05728888888888889,
      "grad_norm": 1.080528736114502,
      "learning_rate": 0.0001885841298066237,
      "loss": 1.4051,
      "step": 2578
    },
    {
      "epoch": 0.05731111111111111,
      "grad_norm": 1.3457008600234985,
      "learning_rate": 0.00018857968437430543,
      "loss": 1.9014,
      "step": 2579
    },
    {
      "epoch": 0.05733333333333333,
      "grad_norm": 1.1213107109069824,
      "learning_rate": 0.00018857523894198712,
      "loss": 1.9722,
      "step": 2580
    },
    {
      "epoch": 0.057355555555555555,
      "grad_norm": 1.2997187376022339,
      "learning_rate": 0.00018857079350966883,
      "loss": 2.1289,
      "step": 2581
    },
    {
      "epoch": 0.05737777777777778,
      "grad_norm": 1.1378041505813599,
      "learning_rate": 0.00018856634807735054,
      "loss": 1.8117,
      "step": 2582
    },
    {
      "epoch": 0.0574,
      "grad_norm": 1.3709129095077515,
      "learning_rate": 0.00018856190264503225,
      "loss": 2.0827,
      "step": 2583
    },
    {
      "epoch": 0.05742222222222222,
      "grad_norm": 1.2919036149978638,
      "learning_rate": 0.00018855745721271393,
      "loss": 2.0347,
      "step": 2584
    },
    {
      "epoch": 0.057444444444444444,
      "grad_norm": 1.0655790567398071,
      "learning_rate": 0.00018855301178039566,
      "loss": 1.7323,
      "step": 2585
    },
    {
      "epoch": 0.057466666666666666,
      "grad_norm": 1.2686959505081177,
      "learning_rate": 0.00018854856634807735,
      "loss": 1.7882,
      "step": 2586
    },
    {
      "epoch": 0.05748888888888889,
      "grad_norm": 1.206129789352417,
      "learning_rate": 0.00018854412091575906,
      "loss": 1.6563,
      "step": 2587
    },
    {
      "epoch": 0.05751111111111111,
      "grad_norm": 1.3334760665893555,
      "learning_rate": 0.0001885396754834408,
      "loss": 1.8783,
      "step": 2588
    },
    {
      "epoch": 0.05753333333333333,
      "grad_norm": 1.4101591110229492,
      "learning_rate": 0.00018853523005112248,
      "loss": 1.9708,
      "step": 2589
    },
    {
      "epoch": 0.057555555555555554,
      "grad_norm": 1.1265485286712646,
      "learning_rate": 0.00018853078461880419,
      "loss": 1.5324,
      "step": 2590
    },
    {
      "epoch": 0.057577777777777776,
      "grad_norm": 1.4062831401824951,
      "learning_rate": 0.0001885263391864859,
      "loss": 1.9158,
      "step": 2591
    },
    {
      "epoch": 0.0576,
      "grad_norm": 1.3258615732192993,
      "learning_rate": 0.0001885218937541676,
      "loss": 1.8876,
      "step": 2592
    },
    {
      "epoch": 0.05762222222222222,
      "grad_norm": 1.366902470588684,
      "learning_rate": 0.0001885174483218493,
      "loss": 2.2955,
      "step": 2593
    },
    {
      "epoch": 0.05764444444444444,
      "grad_norm": 1.2706516981124878,
      "learning_rate": 0.00018851300288953102,
      "loss": 1.6714,
      "step": 2594
    },
    {
      "epoch": 0.057666666666666665,
      "grad_norm": 1.4717543125152588,
      "learning_rate": 0.0001885085574572127,
      "loss": 1.9276,
      "step": 2595
    },
    {
      "epoch": 0.05768888888888889,
      "grad_norm": 1.4014904499053955,
      "learning_rate": 0.00018850411202489442,
      "loss": 1.5478,
      "step": 2596
    },
    {
      "epoch": 0.05771111111111111,
      "grad_norm": 1.5884499549865723,
      "learning_rate": 0.00018849966659257615,
      "loss": 2.1932,
      "step": 2597
    },
    {
      "epoch": 0.05773333333333333,
      "grad_norm": 1.4640851020812988,
      "learning_rate": 0.00018849522116025784,
      "loss": 2.0769,
      "step": 2598
    },
    {
      "epoch": 0.05775555555555555,
      "grad_norm": 1.5820749998092651,
      "learning_rate": 0.00018849077572793957,
      "loss": 1.3225,
      "step": 2599
    },
    {
      "epoch": 0.057777777777777775,
      "grad_norm": 1.4387468099594116,
      "learning_rate": 0.00018848633029562125,
      "loss": 1.466,
      "step": 2600
    },
    {
      "epoch": 0.0578,
      "grad_norm": 1.301875352859497,
      "learning_rate": 0.00018848188486330296,
      "loss": 1.2375,
      "step": 2601
    },
    {
      "epoch": 0.05782222222222222,
      "grad_norm": 0.9710614681243896,
      "learning_rate": 0.00018847743943098467,
      "loss": 2.1691,
      "step": 2602
    },
    {
      "epoch": 0.05784444444444444,
      "grad_norm": 1.0692071914672852,
      "learning_rate": 0.00018847299399866638,
      "loss": 2.5301,
      "step": 2603
    },
    {
      "epoch": 0.057866666666666663,
      "grad_norm": 1.162587285041809,
      "learning_rate": 0.0001884685485663481,
      "loss": 2.226,
      "step": 2604
    },
    {
      "epoch": 0.057888888888888886,
      "grad_norm": 1.0870006084442139,
      "learning_rate": 0.0001884641031340298,
      "loss": 2.213,
      "step": 2605
    },
    {
      "epoch": 0.05791111111111111,
      "grad_norm": 1.3487595319747925,
      "learning_rate": 0.0001884596577017115,
      "loss": 2.5889,
      "step": 2606
    },
    {
      "epoch": 0.05793333333333334,
      "grad_norm": 1.0310118198394775,
      "learning_rate": 0.0001884552122693932,
      "loss": 2.2075,
      "step": 2607
    },
    {
      "epoch": 0.05795555555555556,
      "grad_norm": 1.3258577585220337,
      "learning_rate": 0.00018845076683707493,
      "loss": 2.1978,
      "step": 2608
    },
    {
      "epoch": 0.05797777777777778,
      "grad_norm": 1.0879091024398804,
      "learning_rate": 0.00018844632140475661,
      "loss": 2.3445,
      "step": 2609
    },
    {
      "epoch": 0.058,
      "grad_norm": 1.086910367012024,
      "learning_rate": 0.00018844187597243832,
      "loss": 2.0279,
      "step": 2610
    },
    {
      "epoch": 0.058022222222222225,
      "grad_norm": 1.0693237781524658,
      "learning_rate": 0.00018843743054012003,
      "loss": 2.1559,
      "step": 2611
    },
    {
      "epoch": 0.05804444444444445,
      "grad_norm": 1.2452982664108276,
      "learning_rate": 0.00018843298510780174,
      "loss": 2.185,
      "step": 2612
    },
    {
      "epoch": 0.05806666666666667,
      "grad_norm": 1.248547911643982,
      "learning_rate": 0.00018842853967548345,
      "loss": 2.489,
      "step": 2613
    },
    {
      "epoch": 0.05808888888888889,
      "grad_norm": 1.2178386449813843,
      "learning_rate": 0.00018842409424316516,
      "loss": 1.9774,
      "step": 2614
    },
    {
      "epoch": 0.05811111111111111,
      "grad_norm": 1.3870599269866943,
      "learning_rate": 0.00018841964881084687,
      "loss": 2.0721,
      "step": 2615
    },
    {
      "epoch": 0.058133333333333335,
      "grad_norm": 1.3151402473449707,
      "learning_rate": 0.00018841520337852858,
      "loss": 1.9932,
      "step": 2616
    },
    {
      "epoch": 0.05815555555555556,
      "grad_norm": 1.1721808910369873,
      "learning_rate": 0.0001884107579462103,
      "loss": 1.9445,
      "step": 2617
    },
    {
      "epoch": 0.05817777777777778,
      "grad_norm": 1.2163183689117432,
      "learning_rate": 0.00018840631251389197,
      "loss": 2.0455,
      "step": 2618
    },
    {
      "epoch": 0.0582,
      "grad_norm": 1.1210755109786987,
      "learning_rate": 0.0001884018670815737,
      "loss": 2.0786,
      "step": 2619
    },
    {
      "epoch": 0.058222222222222224,
      "grad_norm": 1.2193481922149658,
      "learning_rate": 0.0001883974216492554,
      "loss": 2.1058,
      "step": 2620
    },
    {
      "epoch": 0.058244444444444446,
      "grad_norm": 1.35350501537323,
      "learning_rate": 0.0001883929762169371,
      "loss": 2.4217,
      "step": 2621
    },
    {
      "epoch": 0.05826666666666667,
      "grad_norm": 1.2459526062011719,
      "learning_rate": 0.0001883885307846188,
      "loss": 1.9837,
      "step": 2622
    },
    {
      "epoch": 0.05828888888888889,
      "grad_norm": 1.4048715829849243,
      "learning_rate": 0.00018838408535230052,
      "loss": 2.0499,
      "step": 2623
    },
    {
      "epoch": 0.05831111111111111,
      "grad_norm": 1.2909272909164429,
      "learning_rate": 0.00018837963991998223,
      "loss": 2.4974,
      "step": 2624
    },
    {
      "epoch": 0.058333333333333334,
      "grad_norm": 1.3306478261947632,
      "learning_rate": 0.00018837519448766394,
      "loss": 2.0874,
      "step": 2625
    },
    {
      "epoch": 0.058355555555555556,
      "grad_norm": 1.4970335960388184,
      "learning_rate": 0.00018837074905534565,
      "loss": 2.4613,
      "step": 2626
    },
    {
      "epoch": 0.05837777777777778,
      "grad_norm": 1.0698506832122803,
      "learning_rate": 0.00018836630362302733,
      "loss": 0.9444,
      "step": 2627
    },
    {
      "epoch": 0.0584,
      "grad_norm": 0.9456402659416199,
      "learning_rate": 0.00018836185819070907,
      "loss": 0.8056,
      "step": 2628
    },
    {
      "epoch": 0.05842222222222222,
      "grad_norm": 1.119666576385498,
      "learning_rate": 0.00018835741275839075,
      "loss": 1.778,
      "step": 2629
    },
    {
      "epoch": 0.058444444444444445,
      "grad_norm": 1.1170711517333984,
      "learning_rate": 0.00018835296732607246,
      "loss": 1.6577,
      "step": 2630
    },
    {
      "epoch": 0.05846666666666667,
      "grad_norm": 1.4737907648086548,
      "learning_rate": 0.00018834852189375417,
      "loss": 2.0255,
      "step": 2631
    },
    {
      "epoch": 0.05848888888888889,
      "grad_norm": 0.8024235367774963,
      "learning_rate": 0.00018834407646143588,
      "loss": 0.042,
      "step": 2632
    },
    {
      "epoch": 0.05851111111111111,
      "grad_norm": 0.9196134209632874,
      "learning_rate": 0.0001883396310291176,
      "loss": 1.1848,
      "step": 2633
    },
    {
      "epoch": 0.05853333333333333,
      "grad_norm": 1.2150448560714722,
      "learning_rate": 0.0001883351855967993,
      "loss": 2.0621,
      "step": 2634
    },
    {
      "epoch": 0.058555555555555555,
      "grad_norm": 1.2711851596832275,
      "learning_rate": 0.000188330740164481,
      "loss": 2.3663,
      "step": 2635
    },
    {
      "epoch": 0.05857777777777778,
      "grad_norm": 1.1945533752441406,
      "learning_rate": 0.00018832629473216272,
      "loss": 1.9482,
      "step": 2636
    },
    {
      "epoch": 0.0586,
      "grad_norm": 1.3538880348205566,
      "learning_rate": 0.00018832184929984443,
      "loss": 2.0037,
      "step": 2637
    },
    {
      "epoch": 0.05862222222222222,
      "grad_norm": 1.2996848821640015,
      "learning_rate": 0.0001883174038675261,
      "loss": 1.845,
      "step": 2638
    },
    {
      "epoch": 0.058644444444444443,
      "grad_norm": 1.2119286060333252,
      "learning_rate": 0.00018831295843520785,
      "loss": 1.9236,
      "step": 2639
    },
    {
      "epoch": 0.058666666666666666,
      "grad_norm": 1.4044220447540283,
      "learning_rate": 0.00018830851300288953,
      "loss": 1.7563,
      "step": 2640
    },
    {
      "epoch": 0.05868888888888889,
      "grad_norm": 1.4642359018325806,
      "learning_rate": 0.00018830406757057124,
      "loss": 2.1331,
      "step": 2641
    },
    {
      "epoch": 0.05871111111111111,
      "grad_norm": 1.6892962455749512,
      "learning_rate": 0.00018829962213825295,
      "loss": 2.2671,
      "step": 2642
    },
    {
      "epoch": 0.05873333333333333,
      "grad_norm": 1.24393630027771,
      "learning_rate": 0.00018829517670593466,
      "loss": 2.1696,
      "step": 2643
    },
    {
      "epoch": 0.058755555555555554,
      "grad_norm": 1.2664800882339478,
      "learning_rate": 0.00018829073127361637,
      "loss": 1.893,
      "step": 2644
    },
    {
      "epoch": 0.058777777777777776,
      "grad_norm": 1.2955024242401123,
      "learning_rate": 0.00018828628584129808,
      "loss": 1.7497,
      "step": 2645
    },
    {
      "epoch": 0.0588,
      "grad_norm": 1.2515419721603394,
      "learning_rate": 0.0001882818404089798,
      "loss": 1.8957,
      "step": 2646
    },
    {
      "epoch": 0.05882222222222222,
      "grad_norm": 1.1638329029083252,
      "learning_rate": 0.00018827739497666147,
      "loss": 1.8699,
      "step": 2647
    },
    {
      "epoch": 0.05884444444444444,
      "grad_norm": 1.2965670824050903,
      "learning_rate": 0.0001882729495443432,
      "loss": 1.9793,
      "step": 2648
    },
    {
      "epoch": 0.058866666666666664,
      "grad_norm": 1.412473201751709,
      "learning_rate": 0.0001882685041120249,
      "loss": 1.4989,
      "step": 2649
    },
    {
      "epoch": 0.058888888888888886,
      "grad_norm": 1.6263394355773926,
      "learning_rate": 0.0001882640586797066,
      "loss": 1.9482,
      "step": 2650
    },
    {
      "epoch": 0.05891111111111111,
      "grad_norm": 0.9874531030654907,
      "learning_rate": 0.0001882596132473883,
      "loss": 1.5364,
      "step": 2651
    },
    {
      "epoch": 0.05893333333333333,
      "grad_norm": 1.2294578552246094,
      "learning_rate": 0.00018825516781507002,
      "loss": 2.4627,
      "step": 2652
    },
    {
      "epoch": 0.05895555555555555,
      "grad_norm": 1.0111150741577148,
      "learning_rate": 0.00018825072238275173,
      "loss": 2.3569,
      "step": 2653
    },
    {
      "epoch": 0.058977777777777775,
      "grad_norm": 0.9751931428909302,
      "learning_rate": 0.00018824627695043344,
      "loss": 2.2913,
      "step": 2654
    },
    {
      "epoch": 0.059,
      "grad_norm": 0.8416575193405151,
      "learning_rate": 0.00018824183151811515,
      "loss": 1.6153,
      "step": 2655
    },
    {
      "epoch": 0.05902222222222222,
      "grad_norm": 0.7639715075492859,
      "learning_rate": 0.00018823738608579686,
      "loss": 1.125,
      "step": 2656
    },
    {
      "epoch": 0.05904444444444444,
      "grad_norm": 1.108520746231079,
      "learning_rate": 0.00018823294065347857,
      "loss": 2.386,
      "step": 2657
    },
    {
      "epoch": 0.05906666666666667,
      "grad_norm": 1.0963854789733887,
      "learning_rate": 0.00018822849522116025,
      "loss": 2.1329,
      "step": 2658
    },
    {
      "epoch": 0.05908888888888889,
      "grad_norm": 1.2453919649124146,
      "learning_rate": 0.000188224049788842,
      "loss": 2.0869,
      "step": 2659
    },
    {
      "epoch": 0.059111111111111114,
      "grad_norm": 1.2493356466293335,
      "learning_rate": 0.00018821960435652367,
      "loss": 2.2241,
      "step": 2660
    },
    {
      "epoch": 0.059133333333333336,
      "grad_norm": 1.305132269859314,
      "learning_rate": 0.00018821515892420538,
      "loss": 2.146,
      "step": 2661
    },
    {
      "epoch": 0.05915555555555556,
      "grad_norm": 1.0485801696777344,
      "learning_rate": 0.00018821071349188712,
      "loss": 2.2145,
      "step": 2662
    },
    {
      "epoch": 0.05917777777777778,
      "grad_norm": 1.009095549583435,
      "learning_rate": 0.0001882062680595688,
      "loss": 2.0429,
      "step": 2663
    },
    {
      "epoch": 0.0592,
      "grad_norm": 1.1831285953521729,
      "learning_rate": 0.0001882018226272505,
      "loss": 2.0539,
      "step": 2664
    },
    {
      "epoch": 0.059222222222222225,
      "grad_norm": 1.1024904251098633,
      "learning_rate": 0.00018819737719493222,
      "loss": 1.4612,
      "step": 2665
    },
    {
      "epoch": 0.05924444444444445,
      "grad_norm": 1.5028462409973145,
      "learning_rate": 0.00018819293176261393,
      "loss": 2.0494,
      "step": 2666
    },
    {
      "epoch": 0.05926666666666667,
      "grad_norm": 1.0544180870056152,
      "learning_rate": 0.0001881884863302956,
      "loss": 1.8696,
      "step": 2667
    },
    {
      "epoch": 0.05928888888888889,
      "grad_norm": 1.3514580726623535,
      "learning_rate": 0.00018818404089797735,
      "loss": 2.3341,
      "step": 2668
    },
    {
      "epoch": 0.05931111111111111,
      "grad_norm": 1.277117371559143,
      "learning_rate": 0.00018817959546565903,
      "loss": 2.0593,
      "step": 2669
    },
    {
      "epoch": 0.059333333333333335,
      "grad_norm": 1.2876468896865845,
      "learning_rate": 0.00018817515003334074,
      "loss": 1.8874,
      "step": 2670
    },
    {
      "epoch": 0.05935555555555556,
      "grad_norm": 1.3006914854049683,
      "learning_rate": 0.00018817070460102248,
      "loss": 2.2106,
      "step": 2671
    },
    {
      "epoch": 0.05937777777777778,
      "grad_norm": 1.1542984247207642,
      "learning_rate": 0.00018816625916870416,
      "loss": 2.1074,
      "step": 2672
    },
    {
      "epoch": 0.0594,
      "grad_norm": 1.2653757333755493,
      "learning_rate": 0.0001881618137363859,
      "loss": 2.1737,
      "step": 2673
    },
    {
      "epoch": 0.059422222222222223,
      "grad_norm": 1.3577500581741333,
      "learning_rate": 0.00018815736830406758,
      "loss": 2.1686,
      "step": 2674
    },
    {
      "epoch": 0.059444444444444446,
      "grad_norm": 1.3510795831680298,
      "learning_rate": 0.0001881529228717493,
      "loss": 1.8249,
      "step": 2675
    },
    {
      "epoch": 0.05946666666666667,
      "grad_norm": 1.200465202331543,
      "learning_rate": 0.000188148477439431,
      "loss": 2.2109,
      "step": 2676
    },
    {
      "epoch": 0.05948888888888889,
      "grad_norm": 1.402846336364746,
      "learning_rate": 0.0001881440320071127,
      "loss": 2.086,
      "step": 2677
    },
    {
      "epoch": 0.05951111111111111,
      "grad_norm": 1.175559639930725,
      "learning_rate": 0.00018813958657479442,
      "loss": 2.0767,
      "step": 2678
    },
    {
      "epoch": 0.059533333333333334,
      "grad_norm": 1.5343458652496338,
      "learning_rate": 0.00018813514114247612,
      "loss": 2.2539,
      "step": 2679
    },
    {
      "epoch": 0.059555555555555556,
      "grad_norm": 1.3648189306259155,
      "learning_rate": 0.00018813069571015783,
      "loss": 1.8885,
      "step": 2680
    },
    {
      "epoch": 0.05957777777777778,
      "grad_norm": 1.2665992975234985,
      "learning_rate": 0.00018812625027783952,
      "loss": 1.9425,
      "step": 2681
    },
    {
      "epoch": 0.0596,
      "grad_norm": 1.395418643951416,
      "learning_rate": 0.00018812180484552125,
      "loss": 2.1067,
      "step": 2682
    },
    {
      "epoch": 0.05962222222222222,
      "grad_norm": 1.5796053409576416,
      "learning_rate": 0.00018811735941320294,
      "loss": 2.3931,
      "step": 2683
    },
    {
      "epoch": 0.059644444444444444,
      "grad_norm": 1.4654911756515503,
      "learning_rate": 0.00018811291398088465,
      "loss": 1.7199,
      "step": 2684
    },
    {
      "epoch": 0.059666666666666666,
      "grad_norm": 1.3232920169830322,
      "learning_rate": 0.00018810846854856636,
      "loss": 1.835,
      "step": 2685
    },
    {
      "epoch": 0.05968888888888889,
      "grad_norm": 1.433729648590088,
      "learning_rate": 0.00018810402311624807,
      "loss": 1.8563,
      "step": 2686
    },
    {
      "epoch": 0.05971111111111111,
      "grad_norm": 1.12021005153656,
      "learning_rate": 0.00018809957768392977,
      "loss": 1.7091,
      "step": 2687
    },
    {
      "epoch": 0.05973333333333333,
      "grad_norm": 1.5535043478012085,
      "learning_rate": 0.00018809513225161148,
      "loss": 1.6059,
      "step": 2688
    },
    {
      "epoch": 0.059755555555555555,
      "grad_norm": 1.2253813743591309,
      "learning_rate": 0.0001880906868192932,
      "loss": 1.7265,
      "step": 2689
    },
    {
      "epoch": 0.05977777777777778,
      "grad_norm": 1.642404317855835,
      "learning_rate": 0.00018808624138697488,
      "loss": 1.9222,
      "step": 2690
    },
    {
      "epoch": 0.0598,
      "grad_norm": 1.5431791543960571,
      "learning_rate": 0.0001880817959546566,
      "loss": 2.1426,
      "step": 2691
    },
    {
      "epoch": 0.05982222222222222,
      "grad_norm": 1.9136180877685547,
      "learning_rate": 0.0001880773505223383,
      "loss": 1.9685,
      "step": 2692
    },
    {
      "epoch": 0.05984444444444444,
      "grad_norm": 1.5058226585388184,
      "learning_rate": 0.00018807290509002003,
      "loss": 2.2879,
      "step": 2693
    },
    {
      "epoch": 0.059866666666666665,
      "grad_norm": 1.3893123865127563,
      "learning_rate": 0.00018806845965770172,
      "loss": 1.5688,
      "step": 2694
    },
    {
      "epoch": 0.05988888888888889,
      "grad_norm": 1.2570210695266724,
      "learning_rate": 0.00018806401422538342,
      "loss": 1.6843,
      "step": 2695
    },
    {
      "epoch": 0.05991111111111111,
      "grad_norm": 1.3790135383605957,
      "learning_rate": 0.00018805956879306513,
      "loss": 1.9682,
      "step": 2696
    },
    {
      "epoch": 0.05993333333333333,
      "grad_norm": 1.2676455974578857,
      "learning_rate": 0.00018805512336074684,
      "loss": 1.82,
      "step": 2697
    },
    {
      "epoch": 0.059955555555555554,
      "grad_norm": 1.3469589948654175,
      "learning_rate": 0.00018805067792842855,
      "loss": 1.9467,
      "step": 2698
    },
    {
      "epoch": 0.059977777777777776,
      "grad_norm": 1.5633183717727661,
      "learning_rate": 0.00018804623249611026,
      "loss": 1.7995,
      "step": 2699
    },
    {
      "epoch": 0.06,
      "grad_norm": 1.041155219078064,
      "learning_rate": 0.00018804178706379197,
      "loss": 0.8966,
      "step": 2700
    },
    {
      "epoch": 0.06002222222222222,
      "grad_norm": 1.1135330200195312,
      "learning_rate": 0.00018803734163147366,
      "loss": 3.031,
      "step": 2701
    },
    {
      "epoch": 0.06004444444444444,
      "grad_norm": 1.0869230031967163,
      "learning_rate": 0.0001880328961991554,
      "loss": 2.6311,
      "step": 2702
    },
    {
      "epoch": 0.060066666666666664,
      "grad_norm": 1.550600290298462,
      "learning_rate": 0.00018802845076683707,
      "loss": 0.0537,
      "step": 2703
    },
    {
      "epoch": 0.060088888888888886,
      "grad_norm": 1.0058884620666504,
      "learning_rate": 0.00018802400533451878,
      "loss": 2.2598,
      "step": 2704
    },
    {
      "epoch": 0.06011111111111111,
      "grad_norm": 1.100688099861145,
      "learning_rate": 0.0001880195599022005,
      "loss": 2.4148,
      "step": 2705
    },
    {
      "epoch": 0.06013333333333333,
      "grad_norm": 1.2154396772384644,
      "learning_rate": 0.0001880151144698822,
      "loss": 2.0538,
      "step": 2706
    },
    {
      "epoch": 0.06015555555555555,
      "grad_norm": 1.4567221403121948,
      "learning_rate": 0.0001880106690375639,
      "loss": 2.2234,
      "step": 2707
    },
    {
      "epoch": 0.060177777777777774,
      "grad_norm": 1.0870659351348877,
      "learning_rate": 0.00018800622360524562,
      "loss": 2.2513,
      "step": 2708
    },
    {
      "epoch": 0.0602,
      "grad_norm": 1.1207247972488403,
      "learning_rate": 0.00018800177817292733,
      "loss": 2.1935,
      "step": 2709
    },
    {
      "epoch": 0.060222222222222226,
      "grad_norm": 1.1757601499557495,
      "learning_rate": 0.00018799733274060901,
      "loss": 2.0448,
      "step": 2710
    },
    {
      "epoch": 0.06024444444444445,
      "grad_norm": 1.1902306079864502,
      "learning_rate": 0.00018799288730829075,
      "loss": 2.0958,
      "step": 2711
    },
    {
      "epoch": 0.06026666666666667,
      "grad_norm": 1.323156476020813,
      "learning_rate": 0.00018798844187597243,
      "loss": 2.2326,
      "step": 2712
    },
    {
      "epoch": 0.06028888888888889,
      "grad_norm": 1.3958797454833984,
      "learning_rate": 0.00018798399644365417,
      "loss": 2.3245,
      "step": 2713
    },
    {
      "epoch": 0.060311111111111114,
      "grad_norm": 1.2544927597045898,
      "learning_rate": 0.00018797955101133585,
      "loss": 2.0751,
      "step": 2714
    },
    {
      "epoch": 0.060333333333333336,
      "grad_norm": 1.2878230810165405,
      "learning_rate": 0.00018797510557901756,
      "loss": 2.1235,
      "step": 2715
    },
    {
      "epoch": 0.06035555555555556,
      "grad_norm": 1.384193778038025,
      "learning_rate": 0.00018797066014669927,
      "loss": 2.3822,
      "step": 2716
    },
    {
      "epoch": 0.06037777777777778,
      "grad_norm": 1.3507394790649414,
      "learning_rate": 0.00018796621471438098,
      "loss": 2.4194,
      "step": 2717
    },
    {
      "epoch": 0.0604,
      "grad_norm": 1.3843426704406738,
      "learning_rate": 0.0001879617692820627,
      "loss": 2.7205,
      "step": 2718
    },
    {
      "epoch": 0.060422222222222224,
      "grad_norm": 1.4611835479736328,
      "learning_rate": 0.0001879573238497444,
      "loss": 2.2083,
      "step": 2719
    },
    {
      "epoch": 0.060444444444444446,
      "grad_norm": 1.0997921228408813,
      "learning_rate": 0.0001879528784174261,
      "loss": 1.6927,
      "step": 2720
    },
    {
      "epoch": 0.06046666666666667,
      "grad_norm": 1.1961749792099,
      "learning_rate": 0.0001879484329851078,
      "loss": 1.6353,
      "step": 2721
    },
    {
      "epoch": 0.06048888888888889,
      "grad_norm": 1.074511170387268,
      "learning_rate": 0.00018794398755278953,
      "loss": 2.0993,
      "step": 2722
    },
    {
      "epoch": 0.06051111111111111,
      "grad_norm": 1.551523208618164,
      "learning_rate": 0.0001879395421204712,
      "loss": 1.8092,
      "step": 2723
    },
    {
      "epoch": 0.060533333333333335,
      "grad_norm": 1.3680505752563477,
      "learning_rate": 0.00018793509668815292,
      "loss": 1.9093,
      "step": 2724
    },
    {
      "epoch": 0.06055555555555556,
      "grad_norm": 1.3623892068862915,
      "learning_rate": 0.00018793065125583463,
      "loss": 2.1595,
      "step": 2725
    },
    {
      "epoch": 0.06057777777777778,
      "grad_norm": 1.5234910249710083,
      "learning_rate": 0.00018792620582351634,
      "loss": 2.2459,
      "step": 2726
    },
    {
      "epoch": 0.0606,
      "grad_norm": 1.1238843202590942,
      "learning_rate": 0.00018792176039119805,
      "loss": 1.7761,
      "step": 2727
    },
    {
      "epoch": 0.06062222222222222,
      "grad_norm": 1.1749337911605835,
      "learning_rate": 0.00018791731495887976,
      "loss": 2.0432,
      "step": 2728
    },
    {
      "epoch": 0.060644444444444445,
      "grad_norm": 1.3248710632324219,
      "learning_rate": 0.00018791286952656147,
      "loss": 2.196,
      "step": 2729
    },
    {
      "epoch": 0.06066666666666667,
      "grad_norm": 1.2294011116027832,
      "learning_rate": 0.00018790842409424318,
      "loss": 2.0522,
      "step": 2730
    },
    {
      "epoch": 0.06068888888888889,
      "grad_norm": 1.3807874917984009,
      "learning_rate": 0.0001879039786619249,
      "loss": 2.4806,
      "step": 2731
    },
    {
      "epoch": 0.06071111111111111,
      "grad_norm": 1.2333709001541138,
      "learning_rate": 0.00018789953322960657,
      "loss": 2.2595,
      "step": 2732
    },
    {
      "epoch": 0.060733333333333334,
      "grad_norm": 1.2325271368026733,
      "learning_rate": 0.0001878950877972883,
      "loss": 2.0989,
      "step": 2733
    },
    {
      "epoch": 0.060755555555555556,
      "grad_norm": 1.327795147895813,
      "learning_rate": 0.00018789064236497,
      "loss": 1.5228,
      "step": 2734
    },
    {
      "epoch": 0.06077777777777778,
      "grad_norm": 1.1936326026916504,
      "learning_rate": 0.0001878861969326517,
      "loss": 2.1216,
      "step": 2735
    },
    {
      "epoch": 0.0608,
      "grad_norm": 1.2500593662261963,
      "learning_rate": 0.00018788175150033344,
      "loss": 1.952,
      "step": 2736
    },
    {
      "epoch": 0.06082222222222222,
      "grad_norm": 1.244486927986145,
      "learning_rate": 0.00018787730606801512,
      "loss": 2.3637,
      "step": 2737
    },
    {
      "epoch": 0.060844444444444444,
      "grad_norm": 1.229892373085022,
      "learning_rate": 0.00018787286063569683,
      "loss": 1.8447,
      "step": 2738
    },
    {
      "epoch": 0.060866666666666666,
      "grad_norm": 1.2490308284759521,
      "learning_rate": 0.00018786841520337854,
      "loss": 2.2677,
      "step": 2739
    },
    {
      "epoch": 0.06088888888888889,
      "grad_norm": 1.5612094402313232,
      "learning_rate": 0.00018786396977106025,
      "loss": 2.5267,
      "step": 2740
    },
    {
      "epoch": 0.06091111111111111,
      "grad_norm": 1.1999012231826782,
      "learning_rate": 0.00018785952433874193,
      "loss": 1.9312,
      "step": 2741
    },
    {
      "epoch": 0.06093333333333333,
      "grad_norm": 1.425302505493164,
      "learning_rate": 0.00018785507890642367,
      "loss": 2.3815,
      "step": 2742
    },
    {
      "epoch": 0.060955555555555554,
      "grad_norm": 1.2308077812194824,
      "learning_rate": 0.00018785063347410535,
      "loss": 1.955,
      "step": 2743
    },
    {
      "epoch": 0.06097777777777778,
      "grad_norm": 1.270875096321106,
      "learning_rate": 0.00018784618804178706,
      "loss": 1.5138,
      "step": 2744
    },
    {
      "epoch": 0.061,
      "grad_norm": 1.3588433265686035,
      "learning_rate": 0.0001878417426094688,
      "loss": 2.1025,
      "step": 2745
    },
    {
      "epoch": 0.06102222222222222,
      "grad_norm": 1.3648747205734253,
      "learning_rate": 0.00018783729717715048,
      "loss": 1.4719,
      "step": 2746
    },
    {
      "epoch": 0.06104444444444444,
      "grad_norm": 1.8942270278930664,
      "learning_rate": 0.0001878328517448322,
      "loss": 1.798,
      "step": 2747
    },
    {
      "epoch": 0.061066666666666665,
      "grad_norm": 1.2607039213180542,
      "learning_rate": 0.0001878284063125139,
      "loss": 1.6084,
      "step": 2748
    },
    {
      "epoch": 0.06108888888888889,
      "grad_norm": 1.2803078889846802,
      "learning_rate": 0.0001878239608801956,
      "loss": 1.4297,
      "step": 2749
    },
    {
      "epoch": 0.06111111111111111,
      "grad_norm": 1.1481022834777832,
      "learning_rate": 0.00018781951544787732,
      "loss": 1.3985,
      "step": 2750
    },
    {
      "epoch": 0.06113333333333333,
      "grad_norm": 1.6368448734283447,
      "learning_rate": 0.00018781507001555903,
      "loss": 0.1033,
      "step": 2751
    },
    {
      "epoch": 0.06115555555555555,
      "grad_norm": 1.005434274673462,
      "learning_rate": 0.00018781062458324074,
      "loss": 2.004,
      "step": 2752
    },
    {
      "epoch": 0.061177777777777775,
      "grad_norm": 1.2184756994247437,
      "learning_rate": 0.00018780617915092245,
      "loss": 2.3302,
      "step": 2753
    },
    {
      "epoch": 0.0612,
      "grad_norm": 1.206376314163208,
      "learning_rate": 0.00018780173371860416,
      "loss": 2.659,
      "step": 2754
    },
    {
      "epoch": 0.06122222222222222,
      "grad_norm": 1.170143961906433,
      "learning_rate": 0.00018779728828628584,
      "loss": 2.304,
      "step": 2755
    },
    {
      "epoch": 0.06124444444444444,
      "grad_norm": 1.1334527730941772,
      "learning_rate": 0.00018779284285396758,
      "loss": 2.2875,
      "step": 2756
    },
    {
      "epoch": 0.061266666666666664,
      "grad_norm": 1.1614525318145752,
      "learning_rate": 0.00018778839742164926,
      "loss": 2.3509,
      "step": 2757
    },
    {
      "epoch": 0.061288888888888886,
      "grad_norm": 1.0268628597259521,
      "learning_rate": 0.00018778395198933097,
      "loss": 1.679,
      "step": 2758
    },
    {
      "epoch": 0.06131111111111111,
      "grad_norm": 1.2325562238693237,
      "learning_rate": 0.00018777950655701268,
      "loss": 2.335,
      "step": 2759
    },
    {
      "epoch": 0.06133333333333333,
      "grad_norm": 1.2036250829696655,
      "learning_rate": 0.0001877750611246944,
      "loss": 2.6135,
      "step": 2760
    },
    {
      "epoch": 0.06135555555555556,
      "grad_norm": 1.0553152561187744,
      "learning_rate": 0.0001877706156923761,
      "loss": 2.2641,
      "step": 2761
    },
    {
      "epoch": 0.06137777777777778,
      "grad_norm": 1.1645313501358032,
      "learning_rate": 0.0001877661702600578,
      "loss": 2.5595,
      "step": 2762
    },
    {
      "epoch": 0.0614,
      "grad_norm": 1.290037989616394,
      "learning_rate": 0.00018776172482773952,
      "loss": 2.081,
      "step": 2763
    },
    {
      "epoch": 0.061422222222222225,
      "grad_norm": 1.2892948389053345,
      "learning_rate": 0.0001877572793954212,
      "loss": 2.6998,
      "step": 2764
    },
    {
      "epoch": 0.06144444444444445,
      "grad_norm": 0.9605525135993958,
      "learning_rate": 0.00018775283396310294,
      "loss": 1.1398,
      "step": 2765
    },
    {
      "epoch": 0.06146666666666667,
      "grad_norm": 0.8386362195014954,
      "learning_rate": 0.00018774838853078462,
      "loss": 0.9248,
      "step": 2766
    },
    {
      "epoch": 0.06148888888888889,
      "grad_norm": 1.2595109939575195,
      "learning_rate": 0.00018774394309846633,
      "loss": 2.1991,
      "step": 2767
    },
    {
      "epoch": 0.061511111111111114,
      "grad_norm": 1.2148172855377197,
      "learning_rate": 0.00018773949766614804,
      "loss": 1.8452,
      "step": 2768
    },
    {
      "epoch": 0.061533333333333336,
      "grad_norm": 1.225450873374939,
      "learning_rate": 0.00018773505223382975,
      "loss": 2.3072,
      "step": 2769
    },
    {
      "epoch": 0.06155555555555556,
      "grad_norm": 0.9813886880874634,
      "learning_rate": 0.00018773060680151146,
      "loss": 1.7563,
      "step": 2770
    },
    {
      "epoch": 0.06157777777777778,
      "grad_norm": 1.2824733257293701,
      "learning_rate": 0.00018772616136919317,
      "loss": 2.5918,
      "step": 2771
    },
    {
      "epoch": 0.0616,
      "grad_norm": 1.4012054204940796,
      "learning_rate": 0.00018772171593687488,
      "loss": 1.8665,
      "step": 2772
    },
    {
      "epoch": 0.061622222222222224,
      "grad_norm": 1.5517586469650269,
      "learning_rate": 0.00018771727050455659,
      "loss": 2.2188,
      "step": 2773
    },
    {
      "epoch": 0.061644444444444446,
      "grad_norm": 1.2170881032943726,
      "learning_rate": 0.0001877128250722383,
      "loss": 2.013,
      "step": 2774
    },
    {
      "epoch": 0.06166666666666667,
      "grad_norm": 1.2392975091934204,
      "learning_rate": 0.00018770837963991998,
      "loss": 1.8115,
      "step": 2775
    },
    {
      "epoch": 0.06168888888888889,
      "grad_norm": 1.1665241718292236,
      "learning_rate": 0.00018770393420760171,
      "loss": 1.975,
      "step": 2776
    },
    {
      "epoch": 0.06171111111111111,
      "grad_norm": 1.4797453880310059,
      "learning_rate": 0.0001876994887752834,
      "loss": 1.9079,
      "step": 2777
    },
    {
      "epoch": 0.061733333333333335,
      "grad_norm": 1.7685197591781616,
      "learning_rate": 0.0001876950433429651,
      "loss": 2.7826,
      "step": 2778
    },
    {
      "epoch": 0.06175555555555556,
      "grad_norm": 1.423384189605713,
      "learning_rate": 0.00018769059791064682,
      "loss": 2.3721,
      "step": 2779
    },
    {
      "epoch": 0.06177777777777778,
      "grad_norm": 1.2108656167984009,
      "learning_rate": 0.00018768615247832853,
      "loss": 2.2184,
      "step": 2780
    },
    {
      "epoch": 0.0618,
      "grad_norm": 1.3421804904937744,
      "learning_rate": 0.00018768170704601024,
      "loss": 2.1258,
      "step": 2781
    },
    {
      "epoch": 0.06182222222222222,
      "grad_norm": 1.1913560628890991,
      "learning_rate": 0.00018767726161369194,
      "loss": 1.6139,
      "step": 2782
    },
    {
      "epoch": 0.061844444444444445,
      "grad_norm": 1.3481956720352173,
      "learning_rate": 0.00018767281618137365,
      "loss": 2.3179,
      "step": 2783
    },
    {
      "epoch": 0.06186666666666667,
      "grad_norm": 1.3821300268173218,
      "learning_rate": 0.00018766837074905534,
      "loss": 2.3901,
      "step": 2784
    },
    {
      "epoch": 0.06188888888888889,
      "grad_norm": 1.388374924659729,
      "learning_rate": 0.00018766392531673707,
      "loss": 1.9882,
      "step": 2785
    },
    {
      "epoch": 0.06191111111111111,
      "grad_norm": 1.2671271562576294,
      "learning_rate": 0.00018765947988441876,
      "loss": 1.65,
      "step": 2786
    },
    {
      "epoch": 0.06193333333333333,
      "grad_norm": 1.394394874572754,
      "learning_rate": 0.0001876550344521005,
      "loss": 1.7084,
      "step": 2787
    },
    {
      "epoch": 0.061955555555555555,
      "grad_norm": 1.286948323249817,
      "learning_rate": 0.00018765058901978218,
      "loss": 2.0987,
      "step": 2788
    },
    {
      "epoch": 0.06197777777777778,
      "grad_norm": 1.3643842935562134,
      "learning_rate": 0.00018764614358746388,
      "loss": 2.1491,
      "step": 2789
    },
    {
      "epoch": 0.062,
      "grad_norm": 1.3351410627365112,
      "learning_rate": 0.0001876416981551456,
      "loss": 2.0937,
      "step": 2790
    },
    {
      "epoch": 0.06202222222222222,
      "grad_norm": 1.4634209871292114,
      "learning_rate": 0.0001876372527228273,
      "loss": 1.7482,
      "step": 2791
    },
    {
      "epoch": 0.062044444444444444,
      "grad_norm": 1.1727733612060547,
      "learning_rate": 0.00018763280729050901,
      "loss": 1.5837,
      "step": 2792
    },
    {
      "epoch": 0.062066666666666666,
      "grad_norm": 1.1772867441177368,
      "learning_rate": 0.00018762836185819072,
      "loss": 1.4568,
      "step": 2793
    },
    {
      "epoch": 0.06208888888888889,
      "grad_norm": 1.4134163856506348,
      "learning_rate": 0.00018762391642587243,
      "loss": 2.112,
      "step": 2794
    },
    {
      "epoch": 0.06211111111111111,
      "grad_norm": 1.1861469745635986,
      "learning_rate": 0.00018761947099355412,
      "loss": 1.8895,
      "step": 2795
    },
    {
      "epoch": 0.06213333333333333,
      "grad_norm": 1.4194509983062744,
      "learning_rate": 0.00018761502556123585,
      "loss": 2.0256,
      "step": 2796
    },
    {
      "epoch": 0.062155555555555554,
      "grad_norm": 1.5349948406219482,
      "learning_rate": 0.00018761058012891753,
      "loss": 2.2892,
      "step": 2797
    },
    {
      "epoch": 0.062177777777777776,
      "grad_norm": 1.7592523097991943,
      "learning_rate": 0.00018760613469659924,
      "loss": 2.0511,
      "step": 2798
    },
    {
      "epoch": 0.0622,
      "grad_norm": 1.3552824258804321,
      "learning_rate": 0.00018760168926428095,
      "loss": 1.7338,
      "step": 2799
    },
    {
      "epoch": 0.06222222222222222,
      "grad_norm": 1.3405883312225342,
      "learning_rate": 0.00018759724383196266,
      "loss": 1.4886,
      "step": 2800
    },
    {
      "epoch": 0.06224444444444444,
      "grad_norm": 1.2436882257461548,
      "learning_rate": 0.00018759279839964437,
      "loss": 2.8243,
      "step": 2801
    },
    {
      "epoch": 0.062266666666666665,
      "grad_norm": 1.0085952281951904,
      "learning_rate": 0.00018758835296732608,
      "loss": 2.513,
      "step": 2802
    },
    {
      "epoch": 0.06228888888888889,
      "grad_norm": 1.0170789957046509,
      "learning_rate": 0.0001875839075350078,
      "loss": 2.3906,
      "step": 2803
    },
    {
      "epoch": 0.06231111111111111,
      "grad_norm": 1.0445818901062012,
      "learning_rate": 0.00018757946210268947,
      "loss": 2.6399,
      "step": 2804
    },
    {
      "epoch": 0.06233333333333333,
      "grad_norm": 1.386362910270691,
      "learning_rate": 0.0001875750166703712,
      "loss": 2.7634,
      "step": 2805
    },
    {
      "epoch": 0.06235555555555555,
      "grad_norm": 1.106680989265442,
      "learning_rate": 0.0001875705712380529,
      "loss": 1.8372,
      "step": 2806
    },
    {
      "epoch": 0.062377777777777775,
      "grad_norm": 1.2204889059066772,
      "learning_rate": 0.00018756612580573463,
      "loss": 2.5184,
      "step": 2807
    },
    {
      "epoch": 0.0624,
      "grad_norm": 1.1121426820755005,
      "learning_rate": 0.0001875616803734163,
      "loss": 2.5418,
      "step": 2808
    },
    {
      "epoch": 0.06242222222222222,
      "grad_norm": 1.4679434299468994,
      "learning_rate": 0.00018755723494109802,
      "loss": 1.3454,
      "step": 2809
    },
    {
      "epoch": 0.06244444444444444,
      "grad_norm": 0.9511885046958923,
      "learning_rate": 0.00018755278950877976,
      "loss": 1.1478,
      "step": 2810
    },
    {
      "epoch": 0.06246666666666666,
      "grad_norm": 1.0716321468353271,
      "learning_rate": 0.00018754834407646144,
      "loss": 1.9095,
      "step": 2811
    },
    {
      "epoch": 0.062488888888888885,
      "grad_norm": 1.140427827835083,
      "learning_rate": 0.00018754389864414315,
      "loss": 2.4517,
      "step": 2812
    },
    {
      "epoch": 0.06251111111111111,
      "grad_norm": 1.4585435390472412,
      "learning_rate": 0.00018753945321182486,
      "loss": 2.5529,
      "step": 2813
    },
    {
      "epoch": 0.06253333333333333,
      "grad_norm": 1.23036527633667,
      "learning_rate": 0.00018753500777950657,
      "loss": 2.0753,
      "step": 2814
    },
    {
      "epoch": 0.06255555555555556,
      "grad_norm": 1.2273170948028564,
      "learning_rate": 0.00018753056234718825,
      "loss": 2.147,
      "step": 2815
    },
    {
      "epoch": 0.06257777777777777,
      "grad_norm": 1.2008864879608154,
      "learning_rate": 0.00018752611691487,
      "loss": 2.1604,
      "step": 2816
    },
    {
      "epoch": 0.0626,
      "grad_norm": 1.2139441967010498,
      "learning_rate": 0.00018752167148255167,
      "loss": 2.3451,
      "step": 2817
    },
    {
      "epoch": 0.06262222222222222,
      "grad_norm": 1.1427327394485474,
      "learning_rate": 0.00018751722605023338,
      "loss": 2.1952,
      "step": 2818
    },
    {
      "epoch": 0.06264444444444445,
      "grad_norm": 1.1389628648757935,
      "learning_rate": 0.00018751278061791512,
      "loss": 2.0855,
      "step": 2819
    },
    {
      "epoch": 0.06266666666666666,
      "grad_norm": 1.625450849533081,
      "learning_rate": 0.0001875083351855968,
      "loss": 2.9112,
      "step": 2820
    },
    {
      "epoch": 0.06268888888888889,
      "grad_norm": 1.1499130725860596,
      "learning_rate": 0.0001875038897532785,
      "loss": 1.9011,
      "step": 2821
    },
    {
      "epoch": 0.0627111111111111,
      "grad_norm": 1.1928070783615112,
      "learning_rate": 0.00018749944432096022,
      "loss": 1.962,
      "step": 2822
    },
    {
      "epoch": 0.06273333333333334,
      "grad_norm": 1.2368239164352417,
      "learning_rate": 0.00018749499888864193,
      "loss": 2.0371,
      "step": 2823
    },
    {
      "epoch": 0.06275555555555555,
      "grad_norm": 1.1952697038650513,
      "learning_rate": 0.0001874905534563236,
      "loss": 2.1889,
      "step": 2824
    },
    {
      "epoch": 0.06277777777777778,
      "grad_norm": 1.3594785928726196,
      "learning_rate": 0.00018748610802400535,
      "loss": 2.292,
      "step": 2825
    },
    {
      "epoch": 0.0628,
      "grad_norm": 1.1406694650650024,
      "learning_rate": 0.00018748166259168706,
      "loss": 1.6252,
      "step": 2826
    },
    {
      "epoch": 0.06282222222222222,
      "grad_norm": 1.325881004333496,
      "learning_rate": 0.00018747721715936877,
      "loss": 2.0782,
      "step": 2827
    },
    {
      "epoch": 0.06284444444444444,
      "grad_norm": 1.143120527267456,
      "learning_rate": 0.00018747277172705048,
      "loss": 2.2459,
      "step": 2828
    },
    {
      "epoch": 0.06286666666666667,
      "grad_norm": 1.4137969017028809,
      "learning_rate": 0.00018746832629473216,
      "loss": 2.407,
      "step": 2829
    },
    {
      "epoch": 0.06288888888888888,
      "grad_norm": 1.3756927251815796,
      "learning_rate": 0.0001874638808624139,
      "loss": 2.4468,
      "step": 2830
    },
    {
      "epoch": 0.06291111111111111,
      "grad_norm": 1.468861699104309,
      "learning_rate": 0.00018745943543009558,
      "loss": 1.8074,
      "step": 2831
    },
    {
      "epoch": 0.06293333333333333,
      "grad_norm": 1.2983373403549194,
      "learning_rate": 0.0001874549899977773,
      "loss": 0.8226,
      "step": 2832
    },
    {
      "epoch": 0.06295555555555556,
      "grad_norm": 1.1781848669052124,
      "learning_rate": 0.000187450544565459,
      "loss": 2.1623,
      "step": 2833
    },
    {
      "epoch": 0.06297777777777777,
      "grad_norm": 1.2764322757720947,
      "learning_rate": 0.0001874460991331407,
      "loss": 2.144,
      "step": 2834
    },
    {
      "epoch": 0.063,
      "grad_norm": 1.711207628250122,
      "learning_rate": 0.00018744165370082242,
      "loss": 1.8346,
      "step": 2835
    },
    {
      "epoch": 0.06302222222222222,
      "grad_norm": 1.279605507850647,
      "learning_rate": 0.00018743720826850413,
      "loss": 2.3286,
      "step": 2836
    },
    {
      "epoch": 0.06304444444444444,
      "grad_norm": 1.5101478099822998,
      "learning_rate": 0.00018743276283618584,
      "loss": 1.8199,
      "step": 2837
    },
    {
      "epoch": 0.06306666666666666,
      "grad_norm": 1.287416696548462,
      "learning_rate": 0.00018742831740386752,
      "loss": 2.0824,
      "step": 2838
    },
    {
      "epoch": 0.06308888888888889,
      "grad_norm": 1.3675342798233032,
      "learning_rate": 0.00018742387197154926,
      "loss": 2.1448,
      "step": 2839
    },
    {
      "epoch": 0.06311111111111112,
      "grad_norm": 1.4690383672714233,
      "learning_rate": 0.00018741942653923094,
      "loss": 2.0374,
      "step": 2840
    },
    {
      "epoch": 0.06313333333333333,
      "grad_norm": 1.097183346748352,
      "learning_rate": 0.00018741498110691265,
      "loss": 1.521,
      "step": 2841
    },
    {
      "epoch": 0.06315555555555556,
      "grad_norm": 1.5291551351547241,
      "learning_rate": 0.00018741053567459436,
      "loss": 2.2333,
      "step": 2842
    },
    {
      "epoch": 0.06317777777777778,
      "grad_norm": 1.4804224967956543,
      "learning_rate": 0.00018740609024227607,
      "loss": 2.4405,
      "step": 2843
    },
    {
      "epoch": 0.0632,
      "grad_norm": 1.5842746496200562,
      "learning_rate": 0.00018740164480995778,
      "loss": 1.8985,
      "step": 2844
    },
    {
      "epoch": 0.06322222222222222,
      "grad_norm": 1.1302268505096436,
      "learning_rate": 0.0001873971993776395,
      "loss": 1.8275,
      "step": 2845
    },
    {
      "epoch": 0.06324444444444445,
      "grad_norm": 1.2689913511276245,
      "learning_rate": 0.0001873927539453212,
      "loss": 1.718,
      "step": 2846
    },
    {
      "epoch": 0.06326666666666667,
      "grad_norm": 1.7518043518066406,
      "learning_rate": 0.0001873883085130029,
      "loss": 1.5398,
      "step": 2847
    },
    {
      "epoch": 0.0632888888888889,
      "grad_norm": 1.5163757801055908,
      "learning_rate": 0.00018738386308068462,
      "loss": 2.1679,
      "step": 2848
    },
    {
      "epoch": 0.06331111111111111,
      "grad_norm": 1.617437481880188,
      "learning_rate": 0.0001873794176483663,
      "loss": 2.0754,
      "step": 2849
    },
    {
      "epoch": 0.06333333333333334,
      "grad_norm": 1.4291324615478516,
      "learning_rate": 0.00018737497221604804,
      "loss": 1.8027,
      "step": 2850
    },
    {
      "epoch": 0.06335555555555555,
      "grad_norm": 1.1678494215011597,
      "learning_rate": 0.00018737052678372972,
      "loss": 2.2499,
      "step": 2851
    },
    {
      "epoch": 0.06337777777777778,
      "grad_norm": 1.0958876609802246,
      "learning_rate": 0.00018736608135141143,
      "loss": 1.8325,
      "step": 2852
    },
    {
      "epoch": 0.0634,
      "grad_norm": 1.0336941480636597,
      "learning_rate": 0.00018736163591909314,
      "loss": 2.2601,
      "step": 2853
    },
    {
      "epoch": 0.06342222222222223,
      "grad_norm": 1.4533902406692505,
      "learning_rate": 0.00018735719048677485,
      "loss": 2.7845,
      "step": 2854
    },
    {
      "epoch": 0.06344444444444444,
      "grad_norm": 1.1829084157943726,
      "learning_rate": 0.00018735274505445656,
      "loss": 2.0914,
      "step": 2855
    },
    {
      "epoch": 0.06346666666666667,
      "grad_norm": 1.1751196384429932,
      "learning_rate": 0.00018734829962213827,
      "loss": 2.3863,
      "step": 2856
    },
    {
      "epoch": 0.06348888888888889,
      "grad_norm": 1.1886322498321533,
      "learning_rate": 0.00018734385418981998,
      "loss": 2.1591,
      "step": 2857
    },
    {
      "epoch": 0.06351111111111112,
      "grad_norm": 1.1325668096542358,
      "learning_rate": 0.00018733940875750166,
      "loss": 2.0609,
      "step": 2858
    },
    {
      "epoch": 0.06353333333333333,
      "grad_norm": 1.2165454626083374,
      "learning_rate": 0.0001873349633251834,
      "loss": 1.9328,
      "step": 2859
    },
    {
      "epoch": 0.06355555555555556,
      "grad_norm": 1.6444909572601318,
      "learning_rate": 0.00018733051789286508,
      "loss": 2.1612,
      "step": 2860
    },
    {
      "epoch": 0.06357777777777777,
      "grad_norm": 1.1900150775909424,
      "learning_rate": 0.0001873260724605468,
      "loss": 2.0717,
      "step": 2861
    },
    {
      "epoch": 0.0636,
      "grad_norm": 1.4153571128845215,
      "learning_rate": 0.0001873216270282285,
      "loss": 2.2644,
      "step": 2862
    },
    {
      "epoch": 0.06362222222222222,
      "grad_norm": 1.2564882040023804,
      "learning_rate": 0.0001873171815959102,
      "loss": 2.4158,
      "step": 2863
    },
    {
      "epoch": 0.06364444444444445,
      "grad_norm": 1.398049235343933,
      "learning_rate": 0.00018731273616359192,
      "loss": 2.5145,
      "step": 2864
    },
    {
      "epoch": 0.06366666666666666,
      "grad_norm": 1.2139917612075806,
      "learning_rate": 0.00018730829073127363,
      "loss": 1.9035,
      "step": 2865
    },
    {
      "epoch": 0.06368888888888889,
      "grad_norm": 1.1815810203552246,
      "learning_rate": 0.00018730384529895534,
      "loss": 1.9507,
      "step": 2866
    },
    {
      "epoch": 0.06371111111111111,
      "grad_norm": 1.2247095108032227,
      "learning_rate": 0.00018729939986663705,
      "loss": 1.6939,
      "step": 2867
    },
    {
      "epoch": 0.06373333333333334,
      "grad_norm": 1.1871031522750854,
      "learning_rate": 0.00018729495443431876,
      "loss": 1.7179,
      "step": 2868
    },
    {
      "epoch": 0.06375555555555555,
      "grad_norm": 1.065414309501648,
      "learning_rate": 0.00018729050900200044,
      "loss": 1.7596,
      "step": 2869
    },
    {
      "epoch": 0.06377777777777778,
      "grad_norm": 1.3309180736541748,
      "learning_rate": 0.00018728606356968217,
      "loss": 2.2074,
      "step": 2870
    },
    {
      "epoch": 0.0638,
      "grad_norm": 1.3962008953094482,
      "learning_rate": 0.00018728161813736386,
      "loss": 2.3044,
      "step": 2871
    },
    {
      "epoch": 0.06382222222222222,
      "grad_norm": 1.196290373802185,
      "learning_rate": 0.00018727717270504557,
      "loss": 2.0767,
      "step": 2872
    },
    {
      "epoch": 0.06384444444444444,
      "grad_norm": 1.361983060836792,
      "learning_rate": 0.00018727272727272728,
      "loss": 1.5672,
      "step": 2873
    },
    {
      "epoch": 0.06386666666666667,
      "grad_norm": 1.329243779182434,
      "learning_rate": 0.00018726828184040899,
      "loss": 2.134,
      "step": 2874
    },
    {
      "epoch": 0.06388888888888888,
      "grad_norm": 1.4311535358428955,
      "learning_rate": 0.0001872638364080907,
      "loss": 1.9253,
      "step": 2875
    },
    {
      "epoch": 0.06391111111111111,
      "grad_norm": 1.2310140132904053,
      "learning_rate": 0.0001872593909757724,
      "loss": 2.399,
      "step": 2876
    },
    {
      "epoch": 0.06393333333333333,
      "grad_norm": 1.211095929145813,
      "learning_rate": 0.00018725494554345411,
      "loss": 1.9466,
      "step": 2877
    },
    {
      "epoch": 0.06395555555555556,
      "grad_norm": 1.2007399797439575,
      "learning_rate": 0.0001872505001111358,
      "loss": 0.9996,
      "step": 2878
    },
    {
      "epoch": 0.06397777777777777,
      "grad_norm": 0.9361677169799805,
      "learning_rate": 0.00018724605467881753,
      "loss": 0.7916,
      "step": 2879
    },
    {
      "epoch": 0.064,
      "grad_norm": 1.1869984865188599,
      "learning_rate": 0.00018724160924649922,
      "loss": 1.9986,
      "step": 2880
    },
    {
      "epoch": 0.06402222222222222,
      "grad_norm": 1.2744450569152832,
      "learning_rate": 0.00018723716381418093,
      "loss": 2.0631,
      "step": 2881
    },
    {
      "epoch": 0.06404444444444445,
      "grad_norm": 1.4359490871429443,
      "learning_rate": 0.00018723271838186264,
      "loss": 2.2638,
      "step": 2882
    },
    {
      "epoch": 0.06406666666666666,
      "grad_norm": 1.4689186811447144,
      "learning_rate": 0.00018722827294954435,
      "loss": 2.24,
      "step": 2883
    },
    {
      "epoch": 0.06408888888888889,
      "grad_norm": 1.5831794738769531,
      "learning_rate": 0.00018722382751722608,
      "loss": 1.9336,
      "step": 2884
    },
    {
      "epoch": 0.0641111111111111,
      "grad_norm": 1.377138376235962,
      "learning_rate": 0.00018721938208490776,
      "loss": 1.7798,
      "step": 2885
    },
    {
      "epoch": 0.06413333333333333,
      "grad_norm": 1.2785342931747437,
      "learning_rate": 0.00018721493665258947,
      "loss": 1.6762,
      "step": 2886
    },
    {
      "epoch": 0.06415555555555555,
      "grad_norm": 1.338173270225525,
      "learning_rate": 0.00018721049122027118,
      "loss": 2.1951,
      "step": 2887
    },
    {
      "epoch": 0.06417777777777778,
      "grad_norm": 1.2330443859100342,
      "learning_rate": 0.0001872060457879529,
      "loss": 1.7759,
      "step": 2888
    },
    {
      "epoch": 0.0642,
      "grad_norm": 1.123676061630249,
      "learning_rate": 0.00018720160035563458,
      "loss": 1.7727,
      "step": 2889
    },
    {
      "epoch": 0.06422222222222222,
      "grad_norm": 1.535964846611023,
      "learning_rate": 0.0001871971549233163,
      "loss": 2.4233,
      "step": 2890
    },
    {
      "epoch": 0.06424444444444445,
      "grad_norm": 1.6187751293182373,
      "learning_rate": 0.000187192709490998,
      "loss": 2.2979,
      "step": 2891
    },
    {
      "epoch": 0.06426666666666667,
      "grad_norm": 1.4702938795089722,
      "learning_rate": 0.0001871882640586797,
      "loss": 1.7224,
      "step": 2892
    },
    {
      "epoch": 0.0642888888888889,
      "grad_norm": 1.23790442943573,
      "learning_rate": 0.00018718381862636144,
      "loss": 1.9536,
      "step": 2893
    },
    {
      "epoch": 0.06431111111111111,
      "grad_norm": 3.832672357559204,
      "learning_rate": 0.00018717937319404312,
      "loss": 1.5924,
      "step": 2894
    },
    {
      "epoch": 0.06433333333333334,
      "grad_norm": 1.7005996704101562,
      "learning_rate": 0.00018717492776172483,
      "loss": 2.1979,
      "step": 2895
    },
    {
      "epoch": 0.06435555555555555,
      "grad_norm": 1.3920700550079346,
      "learning_rate": 0.00018717048232940654,
      "loss": 2.0793,
      "step": 2896
    },
    {
      "epoch": 0.06437777777777778,
      "grad_norm": 1.4044344425201416,
      "learning_rate": 0.00018716603689708825,
      "loss": 2.0541,
      "step": 2897
    },
    {
      "epoch": 0.0644,
      "grad_norm": 0.8926104307174683,
      "learning_rate": 0.00018716159146476994,
      "loss": 0.068,
      "step": 2898
    },
    {
      "epoch": 0.06442222222222223,
      "grad_norm": 1.3923569917678833,
      "learning_rate": 0.00018715714603245167,
      "loss": 2.0106,
      "step": 2899
    },
    {
      "epoch": 0.06444444444444444,
      "grad_norm": 1.5569005012512207,
      "learning_rate": 0.00018715270060013338,
      "loss": 2.3801,
      "step": 2900
    },
    {
      "epoch": 0.06446666666666667,
      "grad_norm": 1.1904070377349854,
      "learning_rate": 0.0001871482551678151,
      "loss": 2.3971,
      "step": 2901
    },
    {
      "epoch": 0.06448888888888889,
      "grad_norm": 1.1103323698043823,
      "learning_rate": 0.0001871438097354968,
      "loss": 2.9624,
      "step": 2902
    },
    {
      "epoch": 0.06451111111111112,
      "grad_norm": 1.1648145914077759,
      "learning_rate": 0.00018713936430317848,
      "loss": 2.8519,
      "step": 2903
    },
    {
      "epoch": 0.06453333333333333,
      "grad_norm": 1.321471095085144,
      "learning_rate": 0.00018713491887086022,
      "loss": 2.2298,
      "step": 2904
    },
    {
      "epoch": 0.06455555555555556,
      "grad_norm": 1.0446627140045166,
      "learning_rate": 0.0001871304734385419,
      "loss": 1.8494,
      "step": 2905
    },
    {
      "epoch": 0.06457777777777778,
      "grad_norm": 1.0981947183609009,
      "learning_rate": 0.0001871260280062236,
      "loss": 2.3779,
      "step": 2906
    },
    {
      "epoch": 0.0646,
      "grad_norm": 1.2915189266204834,
      "learning_rate": 0.00018712158257390532,
      "loss": 2.555,
      "step": 2907
    },
    {
      "epoch": 0.06462222222222222,
      "grad_norm": 1.1062654256820679,
      "learning_rate": 0.00018711713714158703,
      "loss": 1.9837,
      "step": 2908
    },
    {
      "epoch": 0.06464444444444445,
      "grad_norm": 1.5189040899276733,
      "learning_rate": 0.00018711269170926874,
      "loss": 2.3476,
      "step": 2909
    },
    {
      "epoch": 0.06466666666666666,
      "grad_norm": 0.9821382761001587,
      "learning_rate": 0.00018710824627695045,
      "loss": 1.9061,
      "step": 2910
    },
    {
      "epoch": 0.06468888888888889,
      "grad_norm": 1.4676059484481812,
      "learning_rate": 0.00018710380084463216,
      "loss": 0.9321,
      "step": 2911
    },
    {
      "epoch": 0.06471111111111111,
      "grad_norm": 1.2174110412597656,
      "learning_rate": 0.00018709935541231384,
      "loss": 2.587,
      "step": 2912
    },
    {
      "epoch": 0.06473333333333334,
      "grad_norm": 1.4045873880386353,
      "learning_rate": 0.00018709490997999558,
      "loss": 2.0754,
      "step": 2913
    },
    {
      "epoch": 0.06475555555555555,
      "grad_norm": 1.3377821445465088,
      "learning_rate": 0.00018709046454767726,
      "loss": 2.4397,
      "step": 2914
    },
    {
      "epoch": 0.06477777777777778,
      "grad_norm": 1.3285831212997437,
      "learning_rate": 0.00018708601911535897,
      "loss": 2.3949,
      "step": 2915
    },
    {
      "epoch": 0.0648,
      "grad_norm": 1.1161266565322876,
      "learning_rate": 0.00018708157368304068,
      "loss": 2.1046,
      "step": 2916
    },
    {
      "epoch": 0.06482222222222223,
      "grad_norm": 1.2522786855697632,
      "learning_rate": 0.0001870771282507224,
      "loss": 2.0933,
      "step": 2917
    },
    {
      "epoch": 0.06484444444444444,
      "grad_norm": 1.0407394170761108,
      "learning_rate": 0.0001870726828184041,
      "loss": 1.5523,
      "step": 2918
    },
    {
      "epoch": 0.06486666666666667,
      "grad_norm": 1.158358097076416,
      "learning_rate": 0.0001870682373860858,
      "loss": 1.916,
      "step": 2919
    },
    {
      "epoch": 0.06488888888888888,
      "grad_norm": 1.2848894596099854,
      "learning_rate": 0.00018706379195376752,
      "loss": 2.2947,
      "step": 2920
    },
    {
      "epoch": 0.06491111111111111,
      "grad_norm": 1.0948340892791748,
      "learning_rate": 0.00018705934652144923,
      "loss": 2.0626,
      "step": 2921
    },
    {
      "epoch": 0.06493333333333333,
      "grad_norm": 1.1861344575881958,
      "learning_rate": 0.00018705490108913094,
      "loss": 1.5792,
      "step": 2922
    },
    {
      "epoch": 0.06495555555555556,
      "grad_norm": 1.1330589056015015,
      "learning_rate": 0.00018705045565681262,
      "loss": 1.4587,
      "step": 2923
    },
    {
      "epoch": 0.06497777777777777,
      "grad_norm": 1.2363415956497192,
      "learning_rate": 0.00018704601022449436,
      "loss": 1.4322,
      "step": 2924
    },
    {
      "epoch": 0.065,
      "grad_norm": 1.2434296607971191,
      "learning_rate": 0.00018704156479217604,
      "loss": 1.6379,
      "step": 2925
    },
    {
      "epoch": 0.06502222222222222,
      "grad_norm": 0.8686671853065491,
      "learning_rate": 0.00018703711935985775,
      "loss": 0.8112,
      "step": 2926
    },
    {
      "epoch": 0.06504444444444445,
      "grad_norm": 1.4256782531738281,
      "learning_rate": 0.00018703267392753946,
      "loss": 2.3366,
      "step": 2927
    },
    {
      "epoch": 0.06506666666666666,
      "grad_norm": 1.5060585737228394,
      "learning_rate": 0.00018702822849522117,
      "loss": 2.168,
      "step": 2928
    },
    {
      "epoch": 0.06508888888888889,
      "grad_norm": 1.5477279424667358,
      "learning_rate": 0.00018702378306290288,
      "loss": 2.1754,
      "step": 2929
    },
    {
      "epoch": 0.0651111111111111,
      "grad_norm": 1.215466022491455,
      "learning_rate": 0.0001870193376305846,
      "loss": 2.0217,
      "step": 2930
    },
    {
      "epoch": 0.06513333333333333,
      "grad_norm": 1.123188853263855,
      "learning_rate": 0.0001870148921982663,
      "loss": 1.8177,
      "step": 2931
    },
    {
      "epoch": 0.06515555555555555,
      "grad_norm": 1.2271870374679565,
      "learning_rate": 0.00018701044676594798,
      "loss": 1.9829,
      "step": 2932
    },
    {
      "epoch": 0.06517777777777778,
      "grad_norm": 1.3322367668151855,
      "learning_rate": 0.00018700600133362972,
      "loss": 2.1528,
      "step": 2933
    },
    {
      "epoch": 0.0652,
      "grad_norm": 1.3902933597564697,
      "learning_rate": 0.0001870015559013114,
      "loss": 1.7664,
      "step": 2934
    },
    {
      "epoch": 0.06522222222222222,
      "grad_norm": 1.5843971967697144,
      "learning_rate": 0.0001869971104689931,
      "loss": 2.1908,
      "step": 2935
    },
    {
      "epoch": 0.06524444444444444,
      "grad_norm": 1.4482966661453247,
      "learning_rate": 0.00018699266503667482,
      "loss": 1.7021,
      "step": 2936
    },
    {
      "epoch": 0.06526666666666667,
      "grad_norm": 1.2024801969528198,
      "learning_rate": 0.00018698821960435653,
      "loss": 1.6508,
      "step": 2937
    },
    {
      "epoch": 0.06528888888888888,
      "grad_norm": 2.0721898078918457,
      "learning_rate": 0.00018698377417203824,
      "loss": 2.3115,
      "step": 2938
    },
    {
      "epoch": 0.06531111111111111,
      "grad_norm": 1.3167922496795654,
      "learning_rate": 0.00018697932873971995,
      "loss": 1.9785,
      "step": 2939
    },
    {
      "epoch": 0.06533333333333333,
      "grad_norm": 1.2480032444000244,
      "learning_rate": 0.00018697488330740166,
      "loss": 1.8314,
      "step": 2940
    },
    {
      "epoch": 0.06535555555555556,
      "grad_norm": 1.7373868227005005,
      "learning_rate": 0.00018697043787508337,
      "loss": 1.6736,
      "step": 2941
    },
    {
      "epoch": 0.06537777777777778,
      "grad_norm": 1.5857715606689453,
      "learning_rate": 0.00018696599244276508,
      "loss": 2.1099,
      "step": 2942
    },
    {
      "epoch": 0.0654,
      "grad_norm": 1.4830741882324219,
      "learning_rate": 0.00018696154701044676,
      "loss": 2.4202,
      "step": 2943
    },
    {
      "epoch": 0.06542222222222223,
      "grad_norm": 1.744685173034668,
      "learning_rate": 0.0001869571015781285,
      "loss": 2.4221,
      "step": 2944
    },
    {
      "epoch": 0.06544444444444444,
      "grad_norm": 1.5185177326202393,
      "learning_rate": 0.00018695265614581018,
      "loss": 2.1403,
      "step": 2945
    },
    {
      "epoch": 0.06546666666666667,
      "grad_norm": 1.6151337623596191,
      "learning_rate": 0.0001869482107134919,
      "loss": 1.9364,
      "step": 2946
    },
    {
      "epoch": 0.06548888888888889,
      "grad_norm": 1.2621005773544312,
      "learning_rate": 0.0001869437652811736,
      "loss": 1.6986,
      "step": 2947
    },
    {
      "epoch": 0.06551111111111112,
      "grad_norm": 1.4591064453125,
      "learning_rate": 0.0001869393198488553,
      "loss": 1.7923,
      "step": 2948
    },
    {
      "epoch": 0.06553333333333333,
      "grad_norm": 1.4285699129104614,
      "learning_rate": 0.00018693487441653702,
      "loss": 1.8047,
      "step": 2949
    },
    {
      "epoch": 0.06555555555555556,
      "grad_norm": 1.3380799293518066,
      "learning_rate": 0.00018693042898421873,
      "loss": 0.9882,
      "step": 2950
    },
    {
      "epoch": 0.06557777777777778,
      "grad_norm": 1.093501091003418,
      "learning_rate": 0.00018692598355190044,
      "loss": 2.283,
      "step": 2951
    },
    {
      "epoch": 0.0656,
      "grad_norm": 1.0866544246673584,
      "learning_rate": 0.00018692153811958212,
      "loss": 2.5448,
      "step": 2952
    },
    {
      "epoch": 0.06562222222222222,
      "grad_norm": 1.1365560293197632,
      "learning_rate": 0.00018691709268726386,
      "loss": 1.4154,
      "step": 2953
    },
    {
      "epoch": 0.06564444444444445,
      "grad_norm": 1.0331106185913086,
      "learning_rate": 0.00018691264725494554,
      "loss": 2.2571,
      "step": 2954
    },
    {
      "epoch": 0.06566666666666666,
      "grad_norm": 1.2269850969314575,
      "learning_rate": 0.00018690820182262725,
      "loss": 2.5064,
      "step": 2955
    },
    {
      "epoch": 0.0656888888888889,
      "grad_norm": 1.134602665901184,
      "learning_rate": 0.00018690375639030896,
      "loss": 2.6194,
      "step": 2956
    },
    {
      "epoch": 0.06571111111111111,
      "grad_norm": 1.301027774810791,
      "learning_rate": 0.00018689931095799067,
      "loss": 2.091,
      "step": 2957
    },
    {
      "epoch": 0.06573333333333334,
      "grad_norm": 0.9488211274147034,
      "learning_rate": 0.0001868948655256724,
      "loss": 1.8559,
      "step": 2958
    },
    {
      "epoch": 0.06575555555555555,
      "grad_norm": 1.2814669609069824,
      "learning_rate": 0.00018689042009335409,
      "loss": 1.7113,
      "step": 2959
    },
    {
      "epoch": 0.06577777777777778,
      "grad_norm": 1.0940461158752441,
      "learning_rate": 0.0001868859746610358,
      "loss": 2.2205,
      "step": 2960
    },
    {
      "epoch": 0.0658,
      "grad_norm": 1.4841840267181396,
      "learning_rate": 0.0001868815292287175,
      "loss": 2.0461,
      "step": 2961
    },
    {
      "epoch": 0.06582222222222223,
      "grad_norm": 1.206834077835083,
      "learning_rate": 0.00018687708379639922,
      "loss": 2.2952,
      "step": 2962
    },
    {
      "epoch": 0.06584444444444444,
      "grad_norm": 1.6178420782089233,
      "learning_rate": 0.0001868726383640809,
      "loss": 2.5222,
      "step": 2963
    },
    {
      "epoch": 0.06586666666666667,
      "grad_norm": 1.3316757678985596,
      "learning_rate": 0.00018686819293176263,
      "loss": 2.0074,
      "step": 2964
    },
    {
      "epoch": 0.06588888888888889,
      "grad_norm": 1.2255252599716187,
      "learning_rate": 0.00018686374749944432,
      "loss": 2.1827,
      "step": 2965
    },
    {
      "epoch": 0.06591111111111111,
      "grad_norm": 1.3230050802230835,
      "learning_rate": 0.00018685930206712603,
      "loss": 2.215,
      "step": 2966
    },
    {
      "epoch": 0.06593333333333333,
      "grad_norm": 1.6141905784606934,
      "learning_rate": 0.00018685485663480776,
      "loss": 2.1713,
      "step": 2967
    },
    {
      "epoch": 0.06595555555555556,
      "grad_norm": 1.312644362449646,
      "learning_rate": 0.00018685041120248945,
      "loss": 2.3945,
      "step": 2968
    },
    {
      "epoch": 0.06597777777777777,
      "grad_norm": 1.4654008150100708,
      "learning_rate": 0.00018684596577017116,
      "loss": 1.9946,
      "step": 2969
    },
    {
      "epoch": 0.066,
      "grad_norm": 1.1366113424301147,
      "learning_rate": 0.00018684152033785287,
      "loss": 1.2741,
      "step": 2970
    },
    {
      "epoch": 0.06602222222222222,
      "grad_norm": 1.2720532417297363,
      "learning_rate": 0.00018683707490553457,
      "loss": 2.1521,
      "step": 2971
    },
    {
      "epoch": 0.06604444444444445,
      "grad_norm": 1.1944630146026611,
      "learning_rate": 0.00018683262947321626,
      "loss": 1.8751,
      "step": 2972
    },
    {
      "epoch": 0.06606666666666666,
      "grad_norm": 1.3374707698822021,
      "learning_rate": 0.000186828184040898,
      "loss": 1.915,
      "step": 2973
    },
    {
      "epoch": 0.06608888888888889,
      "grad_norm": 1.4358044862747192,
      "learning_rate": 0.0001868237386085797,
      "loss": 2.1463,
      "step": 2974
    },
    {
      "epoch": 0.0661111111111111,
      "grad_norm": 1.3154842853546143,
      "learning_rate": 0.00018681929317626139,
      "loss": 2.1661,
      "step": 2975
    },
    {
      "epoch": 0.06613333333333334,
      "grad_norm": 1.30441153049469,
      "learning_rate": 0.00018681484774394312,
      "loss": 2.2619,
      "step": 2976
    },
    {
      "epoch": 0.06615555555555555,
      "grad_norm": 1.3629746437072754,
      "learning_rate": 0.0001868104023116248,
      "loss": 2.2015,
      "step": 2977
    },
    {
      "epoch": 0.06617777777777778,
      "grad_norm": 1.2790447473526,
      "learning_rate": 0.00018680595687930654,
      "loss": 2.0242,
      "step": 2978
    },
    {
      "epoch": 0.0662,
      "grad_norm": 1.2373870611190796,
      "learning_rate": 0.00018680151144698822,
      "loss": 1.9283,
      "step": 2979
    },
    {
      "epoch": 0.06622222222222222,
      "grad_norm": 1.386643409729004,
      "learning_rate": 0.00018679706601466993,
      "loss": 2.143,
      "step": 2980
    },
    {
      "epoch": 0.06624444444444444,
      "grad_norm": 1.39663827419281,
      "learning_rate": 0.00018679262058235164,
      "loss": 1.775,
      "step": 2981
    },
    {
      "epoch": 0.06626666666666667,
      "grad_norm": 1.175649881362915,
      "learning_rate": 0.00018678817515003335,
      "loss": 1.6227,
      "step": 2982
    },
    {
      "epoch": 0.06628888888888888,
      "grad_norm": 1.2920302152633667,
      "learning_rate": 0.00018678372971771506,
      "loss": 1.9243,
      "step": 2983
    },
    {
      "epoch": 0.06631111111111111,
      "grad_norm": 1.3073742389678955,
      "learning_rate": 0.00018677928428539677,
      "loss": 1.7718,
      "step": 2984
    },
    {
      "epoch": 0.06633333333333333,
      "grad_norm": 1.3262230157852173,
      "learning_rate": 0.00018677483885307848,
      "loss": 2.0117,
      "step": 2985
    },
    {
      "epoch": 0.06635555555555556,
      "grad_norm": 1.3040411472320557,
      "learning_rate": 0.00018677039342076016,
      "loss": 2.2123,
      "step": 2986
    },
    {
      "epoch": 0.06637777777777777,
      "grad_norm": 1.455625295639038,
      "learning_rate": 0.0001867659479884419,
      "loss": 1.8989,
      "step": 2987
    },
    {
      "epoch": 0.0664,
      "grad_norm": 1.3047820329666138,
      "learning_rate": 0.00018676150255612358,
      "loss": 1.6882,
      "step": 2988
    },
    {
      "epoch": 0.06642222222222222,
      "grad_norm": 1.1425246000289917,
      "learning_rate": 0.0001867570571238053,
      "loss": 1.6086,
      "step": 2989
    },
    {
      "epoch": 0.06644444444444444,
      "grad_norm": 1.5826201438903809,
      "learning_rate": 0.000186752611691487,
      "loss": 2.2842,
      "step": 2990
    },
    {
      "epoch": 0.06646666666666666,
      "grad_norm": 1.4101442098617554,
      "learning_rate": 0.0001867481662591687,
      "loss": 1.8246,
      "step": 2991
    },
    {
      "epoch": 0.06648888888888889,
      "grad_norm": 1.6880214214324951,
      "learning_rate": 0.00018674372082685042,
      "loss": 2.3414,
      "step": 2992
    },
    {
      "epoch": 0.0665111111111111,
      "grad_norm": 1.3211586475372314,
      "learning_rate": 0.00018673927539453213,
      "loss": 1.5972,
      "step": 2993
    },
    {
      "epoch": 0.06653333333333333,
      "grad_norm": 1.5031882524490356,
      "learning_rate": 0.00018673482996221384,
      "loss": 1.8175,
      "step": 2994
    },
    {
      "epoch": 0.06655555555555556,
      "grad_norm": 1.3425596952438354,
      "learning_rate": 0.00018673038452989555,
      "loss": 2.01,
      "step": 2995
    },
    {
      "epoch": 0.06657777777777778,
      "grad_norm": 1.378546953201294,
      "learning_rate": 0.00018672593909757726,
      "loss": 1.8262,
      "step": 2996
    },
    {
      "epoch": 0.0666,
      "grad_norm": 1.2477855682373047,
      "learning_rate": 0.00018672149366525894,
      "loss": 1.0512,
      "step": 2997
    },
    {
      "epoch": 0.06662222222222222,
      "grad_norm": 1.329624891281128,
      "learning_rate": 0.00018671704823294068,
      "loss": 1.7874,
      "step": 2998
    },
    {
      "epoch": 0.06664444444444445,
      "grad_norm": 1.3171143531799316,
      "learning_rate": 0.00018671260280062236,
      "loss": 1.4029,
      "step": 2999
    },
    {
      "epoch": 0.06666666666666667,
      "grad_norm": 1.3119182586669922,
      "learning_rate": 0.00018670815736830407,
      "loss": 1.1867,
      "step": 3000
    },
    {
      "epoch": 0.0666888888888889,
      "grad_norm": 1.1418683528900146,
      "learning_rate": 0.00018670371193598578,
      "loss": 1.4056,
      "step": 3001
    },
    {
      "epoch": 0.06671111111111111,
      "grad_norm": 0.7446819543838501,
      "learning_rate": 0.0001866992665036675,
      "loss": 1.2558,
      "step": 3002
    },
    {
      "epoch": 0.06673333333333334,
      "grad_norm": 1.2388083934783936,
      "learning_rate": 0.0001866948210713492,
      "loss": 2.4907,
      "step": 3003
    },
    {
      "epoch": 0.06675555555555555,
      "grad_norm": 1.4944300651550293,
      "learning_rate": 0.0001866903756390309,
      "loss": 0.5905,
      "step": 3004
    },
    {
      "epoch": 0.06677777777777778,
      "grad_norm": 1.0793980360031128,
      "learning_rate": 0.00018668593020671262,
      "loss": 2.2229,
      "step": 3005
    },
    {
      "epoch": 0.0668,
      "grad_norm": 1.066013216972351,
      "learning_rate": 0.0001866814847743943,
      "loss": 2.1372,
      "step": 3006
    },
    {
      "epoch": 0.06682222222222223,
      "grad_norm": 1.2131024599075317,
      "learning_rate": 0.00018667703934207604,
      "loss": 2.618,
      "step": 3007
    },
    {
      "epoch": 0.06684444444444444,
      "grad_norm": 1.1012964248657227,
      "learning_rate": 0.00018667259390975772,
      "loss": 1.9943,
      "step": 3008
    },
    {
      "epoch": 0.06686666666666667,
      "grad_norm": 1.2611958980560303,
      "learning_rate": 0.00018666814847743943,
      "loss": 2.9643,
      "step": 3009
    },
    {
      "epoch": 0.06688888888888889,
      "grad_norm": 1.0779814720153809,
      "learning_rate": 0.00018666370304512114,
      "loss": 2.4533,
      "step": 3010
    },
    {
      "epoch": 0.06691111111111112,
      "grad_norm": 1.0852347612380981,
      "learning_rate": 0.00018665925761280285,
      "loss": 2.168,
      "step": 3011
    },
    {
      "epoch": 0.06693333333333333,
      "grad_norm": 1.242493748664856,
      "learning_rate": 0.00018665481218048456,
      "loss": 2.2027,
      "step": 3012
    },
    {
      "epoch": 0.06695555555555556,
      "grad_norm": 1.1750240325927734,
      "learning_rate": 0.00018665036674816627,
      "loss": 2.008,
      "step": 3013
    },
    {
      "epoch": 0.06697777777777777,
      "grad_norm": 1.033508539199829,
      "learning_rate": 0.00018664592131584798,
      "loss": 1.9661,
      "step": 3014
    },
    {
      "epoch": 0.067,
      "grad_norm": 1.4327009916305542,
      "learning_rate": 0.0001866414758835297,
      "loss": 2.6899,
      "step": 3015
    },
    {
      "epoch": 0.06702222222222222,
      "grad_norm": 1.4444184303283691,
      "learning_rate": 0.0001866370304512114,
      "loss": 2.1263,
      "step": 3016
    },
    {
      "epoch": 0.06704444444444445,
      "grad_norm": 1.3516345024108887,
      "learning_rate": 0.00018663258501889308,
      "loss": 2.1334,
      "step": 3017
    },
    {
      "epoch": 0.06706666666666666,
      "grad_norm": 1.1286693811416626,
      "learning_rate": 0.00018662813958657482,
      "loss": 1.9396,
      "step": 3018
    },
    {
      "epoch": 0.06708888888888889,
      "grad_norm": 1.0525747537612915,
      "learning_rate": 0.0001866236941542565,
      "loss": 2.0104,
      "step": 3019
    },
    {
      "epoch": 0.06711111111111111,
      "grad_norm": 1.2158340215682983,
      "learning_rate": 0.0001866192487219382,
      "loss": 2.2476,
      "step": 3020
    },
    {
      "epoch": 0.06713333333333334,
      "grad_norm": 2.0288302898406982,
      "learning_rate": 0.00018661480328961992,
      "loss": 0.9421,
      "step": 3021
    },
    {
      "epoch": 0.06715555555555555,
      "grad_norm": 1.3440532684326172,
      "learning_rate": 0.00018661035785730163,
      "loss": 2.0325,
      "step": 3022
    },
    {
      "epoch": 0.06717777777777778,
      "grad_norm": 1.0971245765686035,
      "learning_rate": 0.00018660591242498334,
      "loss": 1.845,
      "step": 3023
    },
    {
      "epoch": 0.0672,
      "grad_norm": 1.400359034538269,
      "learning_rate": 0.00018660146699266505,
      "loss": 2.2704,
      "step": 3024
    },
    {
      "epoch": 0.06722222222222222,
      "grad_norm": 1.3983571529388428,
      "learning_rate": 0.00018659702156034676,
      "loss": 1.9317,
      "step": 3025
    },
    {
      "epoch": 0.06724444444444444,
      "grad_norm": 1.3775551319122314,
      "learning_rate": 0.00018659257612802844,
      "loss": 2.1884,
      "step": 3026
    },
    {
      "epoch": 0.06726666666666667,
      "grad_norm": 1.1605805158615112,
      "learning_rate": 0.00018658813069571018,
      "loss": 1.9882,
      "step": 3027
    },
    {
      "epoch": 0.06728888888888888,
      "grad_norm": 1.212649941444397,
      "learning_rate": 0.00018658368526339186,
      "loss": 2.1658,
      "step": 3028
    },
    {
      "epoch": 0.06731111111111111,
      "grad_norm": 1.1757985353469849,
      "learning_rate": 0.00018657923983107357,
      "loss": 2.0947,
      "step": 3029
    },
    {
      "epoch": 0.06733333333333333,
      "grad_norm": 1.36328125,
      "learning_rate": 0.00018657479439875528,
      "loss": 2.043,
      "step": 3030
    },
    {
      "epoch": 0.06735555555555556,
      "grad_norm": 1.6213213205337524,
      "learning_rate": 0.000186570348966437,
      "loss": 2.0704,
      "step": 3031
    },
    {
      "epoch": 0.06737777777777777,
      "grad_norm": 1.1763414144515991,
      "learning_rate": 0.0001865659035341187,
      "loss": 1.8164,
      "step": 3032
    },
    {
      "epoch": 0.0674,
      "grad_norm": 1.5299826860427856,
      "learning_rate": 0.0001865614581018004,
      "loss": 1.1157,
      "step": 3033
    },
    {
      "epoch": 0.06742222222222222,
      "grad_norm": 1.3983116149902344,
      "learning_rate": 0.00018655701266948212,
      "loss": 2.1105,
      "step": 3034
    },
    {
      "epoch": 0.06744444444444445,
      "grad_norm": 1.37330162525177,
      "learning_rate": 0.00018655256723716383,
      "loss": 2.2656,
      "step": 3035
    },
    {
      "epoch": 0.06746666666666666,
      "grad_norm": 1.310173749923706,
      "learning_rate": 0.00018654812180484554,
      "loss": 1.8935,
      "step": 3036
    },
    {
      "epoch": 0.06748888888888889,
      "grad_norm": 1.4299370050430298,
      "learning_rate": 0.00018654367637252722,
      "loss": 1.7469,
      "step": 3037
    },
    {
      "epoch": 0.0675111111111111,
      "grad_norm": 1.5664149522781372,
      "learning_rate": 0.00018653923094020896,
      "loss": 1.2068,
      "step": 3038
    },
    {
      "epoch": 0.06753333333333333,
      "grad_norm": 1.337867259979248,
      "learning_rate": 0.00018653478550789064,
      "loss": 2.2552,
      "step": 3039
    },
    {
      "epoch": 0.06755555555555555,
      "grad_norm": 1.4328793287277222,
      "learning_rate": 0.00018653034007557235,
      "loss": 2.0573,
      "step": 3040
    },
    {
      "epoch": 0.06757777777777778,
      "grad_norm": 1.305863380432129,
      "learning_rate": 0.00018652589464325409,
      "loss": 2.099,
      "step": 3041
    },
    {
      "epoch": 0.0676,
      "grad_norm": 1.2517766952514648,
      "learning_rate": 0.00018652144921093577,
      "loss": 1.9474,
      "step": 3042
    },
    {
      "epoch": 0.06762222222222222,
      "grad_norm": 1.4265320301055908,
      "learning_rate": 0.00018651700377861748,
      "loss": 2.1624,
      "step": 3043
    },
    {
      "epoch": 0.06764444444444444,
      "grad_norm": 1.4899251461029053,
      "learning_rate": 0.0001865125583462992,
      "loss": 1.9703,
      "step": 3044
    },
    {
      "epoch": 0.06766666666666667,
      "grad_norm": 1.5499143600463867,
      "learning_rate": 0.0001865081129139809,
      "loss": 1.6343,
      "step": 3045
    },
    {
      "epoch": 0.0676888888888889,
      "grad_norm": 1.2661762237548828,
      "learning_rate": 0.00018650366748166258,
      "loss": 1.8185,
      "step": 3046
    },
    {
      "epoch": 0.06771111111111111,
      "grad_norm": 1.5745210647583008,
      "learning_rate": 0.00018649922204934432,
      "loss": 2.1845,
      "step": 3047
    },
    {
      "epoch": 0.06773333333333334,
      "grad_norm": 1.808465838432312,
      "learning_rate": 0.00018649477661702603,
      "loss": 2.3673,
      "step": 3048
    },
    {
      "epoch": 0.06775555555555555,
      "grad_norm": 1.4940499067306519,
      "learning_rate": 0.0001864903311847077,
      "loss": 1.6193,
      "step": 3049
    },
    {
      "epoch": 0.06777777777777778,
      "grad_norm": 1.7693639993667603,
      "learning_rate": 0.00018648588575238944,
      "loss": 1.5863,
      "step": 3050
    },
    {
      "epoch": 0.0678,
      "grad_norm": 1.020078182220459,
      "learning_rate": 0.00018648144032007113,
      "loss": 2.3726,
      "step": 3051
    },
    {
      "epoch": 0.06782222222222223,
      "grad_norm": 0.9951558113098145,
      "learning_rate": 0.00018647699488775286,
      "loss": 2.391,
      "step": 3052
    },
    {
      "epoch": 0.06784444444444444,
      "grad_norm": 1.3614338636398315,
      "learning_rate": 0.00018647254945543455,
      "loss": 2.2853,
      "step": 3053
    },
    {
      "epoch": 0.06786666666666667,
      "grad_norm": 1.1202802658081055,
      "learning_rate": 0.00018646810402311626,
      "loss": 2.4977,
      "step": 3054
    },
    {
      "epoch": 0.06788888888888889,
      "grad_norm": 1.1676385402679443,
      "learning_rate": 0.00018646365859079797,
      "loss": 2.2791,
      "step": 3055
    },
    {
      "epoch": 0.06791111111111112,
      "grad_norm": 1.3840031623840332,
      "learning_rate": 0.00018645921315847968,
      "loss": 2.3632,
      "step": 3056
    },
    {
      "epoch": 0.06793333333333333,
      "grad_norm": 1.6053420305252075,
      "learning_rate": 0.00018645476772616139,
      "loss": 2.0755,
      "step": 3057
    },
    {
      "epoch": 0.06795555555555556,
      "grad_norm": 1.1942670345306396,
      "learning_rate": 0.0001864503222938431,
      "loss": 2.4001,
      "step": 3058
    },
    {
      "epoch": 0.06797777777777778,
      "grad_norm": 1.1291829347610474,
      "learning_rate": 0.0001864458768615248,
      "loss": 2.6332,
      "step": 3059
    },
    {
      "epoch": 0.068,
      "grad_norm": 1.2013721466064453,
      "learning_rate": 0.0001864414314292065,
      "loss": 1.0045,
      "step": 3060
    },
    {
      "epoch": 0.06802222222222222,
      "grad_norm": 1.0784189701080322,
      "learning_rate": 0.00018643698599688822,
      "loss": 1.6403,
      "step": 3061
    },
    {
      "epoch": 0.06804444444444445,
      "grad_norm": 1.1853705644607544,
      "learning_rate": 0.0001864325405645699,
      "loss": 2.3722,
      "step": 3062
    },
    {
      "epoch": 0.06806666666666666,
      "grad_norm": 1.1500760316848755,
      "learning_rate": 0.00018642809513225162,
      "loss": 2.3134,
      "step": 3063
    },
    {
      "epoch": 0.0680888888888889,
      "grad_norm": 1.1305676698684692,
      "learning_rate": 0.00018642364969993333,
      "loss": 2.2578,
      "step": 3064
    },
    {
      "epoch": 0.06811111111111111,
      "grad_norm": 1.1511883735656738,
      "learning_rate": 0.00018641920426761503,
      "loss": 1.9826,
      "step": 3065
    },
    {
      "epoch": 0.06813333333333334,
      "grad_norm": 1.2255641222000122,
      "learning_rate": 0.00018641475883529674,
      "loss": 1.7309,
      "step": 3066
    },
    {
      "epoch": 0.06815555555555555,
      "grad_norm": 1.1795870065689087,
      "learning_rate": 0.00018641031340297845,
      "loss": 2.0513,
      "step": 3067
    },
    {
      "epoch": 0.06817777777777778,
      "grad_norm": 1.4166266918182373,
      "learning_rate": 0.00018640586797066016,
      "loss": 2.2812,
      "step": 3068
    },
    {
      "epoch": 0.0682,
      "grad_norm": 1.3183900117874146,
      "learning_rate": 0.00018640142253834185,
      "loss": 1.9412,
      "step": 3069
    },
    {
      "epoch": 0.06822222222222223,
      "grad_norm": 1.2181826829910278,
      "learning_rate": 0.00018639697710602358,
      "loss": 2.3809,
      "step": 3070
    },
    {
      "epoch": 0.06824444444444444,
      "grad_norm": 1.381649374961853,
      "learning_rate": 0.00018639253167370527,
      "loss": 2.4266,
      "step": 3071
    },
    {
      "epoch": 0.06826666666666667,
      "grad_norm": 1.336442232131958,
      "learning_rate": 0.000186388086241387,
      "loss": 2.2447,
      "step": 3072
    },
    {
      "epoch": 0.06828888888888889,
      "grad_norm": 1.0556756258010864,
      "learning_rate": 0.00018638364080906868,
      "loss": 1.7687,
      "step": 3073
    },
    {
      "epoch": 0.06831111111111111,
      "grad_norm": 1.1357994079589844,
      "learning_rate": 0.0001863791953767504,
      "loss": 1.8913,
      "step": 3074
    },
    {
      "epoch": 0.06833333333333333,
      "grad_norm": 1.1601805686950684,
      "learning_rate": 0.0001863747499444321,
      "loss": 2.186,
      "step": 3075
    },
    {
      "epoch": 0.06835555555555556,
      "grad_norm": 1.316452980041504,
      "learning_rate": 0.00018637030451211381,
      "loss": 2.2864,
      "step": 3076
    },
    {
      "epoch": 0.06837777777777777,
      "grad_norm": 1.1213129758834839,
      "learning_rate": 0.00018636585907979552,
      "loss": 1.54,
      "step": 3077
    },
    {
      "epoch": 0.0684,
      "grad_norm": 1.4808624982833862,
      "learning_rate": 0.00018636141364747723,
      "loss": 2.5633,
      "step": 3078
    },
    {
      "epoch": 0.06842222222222222,
      "grad_norm": 1.555956244468689,
      "learning_rate": 0.00018635696821515894,
      "loss": 2.0051,
      "step": 3079
    },
    {
      "epoch": 0.06844444444444445,
      "grad_norm": 1.4880449771881104,
      "learning_rate": 0.00018635252278284063,
      "loss": 2.5767,
      "step": 3080
    },
    {
      "epoch": 0.06846666666666666,
      "grad_norm": 1.6123839616775513,
      "learning_rate": 0.00018634807735052236,
      "loss": 2.1698,
      "step": 3081
    },
    {
      "epoch": 0.06848888888888889,
      "grad_norm": 1.490860104560852,
      "learning_rate": 0.00018634363191820404,
      "loss": 2.6339,
      "step": 3082
    },
    {
      "epoch": 0.0685111111111111,
      "grad_norm": 1.5396085977554321,
      "learning_rate": 0.00018633918648588575,
      "loss": 2.54,
      "step": 3083
    },
    {
      "epoch": 0.06853333333333333,
      "grad_norm": 1.157238483428955,
      "learning_rate": 0.00018633474105356746,
      "loss": 1.9568,
      "step": 3084
    },
    {
      "epoch": 0.06855555555555555,
      "grad_norm": 1.3200165033340454,
      "learning_rate": 0.00018633029562124917,
      "loss": 2.0114,
      "step": 3085
    },
    {
      "epoch": 0.06857777777777778,
      "grad_norm": 1.2527263164520264,
      "learning_rate": 0.00018632585018893088,
      "loss": 1.9291,
      "step": 3086
    },
    {
      "epoch": 0.0686,
      "grad_norm": 1.1514992713928223,
      "learning_rate": 0.0001863214047566126,
      "loss": 1.8126,
      "step": 3087
    },
    {
      "epoch": 0.06862222222222222,
      "grad_norm": 1.322563648223877,
      "learning_rate": 0.0001863169593242943,
      "loss": 1.9282,
      "step": 3088
    },
    {
      "epoch": 0.06864444444444444,
      "grad_norm": 1.3832098245620728,
      "learning_rate": 0.00018631251389197598,
      "loss": 1.6543,
      "step": 3089
    },
    {
      "epoch": 0.06866666666666667,
      "grad_norm": 1.2836965322494507,
      "learning_rate": 0.00018630806845965772,
      "loss": 1.9576,
      "step": 3090
    },
    {
      "epoch": 0.06868888888888888,
      "grad_norm": 1.480849027633667,
      "learning_rate": 0.0001863036230273394,
      "loss": 2.1873,
      "step": 3091
    },
    {
      "epoch": 0.06871111111111111,
      "grad_norm": 1.444036841392517,
      "learning_rate": 0.00018629917759502114,
      "loss": 2.4291,
      "step": 3092
    },
    {
      "epoch": 0.06873333333333333,
      "grad_norm": 1.2380448579788208,
      "learning_rate": 0.00018629473216270282,
      "loss": 1.7406,
      "step": 3093
    },
    {
      "epoch": 0.06875555555555556,
      "grad_norm": 1.5346790552139282,
      "learning_rate": 0.00018629028673038453,
      "loss": 2.0464,
      "step": 3094
    },
    {
      "epoch": 0.06877777777777777,
      "grad_norm": 1.323529839515686,
      "learning_rate": 0.00018628584129806624,
      "loss": 1.6314,
      "step": 3095
    },
    {
      "epoch": 0.0688,
      "grad_norm": 1.481766700744629,
      "learning_rate": 0.00018628139586574795,
      "loss": 2.0781,
      "step": 3096
    },
    {
      "epoch": 0.06882222222222223,
      "grad_norm": 1.0874724388122559,
      "learning_rate": 0.00018627695043342966,
      "loss": 1.2723,
      "step": 3097
    },
    {
      "epoch": 0.06884444444444444,
      "grad_norm": 1.6798361539840698,
      "learning_rate": 0.00018627250500111137,
      "loss": 1.7107,
      "step": 3098
    },
    {
      "epoch": 0.06886666666666667,
      "grad_norm": 1.4015706777572632,
      "learning_rate": 0.00018626805956879308,
      "loss": 1.4299,
      "step": 3099
    },
    {
      "epoch": 0.06888888888888889,
      "grad_norm": 1.3325926065444946,
      "learning_rate": 0.00018626361413647476,
      "loss": 1.3214,
      "step": 3100
    },
    {
      "epoch": 0.06891111111111112,
      "grad_norm": 1.0045979022979736,
      "learning_rate": 0.0001862591687041565,
      "loss": 2.0906,
      "step": 3101
    },
    {
      "epoch": 0.06893333333333333,
      "grad_norm": 1.0200821161270142,
      "learning_rate": 0.00018625472327183818,
      "loss": 1.8968,
      "step": 3102
    },
    {
      "epoch": 0.06895555555555556,
      "grad_norm": 1.2551326751708984,
      "learning_rate": 0.0001862502778395199,
      "loss": 1.9392,
      "step": 3103
    },
    {
      "epoch": 0.06897777777777778,
      "grad_norm": 1.1553781032562256,
      "learning_rate": 0.0001862458324072016,
      "loss": 1.9881,
      "step": 3104
    },
    {
      "epoch": 0.069,
      "grad_norm": 1.3161534070968628,
      "learning_rate": 0.0001862413869748833,
      "loss": 2.1154,
      "step": 3105
    },
    {
      "epoch": 0.06902222222222222,
      "grad_norm": 1.1664115190505981,
      "learning_rate": 0.00018623694154256502,
      "loss": 2.5115,
      "step": 3106
    },
    {
      "epoch": 0.06904444444444445,
      "grad_norm": 1.265507698059082,
      "learning_rate": 0.00018623249611024673,
      "loss": 1.6962,
      "step": 3107
    },
    {
      "epoch": 0.06906666666666667,
      "grad_norm": 1.2219555377960205,
      "learning_rate": 0.00018622805067792844,
      "loss": 2.0094,
      "step": 3108
    },
    {
      "epoch": 0.0690888888888889,
      "grad_norm": 1.172410249710083,
      "learning_rate": 0.00018622360524561015,
      "loss": 2.032,
      "step": 3109
    },
    {
      "epoch": 0.06911111111111111,
      "grad_norm": 1.0577607154846191,
      "learning_rate": 0.00018621915981329186,
      "loss": 2.0619,
      "step": 3110
    },
    {
      "epoch": 0.06913333333333334,
      "grad_norm": 1.371067762374878,
      "learning_rate": 0.00018621471438097354,
      "loss": 1.9002,
      "step": 3111
    },
    {
      "epoch": 0.06915555555555555,
      "grad_norm": 1.2463182210922241,
      "learning_rate": 0.00018621026894865528,
      "loss": 2.2429,
      "step": 3112
    },
    {
      "epoch": 0.06917777777777778,
      "grad_norm": 1.2977174520492554,
      "learning_rate": 0.00018620582351633696,
      "loss": 1.2412,
      "step": 3113
    },
    {
      "epoch": 0.0692,
      "grad_norm": 1.1670761108398438,
      "learning_rate": 0.00018620137808401867,
      "loss": 1.84,
      "step": 3114
    },
    {
      "epoch": 0.06922222222222223,
      "grad_norm": 1.3535349369049072,
      "learning_rate": 0.0001861969326517004,
      "loss": 2.0711,
      "step": 3115
    },
    {
      "epoch": 0.06924444444444444,
      "grad_norm": 1.202639102935791,
      "learning_rate": 0.0001861924872193821,
      "loss": 1.8456,
      "step": 3116
    },
    {
      "epoch": 0.06926666666666667,
      "grad_norm": 1.3139315843582153,
      "learning_rate": 0.0001861880417870638,
      "loss": 2.2342,
      "step": 3117
    },
    {
      "epoch": 0.06928888888888889,
      "grad_norm": 1.4702835083007812,
      "learning_rate": 0.0001861835963547455,
      "loss": 2.0615,
      "step": 3118
    },
    {
      "epoch": 0.06931111111111112,
      "grad_norm": 1.2553362846374512,
      "learning_rate": 0.00018617915092242722,
      "loss": 1.5745,
      "step": 3119
    },
    {
      "epoch": 0.06933333333333333,
      "grad_norm": 1.3718432188034058,
      "learning_rate": 0.0001861747054901089,
      "loss": 1.7778,
      "step": 3120
    },
    {
      "epoch": 0.06935555555555556,
      "grad_norm": 1.2589430809020996,
      "learning_rate": 0.00018617026005779064,
      "loss": 1.917,
      "step": 3121
    },
    {
      "epoch": 0.06937777777777777,
      "grad_norm": 1.4061884880065918,
      "learning_rate": 0.00018616581462547235,
      "loss": 1.8717,
      "step": 3122
    },
    {
      "epoch": 0.0694,
      "grad_norm": 1.637049674987793,
      "learning_rate": 0.00018616136919315403,
      "loss": 1.8411,
      "step": 3123
    },
    {
      "epoch": 0.06942222222222222,
      "grad_norm": 1.2560381889343262,
      "learning_rate": 0.00018615692376083577,
      "loss": 1.9734,
      "step": 3124
    },
    {
      "epoch": 0.06944444444444445,
      "grad_norm": 1.384864091873169,
      "learning_rate": 0.00018615247832851745,
      "loss": 1.9053,
      "step": 3125
    },
    {
      "epoch": 0.06946666666666666,
      "grad_norm": 1.17531156539917,
      "learning_rate": 0.00018614803289619916,
      "loss": 1.7236,
      "step": 3126
    },
    {
      "epoch": 0.06948888888888889,
      "grad_norm": 1.4617774486541748,
      "learning_rate": 0.00018614358746388087,
      "loss": 2.0953,
      "step": 3127
    },
    {
      "epoch": 0.0695111111111111,
      "grad_norm": 1.4734753370285034,
      "learning_rate": 0.00018613914203156258,
      "loss": 2.2885,
      "step": 3128
    },
    {
      "epoch": 0.06953333333333334,
      "grad_norm": 1.1499420404434204,
      "learning_rate": 0.0001861346965992443,
      "loss": 1.9675,
      "step": 3129
    },
    {
      "epoch": 0.06955555555555555,
      "grad_norm": 1.016000509262085,
      "learning_rate": 0.000186130251166926,
      "loss": 0.0677,
      "step": 3130
    },
    {
      "epoch": 0.06957777777777778,
      "grad_norm": 1.397423505783081,
      "learning_rate": 0.0001861258057346077,
      "loss": 2.1454,
      "step": 3131
    },
    {
      "epoch": 0.0696,
      "grad_norm": 1.375404953956604,
      "learning_rate": 0.00018612136030228942,
      "loss": 2.1344,
      "step": 3132
    },
    {
      "epoch": 0.06962222222222222,
      "grad_norm": 1.4570456743240356,
      "learning_rate": 0.00018611691486997113,
      "loss": 1.9302,
      "step": 3133
    },
    {
      "epoch": 0.06964444444444444,
      "grad_norm": 1.3582453727722168,
      "learning_rate": 0.0001861124694376528,
      "loss": 1.9745,
      "step": 3134
    },
    {
      "epoch": 0.06966666666666667,
      "grad_norm": 1.440842628479004,
      "learning_rate": 0.00018610802400533455,
      "loss": 2.4853,
      "step": 3135
    },
    {
      "epoch": 0.06968888888888888,
      "grad_norm": 1.5460126399993896,
      "learning_rate": 0.00018610357857301623,
      "loss": 1.958,
      "step": 3136
    },
    {
      "epoch": 0.06971111111111111,
      "grad_norm": 1.3783636093139648,
      "learning_rate": 0.00018609913314069794,
      "loss": 1.8361,
      "step": 3137
    },
    {
      "epoch": 0.06973333333333333,
      "grad_norm": 1.6017347574234009,
      "learning_rate": 0.00018609468770837965,
      "loss": 2.0159,
      "step": 3138
    },
    {
      "epoch": 0.06975555555555556,
      "grad_norm": 1.5302122831344604,
      "learning_rate": 0.00018609024227606136,
      "loss": 2.2509,
      "step": 3139
    },
    {
      "epoch": 0.06977777777777777,
      "grad_norm": 1.4924696683883667,
      "learning_rate": 0.00018608579684374307,
      "loss": 1.936,
      "step": 3140
    },
    {
      "epoch": 0.0698,
      "grad_norm": 1.1864842176437378,
      "learning_rate": 0.00018608135141142478,
      "loss": 1.7742,
      "step": 3141
    },
    {
      "epoch": 0.06982222222222222,
      "grad_norm": 1.2760343551635742,
      "learning_rate": 0.00018607690597910649,
      "loss": 1.574,
      "step": 3142
    },
    {
      "epoch": 0.06984444444444445,
      "grad_norm": 1.4915947914123535,
      "learning_rate": 0.00018607246054678817,
      "loss": 2.1868,
      "step": 3143
    },
    {
      "epoch": 0.06986666666666666,
      "grad_norm": 1.639445424079895,
      "learning_rate": 0.0001860680151144699,
      "loss": 1.9876,
      "step": 3144
    },
    {
      "epoch": 0.06988888888888889,
      "grad_norm": 1.33467435836792,
      "learning_rate": 0.0001860635696821516,
      "loss": 1.5571,
      "step": 3145
    },
    {
      "epoch": 0.0699111111111111,
      "grad_norm": 1.4326633214950562,
      "learning_rate": 0.0001860591242498333,
      "loss": 1.8554,
      "step": 3146
    },
    {
      "epoch": 0.06993333333333333,
      "grad_norm": 1.8822603225708008,
      "learning_rate": 0.000186054678817515,
      "loss": 2.0675,
      "step": 3147
    },
    {
      "epoch": 0.06995555555555556,
      "grad_norm": 1.400314450263977,
      "learning_rate": 0.00018605023338519672,
      "loss": 1.7519,
      "step": 3148
    },
    {
      "epoch": 0.06997777777777778,
      "grad_norm": 1.376460075378418,
      "learning_rate": 0.00018604578795287843,
      "loss": 1.9243,
      "step": 3149
    },
    {
      "epoch": 0.07,
      "grad_norm": 1.4170759916305542,
      "learning_rate": 0.00018604134252056014,
      "loss": 1.4566,
      "step": 3150
    },
    {
      "epoch": 0.07002222222222222,
      "grad_norm": 1.176084280014038,
      "learning_rate": 0.00018603689708824185,
      "loss": 2.5171,
      "step": 3151
    },
    {
      "epoch": 0.07004444444444445,
      "grad_norm": 0.796825647354126,
      "learning_rate": 0.00018603245165592355,
      "loss": 1.0659,
      "step": 3152
    },
    {
      "epoch": 0.07006666666666667,
      "grad_norm": 1.1480032205581665,
      "learning_rate": 0.00018602800622360526,
      "loss": 2.6119,
      "step": 3153
    },
    {
      "epoch": 0.0700888888888889,
      "grad_norm": 1.0482373237609863,
      "learning_rate": 0.00018602356079128695,
      "loss": 2.0065,
      "step": 3154
    },
    {
      "epoch": 0.07011111111111111,
      "grad_norm": 1.150799036026001,
      "learning_rate": 0.00018601911535896868,
      "loss": 2.5115,
      "step": 3155
    },
    {
      "epoch": 0.07013333333333334,
      "grad_norm": 1.0664395093917847,
      "learning_rate": 0.00018601466992665037,
      "loss": 1.4442,
      "step": 3156
    },
    {
      "epoch": 0.07015555555555555,
      "grad_norm": 1.257991909980774,
      "learning_rate": 0.00018601022449433208,
      "loss": 2.3767,
      "step": 3157
    },
    {
      "epoch": 0.07017777777777778,
      "grad_norm": 1.173624038696289,
      "learning_rate": 0.00018600577906201379,
      "loss": 2.4001,
      "step": 3158
    },
    {
      "epoch": 0.0702,
      "grad_norm": 1.3107126951217651,
      "learning_rate": 0.0001860013336296955,
      "loss": 2.0785,
      "step": 3159
    },
    {
      "epoch": 0.07022222222222223,
      "grad_norm": 1.125231385231018,
      "learning_rate": 0.0001859968881973772,
      "loss": 2.2874,
      "step": 3160
    },
    {
      "epoch": 0.07024444444444444,
      "grad_norm": 0.962848424911499,
      "learning_rate": 0.00018599244276505891,
      "loss": 1.7164,
      "step": 3161
    },
    {
      "epoch": 0.07026666666666667,
      "grad_norm": 1.4906202554702759,
      "learning_rate": 0.00018598799733274062,
      "loss": 1.9267,
      "step": 3162
    },
    {
      "epoch": 0.07028888888888889,
      "grad_norm": 1.3258379697799683,
      "learning_rate": 0.0001859835519004223,
      "loss": 2.2396,
      "step": 3163
    },
    {
      "epoch": 0.07031111111111112,
      "grad_norm": 1.1507848501205444,
      "learning_rate": 0.00018597910646810404,
      "loss": 1.5691,
      "step": 3164
    },
    {
      "epoch": 0.07033333333333333,
      "grad_norm": 1.2545636892318726,
      "learning_rate": 0.00018597466103578573,
      "loss": 2.3422,
      "step": 3165
    },
    {
      "epoch": 0.07035555555555556,
      "grad_norm": 1.3093425035476685,
      "learning_rate": 0.00018597021560346746,
      "loss": 2.2198,
      "step": 3166
    },
    {
      "epoch": 0.07037777777777778,
      "grad_norm": 1.6808485984802246,
      "learning_rate": 0.00018596577017114915,
      "loss": 1.3773,
      "step": 3167
    },
    {
      "epoch": 0.0704,
      "grad_norm": 1.3006585836410522,
      "learning_rate": 0.00018596132473883085,
      "loss": 1.9069,
      "step": 3168
    },
    {
      "epoch": 0.07042222222222222,
      "grad_norm": 1.3212761878967285,
      "learning_rate": 0.00018595687930651256,
      "loss": 2.132,
      "step": 3169
    },
    {
      "epoch": 0.07044444444444445,
      "grad_norm": 1.015975832939148,
      "learning_rate": 0.00018595243387419427,
      "loss": 1.5151,
      "step": 3170
    },
    {
      "epoch": 0.07046666666666666,
      "grad_norm": 1.2584716081619263,
      "learning_rate": 0.00018594798844187598,
      "loss": 1.969,
      "step": 3171
    },
    {
      "epoch": 0.07048888888888889,
      "grad_norm": 1.0883800983428955,
      "learning_rate": 0.0001859435430095577,
      "loss": 1.6872,
      "step": 3172
    },
    {
      "epoch": 0.07051111111111111,
      "grad_norm": 1.2211334705352783,
      "learning_rate": 0.0001859390975772394,
      "loss": 2.3762,
      "step": 3173
    },
    {
      "epoch": 0.07053333333333334,
      "grad_norm": 1.3487976789474487,
      "learning_rate": 0.00018593465214492109,
      "loss": 2.2317,
      "step": 3174
    },
    {
      "epoch": 0.07055555555555555,
      "grad_norm": 1.2125729322433472,
      "learning_rate": 0.00018593020671260282,
      "loss": 2.0716,
      "step": 3175
    },
    {
      "epoch": 0.07057777777777778,
      "grad_norm": 1.124316692352295,
      "learning_rate": 0.0001859257612802845,
      "loss": 1.8635,
      "step": 3176
    },
    {
      "epoch": 0.0706,
      "grad_norm": 1.2815332412719727,
      "learning_rate": 0.00018592131584796621,
      "loss": 1.8667,
      "step": 3177
    },
    {
      "epoch": 0.07062222222222223,
      "grad_norm": 1.1639313697814941,
      "learning_rate": 0.00018591687041564792,
      "loss": 1.9161,
      "step": 3178
    },
    {
      "epoch": 0.07064444444444444,
      "grad_norm": 1.319077491760254,
      "learning_rate": 0.00018591242498332963,
      "loss": 1.9424,
      "step": 3179
    },
    {
      "epoch": 0.07066666666666667,
      "grad_norm": 1.3556466102600098,
      "learning_rate": 0.00018590797955101134,
      "loss": 2.0775,
      "step": 3180
    },
    {
      "epoch": 0.07068888888888888,
      "grad_norm": 1.3292410373687744,
      "learning_rate": 0.00018590353411869305,
      "loss": 1.8626,
      "step": 3181
    },
    {
      "epoch": 0.07071111111111111,
      "grad_norm": 1.4909486770629883,
      "learning_rate": 0.00018589908868637476,
      "loss": 2.0275,
      "step": 3182
    },
    {
      "epoch": 0.07073333333333333,
      "grad_norm": 1.35085129737854,
      "learning_rate": 0.00018589464325405644,
      "loss": 1.8455,
      "step": 3183
    },
    {
      "epoch": 0.07075555555555556,
      "grad_norm": 1.5771790742874146,
      "learning_rate": 0.00018589019782173818,
      "loss": 2.5952,
      "step": 3184
    },
    {
      "epoch": 0.07077777777777777,
      "grad_norm": 1.8196218013763428,
      "learning_rate": 0.00018588575238941986,
      "loss": 2.253,
      "step": 3185
    },
    {
      "epoch": 0.0708,
      "grad_norm": 1.6080139875411987,
      "learning_rate": 0.0001858813069571016,
      "loss": 1.9148,
      "step": 3186
    },
    {
      "epoch": 0.07082222222222222,
      "grad_norm": 1.427482008934021,
      "learning_rate": 0.00018587686152478328,
      "loss": 2.3963,
      "step": 3187
    },
    {
      "epoch": 0.07084444444444445,
      "grad_norm": 1.2649651765823364,
      "learning_rate": 0.000185872416092465,
      "loss": 1.923,
      "step": 3188
    },
    {
      "epoch": 0.07086666666666666,
      "grad_norm": 1.2580745220184326,
      "learning_rate": 0.00018586797066014673,
      "loss": 2.0556,
      "step": 3189
    },
    {
      "epoch": 0.07088888888888889,
      "grad_norm": 1.4637434482574463,
      "learning_rate": 0.0001858635252278284,
      "loss": 2.0906,
      "step": 3190
    },
    {
      "epoch": 0.0709111111111111,
      "grad_norm": 1.472300410270691,
      "learning_rate": 0.00018585907979551012,
      "loss": 1.7587,
      "step": 3191
    },
    {
      "epoch": 0.07093333333333333,
      "grad_norm": 1.302419662475586,
      "learning_rate": 0.00018585463436319183,
      "loss": 1.9788,
      "step": 3192
    },
    {
      "epoch": 0.07095555555555555,
      "grad_norm": 1.4993181228637695,
      "learning_rate": 0.00018585018893087354,
      "loss": 1.7982,
      "step": 3193
    },
    {
      "epoch": 0.07097777777777778,
      "grad_norm": 1.391061782836914,
      "learning_rate": 0.00018584574349855522,
      "loss": 1.6953,
      "step": 3194
    },
    {
      "epoch": 0.071,
      "grad_norm": 1.4594935178756714,
      "learning_rate": 0.00018584129806623696,
      "loss": 1.8619,
      "step": 3195
    },
    {
      "epoch": 0.07102222222222222,
      "grad_norm": 1.8263238668441772,
      "learning_rate": 0.00018583685263391867,
      "loss": 1.9633,
      "step": 3196
    },
    {
      "epoch": 0.07104444444444444,
      "grad_norm": 1.0885010957717896,
      "learning_rate": 0.00018583240720160035,
      "loss": 1.0194,
      "step": 3197
    },
    {
      "epoch": 0.07106666666666667,
      "grad_norm": 1.3592110872268677,
      "learning_rate": 0.0001858279617692821,
      "loss": 1.8874,
      "step": 3198
    },
    {
      "epoch": 0.07108888888888888,
      "grad_norm": 1.5188533067703247,
      "learning_rate": 0.00018582351633696377,
      "loss": 2.103,
      "step": 3199
    },
    {
      "epoch": 0.07111111111111111,
      "grad_norm": 0.9653910398483276,
      "learning_rate": 0.00018581907090464548,
      "loss": 1.0329,
      "step": 3200
    },
    {
      "epoch": 0.07113333333333334,
      "grad_norm": 1.450005054473877,
      "learning_rate": 0.0001858146254723272,
      "loss": 1.4119,
      "step": 3201
    },
    {
      "epoch": 0.07115555555555556,
      "grad_norm": 1.0671168565750122,
      "learning_rate": 0.0001858101800400089,
      "loss": 2.0543,
      "step": 3202
    },
    {
      "epoch": 0.07117777777777778,
      "grad_norm": 1.2091753482818604,
      "learning_rate": 0.00018580573460769058,
      "loss": 2.3077,
      "step": 3203
    },
    {
      "epoch": 0.0712,
      "grad_norm": 1.1918028593063354,
      "learning_rate": 0.00018580128917537232,
      "loss": 2.586,
      "step": 3204
    },
    {
      "epoch": 0.07122222222222223,
      "grad_norm": 1.254113793373108,
      "learning_rate": 0.00018579684374305403,
      "loss": 2.2683,
      "step": 3205
    },
    {
      "epoch": 0.07124444444444444,
      "grad_norm": 1.0458388328552246,
      "learning_rate": 0.00018579239831073574,
      "loss": 1.7775,
      "step": 3206
    },
    {
      "epoch": 0.07126666666666667,
      "grad_norm": 1.2077213525772095,
      "learning_rate": 0.00018578795287841745,
      "loss": 1.9684,
      "step": 3207
    },
    {
      "epoch": 0.07128888888888889,
      "grad_norm": 1.3320894241333008,
      "learning_rate": 0.00018578350744609913,
      "loss": 2.2517,
      "step": 3208
    },
    {
      "epoch": 0.07131111111111112,
      "grad_norm": 1.3747494220733643,
      "learning_rate": 0.00018577906201378087,
      "loss": 2.5526,
      "step": 3209
    },
    {
      "epoch": 0.07133333333333333,
      "grad_norm": 1.362795114517212,
      "learning_rate": 0.00018577461658146255,
      "loss": 2.24,
      "step": 3210
    },
    {
      "epoch": 0.07135555555555556,
      "grad_norm": 1.2927980422973633,
      "learning_rate": 0.00018577017114914426,
      "loss": 2.7523,
      "step": 3211
    },
    {
      "epoch": 0.07137777777777778,
      "grad_norm": 1.3677923679351807,
      "learning_rate": 0.00018576572571682597,
      "loss": 2.0425,
      "step": 3212
    },
    {
      "epoch": 0.0714,
      "grad_norm": 1.250320553779602,
      "learning_rate": 0.00018576128028450768,
      "loss": 2.0995,
      "step": 3213
    },
    {
      "epoch": 0.07142222222222222,
      "grad_norm": 1.1317499876022339,
      "learning_rate": 0.0001857568348521894,
      "loss": 1.8188,
      "step": 3214
    },
    {
      "epoch": 0.07144444444444445,
      "grad_norm": 1.0998951196670532,
      "learning_rate": 0.0001857523894198711,
      "loss": 1.7639,
      "step": 3215
    },
    {
      "epoch": 0.07146666666666666,
      "grad_norm": 1.065973162651062,
      "learning_rate": 0.0001857479439875528,
      "loss": 1.5334,
      "step": 3216
    },
    {
      "epoch": 0.0714888888888889,
      "grad_norm": 1.1874308586120605,
      "learning_rate": 0.0001857434985552345,
      "loss": 2.2267,
      "step": 3217
    },
    {
      "epoch": 0.07151111111111111,
      "grad_norm": 1.1485834121704102,
      "learning_rate": 0.00018573905312291623,
      "loss": 1.911,
      "step": 3218
    },
    {
      "epoch": 0.07153333333333334,
      "grad_norm": 1.3985886573791504,
      "learning_rate": 0.0001857346076905979,
      "loss": 2.3273,
      "step": 3219
    },
    {
      "epoch": 0.07155555555555555,
      "grad_norm": 1.212371587753296,
      "learning_rate": 0.00018573016225827962,
      "loss": 2.0963,
      "step": 3220
    },
    {
      "epoch": 0.07157777777777778,
      "grad_norm": 1.2432383298873901,
      "learning_rate": 0.00018572571682596133,
      "loss": 2.1041,
      "step": 3221
    },
    {
      "epoch": 0.0716,
      "grad_norm": 1.245377779006958,
      "learning_rate": 0.00018572127139364304,
      "loss": 1.9445,
      "step": 3222
    },
    {
      "epoch": 0.07162222222222223,
      "grad_norm": 1.2812609672546387,
      "learning_rate": 0.00018571682596132475,
      "loss": 2.092,
      "step": 3223
    },
    {
      "epoch": 0.07164444444444444,
      "grad_norm": 1.3125207424163818,
      "learning_rate": 0.00018571238052900646,
      "loss": 1.9547,
      "step": 3224
    },
    {
      "epoch": 0.07166666666666667,
      "grad_norm": 1.4647374153137207,
      "learning_rate": 0.00018570793509668817,
      "loss": 1.7872,
      "step": 3225
    },
    {
      "epoch": 0.07168888888888889,
      "grad_norm": 1.5493143796920776,
      "learning_rate": 0.00018570348966436988,
      "loss": 1.9315,
      "step": 3226
    },
    {
      "epoch": 0.07171111111111111,
      "grad_norm": 1.7617371082305908,
      "learning_rate": 0.0001856990442320516,
      "loss": 2.237,
      "step": 3227
    },
    {
      "epoch": 0.07173333333333333,
      "grad_norm": 1.39019775390625,
      "learning_rate": 0.00018569459879973327,
      "loss": 2.4093,
      "step": 3228
    },
    {
      "epoch": 0.07175555555555556,
      "grad_norm": 1.3510781526565552,
      "learning_rate": 0.000185690153367415,
      "loss": 2.1221,
      "step": 3229
    },
    {
      "epoch": 0.07177777777777777,
      "grad_norm": 1.2744882106781006,
      "learning_rate": 0.0001856857079350967,
      "loss": 1.9313,
      "step": 3230
    },
    {
      "epoch": 0.0718,
      "grad_norm": 1.177996039390564,
      "learning_rate": 0.0001856812625027784,
      "loss": 1.5578,
      "step": 3231
    },
    {
      "epoch": 0.07182222222222222,
      "grad_norm": 1.3063701391220093,
      "learning_rate": 0.0001856768170704601,
      "loss": 2.0013,
      "step": 3232
    },
    {
      "epoch": 0.07184444444444445,
      "grad_norm": 1.3159078359603882,
      "learning_rate": 0.00018567237163814182,
      "loss": 2.0254,
      "step": 3233
    },
    {
      "epoch": 0.07186666666666666,
      "grad_norm": 1.2836161851882935,
      "learning_rate": 0.00018566792620582353,
      "loss": 1.7575,
      "step": 3234
    },
    {
      "epoch": 0.07188888888888889,
      "grad_norm": 1.320886492729187,
      "learning_rate": 0.00018566348077350524,
      "loss": 2.0836,
      "step": 3235
    },
    {
      "epoch": 0.0719111111111111,
      "grad_norm": 1.2700814008712769,
      "learning_rate": 0.00018565903534118695,
      "loss": 1.8757,
      "step": 3236
    },
    {
      "epoch": 0.07193333333333334,
      "grad_norm": 1.3701927661895752,
      "learning_rate": 0.00018565458990886863,
      "loss": 2.1828,
      "step": 3237
    },
    {
      "epoch": 0.07195555555555555,
      "grad_norm": 1.2790844440460205,
      "learning_rate": 0.00018565014447655037,
      "loss": 1.7537,
      "step": 3238
    },
    {
      "epoch": 0.07197777777777778,
      "grad_norm": 1.5068280696868896,
      "learning_rate": 0.00018564569904423205,
      "loss": 1.9848,
      "step": 3239
    },
    {
      "epoch": 0.072,
      "grad_norm": 1.5322648286819458,
      "learning_rate": 0.00018564125361191376,
      "loss": 2.3908,
      "step": 3240
    },
    {
      "epoch": 0.07202222222222222,
      "grad_norm": 1.5137754678726196,
      "learning_rate": 0.00018563680817959547,
      "loss": 2.4623,
      "step": 3241
    },
    {
      "epoch": 0.07204444444444444,
      "grad_norm": 1.3661772012710571,
      "learning_rate": 0.00018563236274727718,
      "loss": 2.1133,
      "step": 3242
    },
    {
      "epoch": 0.07206666666666667,
      "grad_norm": 1.356837272644043,
      "learning_rate": 0.00018562791731495889,
      "loss": 1.834,
      "step": 3243
    },
    {
      "epoch": 0.07208888888888888,
      "grad_norm": 1.22430419921875,
      "learning_rate": 0.0001856234718826406,
      "loss": 1.786,
      "step": 3244
    },
    {
      "epoch": 0.07211111111111111,
      "grad_norm": 1.1776831150054932,
      "learning_rate": 0.0001856190264503223,
      "loss": 1.5689,
      "step": 3245
    },
    {
      "epoch": 0.07213333333333333,
      "grad_norm": 1.3597360849380493,
      "learning_rate": 0.00018561458101800402,
      "loss": 2.388,
      "step": 3246
    },
    {
      "epoch": 0.07215555555555556,
      "grad_norm": 1.5380576848983765,
      "learning_rate": 0.00018561013558568572,
      "loss": 1.854,
      "step": 3247
    },
    {
      "epoch": 0.07217777777777777,
      "grad_norm": 1.571637749671936,
      "learning_rate": 0.0001856056901533674,
      "loss": 1.9646,
      "step": 3248
    },
    {
      "epoch": 0.0722,
      "grad_norm": 1.383018136024475,
      "learning_rate": 0.00018560124472104914,
      "loss": 1.6999,
      "step": 3249
    },
    {
      "epoch": 0.07222222222222222,
      "grad_norm": 1.2798205614089966,
      "learning_rate": 0.00018559679928873083,
      "loss": 1.0246,
      "step": 3250
    },
    {
      "epoch": 0.07224444444444444,
      "grad_norm": 0.6936966776847839,
      "learning_rate": 0.00018559235385641254,
      "loss": 1.1929,
      "step": 3251
    },
    {
      "epoch": 0.07226666666666667,
      "grad_norm": 1.1614549160003662,
      "learning_rate": 0.00018558790842409425,
      "loss": 2.5859,
      "step": 3252
    },
    {
      "epoch": 0.07228888888888889,
      "grad_norm": 1.2852308750152588,
      "learning_rate": 0.00018558346299177596,
      "loss": 2.9286,
      "step": 3253
    },
    {
      "epoch": 0.07231111111111112,
      "grad_norm": 0.97017902135849,
      "learning_rate": 0.00018557901755945767,
      "loss": 1.8899,
      "step": 3254
    },
    {
      "epoch": 0.07233333333333333,
      "grad_norm": 1.0069116353988647,
      "learning_rate": 0.00018557457212713937,
      "loss": 1.5767,
      "step": 3255
    },
    {
      "epoch": 0.07235555555555556,
      "grad_norm": 1.1649580001831055,
      "learning_rate": 0.00018557012669482108,
      "loss": 2.1984,
      "step": 3256
    },
    {
      "epoch": 0.07237777777777778,
      "grad_norm": 0.9498484134674072,
      "learning_rate": 0.00018556568126250277,
      "loss": 0.6958,
      "step": 3257
    },
    {
      "epoch": 0.0724,
      "grad_norm": 0.7575570344924927,
      "learning_rate": 0.0001855612358301845,
      "loss": 0.9266,
      "step": 3258
    },
    {
      "epoch": 0.07242222222222222,
      "grad_norm": 1.2204036712646484,
      "learning_rate": 0.00018555679039786619,
      "loss": 2.0346,
      "step": 3259
    },
    {
      "epoch": 0.07244444444444445,
      "grad_norm": 1.2786270380020142,
      "learning_rate": 0.0001855523449655479,
      "loss": 2.3933,
      "step": 3260
    },
    {
      "epoch": 0.07246666666666667,
      "grad_norm": 1.3189749717712402,
      "learning_rate": 0.0001855478995332296,
      "loss": 2.1746,
      "step": 3261
    },
    {
      "epoch": 0.0724888888888889,
      "grad_norm": 1.2783126831054688,
      "learning_rate": 0.00018554345410091131,
      "loss": 2.2306,
      "step": 3262
    },
    {
      "epoch": 0.07251111111111111,
      "grad_norm": 1.2526603937149048,
      "learning_rate": 0.00018553900866859305,
      "loss": 2.1827,
      "step": 3263
    },
    {
      "epoch": 0.07253333333333334,
      "grad_norm": 3.138085126876831,
      "learning_rate": 0.00018553456323627473,
      "loss": 0.1832,
      "step": 3264
    },
    {
      "epoch": 0.07255555555555555,
      "grad_norm": 1.1451914310455322,
      "learning_rate": 0.00018553011780395644,
      "loss": 1.8625,
      "step": 3265
    },
    {
      "epoch": 0.07257777777777778,
      "grad_norm": 1.1237571239471436,
      "learning_rate": 0.00018552567237163815,
      "loss": 1.5942,
      "step": 3266
    },
    {
      "epoch": 0.0726,
      "grad_norm": 1.176329493522644,
      "learning_rate": 0.00018552122693931986,
      "loss": 1.8458,
      "step": 3267
    },
    {
      "epoch": 0.07262222222222223,
      "grad_norm": 1.2657891511917114,
      "learning_rate": 0.00018551678150700155,
      "loss": 1.6219,
      "step": 3268
    },
    {
      "epoch": 0.07264444444444444,
      "grad_norm": 1.6398987770080566,
      "learning_rate": 0.00018551233607468328,
      "loss": 2.2206,
      "step": 3269
    },
    {
      "epoch": 0.07266666666666667,
      "grad_norm": 1.170137643814087,
      "learning_rate": 0.000185507890642365,
      "loss": 2.1818,
      "step": 3270
    },
    {
      "epoch": 0.07268888888888889,
      "grad_norm": 1.1334134340286255,
      "learning_rate": 0.00018550344521004667,
      "loss": 1.6677,
      "step": 3271
    },
    {
      "epoch": 0.07271111111111112,
      "grad_norm": 1.469070315361023,
      "learning_rate": 0.0001854989997777284,
      "loss": 2.4642,
      "step": 3272
    },
    {
      "epoch": 0.07273333333333333,
      "grad_norm": 1.529949426651001,
      "learning_rate": 0.0001854945543454101,
      "loss": 2.3606,
      "step": 3273
    },
    {
      "epoch": 0.07275555555555556,
      "grad_norm": 1.2295321226119995,
      "learning_rate": 0.0001854901089130918,
      "loss": 2.2251,
      "step": 3274
    },
    {
      "epoch": 0.07277777777777777,
      "grad_norm": 1.7624956369400024,
      "learning_rate": 0.0001854856634807735,
      "loss": 2.3783,
      "step": 3275
    },
    {
      "epoch": 0.0728,
      "grad_norm": 1.4810762405395508,
      "learning_rate": 0.00018548121804845522,
      "loss": 2.4524,
      "step": 3276
    },
    {
      "epoch": 0.07282222222222222,
      "grad_norm": 1.3258888721466064,
      "learning_rate": 0.0001854767726161369,
      "loss": 2.1944,
      "step": 3277
    },
    {
      "epoch": 0.07284444444444445,
      "grad_norm": 1.1668721437454224,
      "learning_rate": 0.00018547232718381864,
      "loss": 1.5096,
      "step": 3278
    },
    {
      "epoch": 0.07286666666666666,
      "grad_norm": 1.189149260520935,
      "learning_rate": 0.00018546788175150035,
      "loss": 1.0028,
      "step": 3279
    },
    {
      "epoch": 0.07288888888888889,
      "grad_norm": 1.1918368339538574,
      "learning_rate": 0.00018546343631918206,
      "loss": 1.7321,
      "step": 3280
    },
    {
      "epoch": 0.07291111111111111,
      "grad_norm": 1.2547839879989624,
      "learning_rate": 0.00018545899088686377,
      "loss": 2.1974,
      "step": 3281
    },
    {
      "epoch": 0.07293333333333334,
      "grad_norm": 1.5724372863769531,
      "learning_rate": 0.00018545454545454545,
      "loss": 1.8069,
      "step": 3282
    },
    {
      "epoch": 0.07295555555555555,
      "grad_norm": 1.415132761001587,
      "learning_rate": 0.0001854501000222272,
      "loss": 2.2011,
      "step": 3283
    },
    {
      "epoch": 0.07297777777777778,
      "grad_norm": 1.2512127161026,
      "learning_rate": 0.00018544565458990887,
      "loss": 1.9629,
      "step": 3284
    },
    {
      "epoch": 0.073,
      "grad_norm": 1.2589808702468872,
      "learning_rate": 0.00018544120915759058,
      "loss": 2.0601,
      "step": 3285
    },
    {
      "epoch": 0.07302222222222222,
      "grad_norm": 1.6282298564910889,
      "learning_rate": 0.0001854367637252723,
      "loss": 2.0631,
      "step": 3286
    },
    {
      "epoch": 0.07304444444444444,
      "grad_norm": 1.7478584051132202,
      "learning_rate": 0.000185432318292954,
      "loss": 2.0575,
      "step": 3287
    },
    {
      "epoch": 0.07306666666666667,
      "grad_norm": 1.8844873905181885,
      "learning_rate": 0.0001854278728606357,
      "loss": 2.0351,
      "step": 3288
    },
    {
      "epoch": 0.07308888888888888,
      "grad_norm": 1.3124668598175049,
      "learning_rate": 0.00018542342742831742,
      "loss": 1.705,
      "step": 3289
    },
    {
      "epoch": 0.07311111111111111,
      "grad_norm": 1.5351976156234741,
      "learning_rate": 0.00018541898199599913,
      "loss": 1.6251,
      "step": 3290
    },
    {
      "epoch": 0.07313333333333333,
      "grad_norm": 1.3581308126449585,
      "learning_rate": 0.0001854145365636808,
      "loss": 2.1643,
      "step": 3291
    },
    {
      "epoch": 0.07315555555555556,
      "grad_norm": 1.1872023344039917,
      "learning_rate": 0.00018541009113136255,
      "loss": 1.8228,
      "step": 3292
    },
    {
      "epoch": 0.07317777777777777,
      "grad_norm": 1.2997936010360718,
      "learning_rate": 0.00018540564569904423,
      "loss": 1.9536,
      "step": 3293
    },
    {
      "epoch": 0.0732,
      "grad_norm": 1.4094762802124023,
      "learning_rate": 0.00018540120026672594,
      "loss": 1.9771,
      "step": 3294
    },
    {
      "epoch": 0.07322222222222222,
      "grad_norm": 3.250911235809326,
      "learning_rate": 0.00018539675483440765,
      "loss": 2.0529,
      "step": 3295
    },
    {
      "epoch": 0.07324444444444445,
      "grad_norm": 1.567543625831604,
      "learning_rate": 0.00018539230940208936,
      "loss": 1.8497,
      "step": 3296
    },
    {
      "epoch": 0.07326666666666666,
      "grad_norm": 1.3556450605392456,
      "learning_rate": 0.00018538786396977107,
      "loss": 1.6056,
      "step": 3297
    },
    {
      "epoch": 0.07328888888888889,
      "grad_norm": 1.4467936754226685,
      "learning_rate": 0.00018538341853745278,
      "loss": 1.6848,
      "step": 3298
    },
    {
      "epoch": 0.0733111111111111,
      "grad_norm": 1.2786372900009155,
      "learning_rate": 0.0001853789731051345,
      "loss": 1.6993,
      "step": 3299
    },
    {
      "epoch": 0.07333333333333333,
      "grad_norm": 1.560208797454834,
      "learning_rate": 0.0001853745276728162,
      "loss": 2.208,
      "step": 3300
    },
    {
      "epoch": 0.07335555555555555,
      "grad_norm": 1.2748750448226929,
      "learning_rate": 0.0001853700822404979,
      "loss": 2.8881,
      "step": 3301
    },
    {
      "epoch": 0.07337777777777778,
      "grad_norm": 1.3012605905532837,
      "learning_rate": 0.0001853656368081796,
      "loss": 2.4086,
      "step": 3302
    },
    {
      "epoch": 0.0734,
      "grad_norm": 1.0598418712615967,
      "learning_rate": 0.00018536119137586133,
      "loss": 2.0764,
      "step": 3303
    },
    {
      "epoch": 0.07342222222222222,
      "grad_norm": 1.1563421487808228,
      "learning_rate": 0.000185356745943543,
      "loss": 2.0794,
      "step": 3304
    },
    {
      "epoch": 0.07344444444444445,
      "grad_norm": 1.1678755283355713,
      "learning_rate": 0.00018535230051122472,
      "loss": 2.3423,
      "step": 3305
    },
    {
      "epoch": 0.07346666666666667,
      "grad_norm": 1.1595982313156128,
      "learning_rate": 0.00018534785507890643,
      "loss": 2.1377,
      "step": 3306
    },
    {
      "epoch": 0.0734888888888889,
      "grad_norm": 1.0765740871429443,
      "learning_rate": 0.00018534340964658814,
      "loss": 2.189,
      "step": 3307
    },
    {
      "epoch": 0.07351111111111111,
      "grad_norm": 1.1508079767227173,
      "learning_rate": 0.00018533896421426985,
      "loss": 2.5721,
      "step": 3308
    },
    {
      "epoch": 0.07353333333333334,
      "grad_norm": 1.378800630569458,
      "learning_rate": 0.00018533451878195156,
      "loss": 2.4782,
      "step": 3309
    },
    {
      "epoch": 0.07355555555555555,
      "grad_norm": 1.2660834789276123,
      "learning_rate": 0.00018533007334963327,
      "loss": 2.118,
      "step": 3310
    },
    {
      "epoch": 0.07357777777777778,
      "grad_norm": 0.9212296605110168,
      "learning_rate": 0.00018532562791731495,
      "loss": 1.0606,
      "step": 3311
    },
    {
      "epoch": 0.0736,
      "grad_norm": 1.092615008354187,
      "learning_rate": 0.0001853211824849967,
      "loss": 2.2381,
      "step": 3312
    },
    {
      "epoch": 0.07362222222222223,
      "grad_norm": 1.2031207084655762,
      "learning_rate": 0.00018531673705267837,
      "loss": 2.0134,
      "step": 3313
    },
    {
      "epoch": 0.07364444444444444,
      "grad_norm": 1.151123285293579,
      "learning_rate": 0.00018531229162036008,
      "loss": 2.1517,
      "step": 3314
    },
    {
      "epoch": 0.07366666666666667,
      "grad_norm": 1.074080228805542,
      "learning_rate": 0.0001853078461880418,
      "loss": 1.9847,
      "step": 3315
    },
    {
      "epoch": 0.07368888888888889,
      "grad_norm": 1.1378743648529053,
      "learning_rate": 0.0001853034007557235,
      "loss": 1.8591,
      "step": 3316
    },
    {
      "epoch": 0.07371111111111112,
      "grad_norm": 1.2244162559509277,
      "learning_rate": 0.0001852989553234052,
      "loss": 2.3329,
      "step": 3317
    },
    {
      "epoch": 0.07373333333333333,
      "grad_norm": 1.2962528467178345,
      "learning_rate": 0.00018529450989108692,
      "loss": 1.1951,
      "step": 3318
    },
    {
      "epoch": 0.07375555555555556,
      "grad_norm": 1.0658739805221558,
      "learning_rate": 0.00018529006445876863,
      "loss": 1.3047,
      "step": 3319
    },
    {
      "epoch": 0.07377777777777778,
      "grad_norm": 1.2752010822296143,
      "learning_rate": 0.00018528561902645034,
      "loss": 1.9574,
      "step": 3320
    },
    {
      "epoch": 0.0738,
      "grad_norm": 1.0128380060195923,
      "learning_rate": 0.00018528117359413205,
      "loss": 1.4943,
      "step": 3321
    },
    {
      "epoch": 0.07382222222222222,
      "grad_norm": 1.343968152999878,
      "learning_rate": 0.00018527672816181373,
      "loss": 2.0003,
      "step": 3322
    },
    {
      "epoch": 0.07384444444444445,
      "grad_norm": 1.382271409034729,
      "learning_rate": 0.00018527228272949547,
      "loss": 2.028,
      "step": 3323
    },
    {
      "epoch": 0.07386666666666666,
      "grad_norm": 1.1659868955612183,
      "learning_rate": 0.00018526783729717715,
      "loss": 1.9527,
      "step": 3324
    },
    {
      "epoch": 0.07388888888888889,
      "grad_norm": 1.2338945865631104,
      "learning_rate": 0.00018526339186485886,
      "loss": 2.1587,
      "step": 3325
    },
    {
      "epoch": 0.07391111111111111,
      "grad_norm": 1.2250200510025024,
      "learning_rate": 0.00018525894643254057,
      "loss": 2.1808,
      "step": 3326
    },
    {
      "epoch": 0.07393333333333334,
      "grad_norm": 1.3517470359802246,
      "learning_rate": 0.00018525450100022228,
      "loss": 1.9654,
      "step": 3327
    },
    {
      "epoch": 0.07395555555555555,
      "grad_norm": 1.2386265993118286,
      "learning_rate": 0.000185250055567904,
      "loss": 2.3532,
      "step": 3328
    },
    {
      "epoch": 0.07397777777777778,
      "grad_norm": 1.1578645706176758,
      "learning_rate": 0.0001852456101355857,
      "loss": 1.8651,
      "step": 3329
    },
    {
      "epoch": 0.074,
      "grad_norm": 1.1870566606521606,
      "learning_rate": 0.0001852411647032674,
      "loss": 2.0604,
      "step": 3330
    },
    {
      "epoch": 0.07402222222222223,
      "grad_norm": 1.1565959453582764,
      "learning_rate": 0.0001852367192709491,
      "loss": 1.8398,
      "step": 3331
    },
    {
      "epoch": 0.07404444444444444,
      "grad_norm": 1.6551729440689087,
      "learning_rate": 0.00018523227383863083,
      "loss": 2.0341,
      "step": 3332
    },
    {
      "epoch": 0.07406666666666667,
      "grad_norm": 1.3001614809036255,
      "learning_rate": 0.0001852278284063125,
      "loss": 1.8044,
      "step": 3333
    },
    {
      "epoch": 0.07408888888888888,
      "grad_norm": 1.2458326816558838,
      "learning_rate": 0.00018522338297399422,
      "loss": 2.2024,
      "step": 3334
    },
    {
      "epoch": 0.07411111111111111,
      "grad_norm": 2.5055184364318848,
      "learning_rate": 0.00018521893754167595,
      "loss": 2.2722,
      "step": 3335
    },
    {
      "epoch": 0.07413333333333333,
      "grad_norm": 1.5144240856170654,
      "learning_rate": 0.00018521449210935764,
      "loss": 2.1092,
      "step": 3336
    },
    {
      "epoch": 0.07415555555555556,
      "grad_norm": 1.4910916090011597,
      "learning_rate": 0.00018521004667703937,
      "loss": 1.9947,
      "step": 3337
    },
    {
      "epoch": 0.07417777777777777,
      "grad_norm": 1.3464441299438477,
      "learning_rate": 0.00018520560124472106,
      "loss": 2.264,
      "step": 3338
    },
    {
      "epoch": 0.0742,
      "grad_norm": 1.2051719427108765,
      "learning_rate": 0.00018520115581240277,
      "loss": 1.8006,
      "step": 3339
    },
    {
      "epoch": 0.07422222222222222,
      "grad_norm": 1.360304355621338,
      "learning_rate": 0.00018519671038008448,
      "loss": 2.0445,
      "step": 3340
    },
    {
      "epoch": 0.07424444444444445,
      "grad_norm": 1.3306429386138916,
      "learning_rate": 0.00018519226494776619,
      "loss": 1.8543,
      "step": 3341
    },
    {
      "epoch": 0.07426666666666666,
      "grad_norm": 1.3631885051727295,
      "learning_rate": 0.00018518781951544787,
      "loss": 1.7095,
      "step": 3342
    },
    {
      "epoch": 0.07428888888888889,
      "grad_norm": 1.8065212965011597,
      "learning_rate": 0.0001851833740831296,
      "loss": 2.1346,
      "step": 3343
    },
    {
      "epoch": 0.0743111111111111,
      "grad_norm": 1.2330005168914795,
      "learning_rate": 0.00018517892865081131,
      "loss": 1.9291,
      "step": 3344
    },
    {
      "epoch": 0.07433333333333333,
      "grad_norm": 1.3778694868087769,
      "learning_rate": 0.000185174483218493,
      "loss": 1.8444,
      "step": 3345
    },
    {
      "epoch": 0.07435555555555555,
      "grad_norm": 1.6837142705917358,
      "learning_rate": 0.00018517003778617473,
      "loss": 1.8211,
      "step": 3346
    },
    {
      "epoch": 0.07437777777777778,
      "grad_norm": 1.7540706396102905,
      "learning_rate": 0.00018516559235385642,
      "loss": 2.0199,
      "step": 3347
    },
    {
      "epoch": 0.0744,
      "grad_norm": 1.132103681564331,
      "learning_rate": 0.00018516114692153813,
      "loss": 1.0775,
      "step": 3348
    },
    {
      "epoch": 0.07442222222222222,
      "grad_norm": 1.384882926940918,
      "learning_rate": 0.00018515670148921983,
      "loss": 1.348,
      "step": 3349
    },
    {
      "epoch": 0.07444444444444444,
      "grad_norm": 1.945608377456665,
      "learning_rate": 0.00018515225605690154,
      "loss": 1.6171,
      "step": 3350
    },
    {
      "epoch": 0.07446666666666667,
      "grad_norm": 0.9314131736755371,
      "learning_rate": 0.00018514781062458323,
      "loss": 2.2847,
      "step": 3351
    },
    {
      "epoch": 0.07448888888888888,
      "grad_norm": 1.1078766584396362,
      "learning_rate": 0.00018514336519226496,
      "loss": 2.573,
      "step": 3352
    },
    {
      "epoch": 0.07451111111111111,
      "grad_norm": 1.62334144115448,
      "learning_rate": 0.00018513891975994667,
      "loss": 2.8408,
      "step": 3353
    },
    {
      "epoch": 0.07453333333333333,
      "grad_norm": 1.525193214416504,
      "learning_rate": 0.00018513447432762836,
      "loss": 2.0845,
      "step": 3354
    },
    {
      "epoch": 0.07455555555555556,
      "grad_norm": 1.1216214895248413,
      "learning_rate": 0.0001851300288953101,
      "loss": 1.7651,
      "step": 3355
    },
    {
      "epoch": 0.07457777777777778,
      "grad_norm": 1.3580617904663086,
      "learning_rate": 0.00018512558346299178,
      "loss": 2.6094,
      "step": 3356
    },
    {
      "epoch": 0.0746,
      "grad_norm": 1.0684504508972168,
      "learning_rate": 0.0001851211380306735,
      "loss": 2.1471,
      "step": 3357
    },
    {
      "epoch": 0.07462222222222223,
      "grad_norm": 1.2796941995620728,
      "learning_rate": 0.0001851166925983552,
      "loss": 2.731,
      "step": 3358
    },
    {
      "epoch": 0.07464444444444444,
      "grad_norm": 1.17794930934906,
      "learning_rate": 0.0001851122471660369,
      "loss": 2.105,
      "step": 3359
    },
    {
      "epoch": 0.07466666666666667,
      "grad_norm": 1.3348009586334229,
      "learning_rate": 0.00018510780173371861,
      "loss": 1.9781,
      "step": 3360
    },
    {
      "epoch": 0.07468888888888889,
      "grad_norm": 1.0967626571655273,
      "learning_rate": 0.00018510335630140032,
      "loss": 1.7868,
      "step": 3361
    },
    {
      "epoch": 0.07471111111111112,
      "grad_norm": 1.7560702562332153,
      "learning_rate": 0.00018509891086908203,
      "loss": 1.9523,
      "step": 3362
    },
    {
      "epoch": 0.07473333333333333,
      "grad_norm": 1.2477971315383911,
      "learning_rate": 0.00018509446543676374,
      "loss": 2.2214,
      "step": 3363
    },
    {
      "epoch": 0.07475555555555556,
      "grad_norm": 1.19613778591156,
      "learning_rate": 0.00018509002000444545,
      "loss": 2.3058,
      "step": 3364
    },
    {
      "epoch": 0.07477777777777778,
      "grad_norm": 1.2666854858398438,
      "learning_rate": 0.00018508557457212713,
      "loss": 1.9466,
      "step": 3365
    },
    {
      "epoch": 0.0748,
      "grad_norm": 1.2790480852127075,
      "learning_rate": 0.00018508112913980887,
      "loss": 1.9257,
      "step": 3366
    },
    {
      "epoch": 0.07482222222222222,
      "grad_norm": 1.1811188459396362,
      "learning_rate": 0.00018507668370749055,
      "loss": 1.8595,
      "step": 3367
    },
    {
      "epoch": 0.07484444444444445,
      "grad_norm": 1.2089661359786987,
      "learning_rate": 0.00018507223827517226,
      "loss": 2.119,
      "step": 3368
    },
    {
      "epoch": 0.07486666666666666,
      "grad_norm": 1.2355477809906006,
      "learning_rate": 0.00018506779284285397,
      "loss": 1.7977,
      "step": 3369
    },
    {
      "epoch": 0.0748888888888889,
      "grad_norm": 1.1849489212036133,
      "learning_rate": 0.00018506334741053568,
      "loss": 1.5681,
      "step": 3370
    },
    {
      "epoch": 0.07491111111111111,
      "grad_norm": 1.5108733177185059,
      "learning_rate": 0.0001850589019782174,
      "loss": 2.3001,
      "step": 3371
    },
    {
      "epoch": 0.07493333333333334,
      "grad_norm": 1.1956923007965088,
      "learning_rate": 0.0001850544565458991,
      "loss": 1.7848,
      "step": 3372
    },
    {
      "epoch": 0.07495555555555555,
      "grad_norm": 1.1768664121627808,
      "learning_rate": 0.0001850500111135808,
      "loss": 1.8988,
      "step": 3373
    },
    {
      "epoch": 0.07497777777777778,
      "grad_norm": 1.3499433994293213,
      "learning_rate": 0.00018504556568126252,
      "loss": 1.8989,
      "step": 3374
    },
    {
      "epoch": 0.075,
      "grad_norm": 1.366759181022644,
      "learning_rate": 0.00018504112024894423,
      "loss": 2.4657,
      "step": 3375
    },
    {
      "epoch": 0.07502222222222223,
      "grad_norm": 1.2666727304458618,
      "learning_rate": 0.0001850366748166259,
      "loss": 2.065,
      "step": 3376
    },
    {
      "epoch": 0.07504444444444444,
      "grad_norm": 1.519229769706726,
      "learning_rate": 0.00018503222938430765,
      "loss": 2.1791,
      "step": 3377
    },
    {
      "epoch": 0.07506666666666667,
      "grad_norm": 1.416766881942749,
      "learning_rate": 0.00018502778395198933,
      "loss": 2.108,
      "step": 3378
    },
    {
      "epoch": 0.07508888888888889,
      "grad_norm": 1.2307345867156982,
      "learning_rate": 0.00018502333851967104,
      "loss": 1.968,
      "step": 3379
    },
    {
      "epoch": 0.07511111111111111,
      "grad_norm": 1.315184473991394,
      "learning_rate": 0.00018501889308735275,
      "loss": 2.1619,
      "step": 3380
    },
    {
      "epoch": 0.07513333333333333,
      "grad_norm": 0.40658947825431824,
      "learning_rate": 0.00018501444765503446,
      "loss": 0.0454,
      "step": 3381
    },
    {
      "epoch": 0.07515555555555556,
      "grad_norm": 1.5952562093734741,
      "learning_rate": 0.00018501000222271617,
      "loss": 2.1367,
      "step": 3382
    },
    {
      "epoch": 0.07517777777777777,
      "grad_norm": 1.5650168657302856,
      "learning_rate": 0.00018500555679039788,
      "loss": 2.464,
      "step": 3383
    },
    {
      "epoch": 0.0752,
      "grad_norm": 1.2832249402999878,
      "learning_rate": 0.0001850011113580796,
      "loss": 1.8291,
      "step": 3384
    },
    {
      "epoch": 0.07522222222222222,
      "grad_norm": 1.6439323425292969,
      "learning_rate": 0.00018499666592576127,
      "loss": 2.7184,
      "step": 3385
    },
    {
      "epoch": 0.07524444444444445,
      "grad_norm": 1.3815306425094604,
      "learning_rate": 0.000184992220493443,
      "loss": 2.1463,
      "step": 3386
    },
    {
      "epoch": 0.07526666666666666,
      "grad_norm": 1.3136014938354492,
      "learning_rate": 0.0001849877750611247,
      "loss": 1.7231,
      "step": 3387
    },
    {
      "epoch": 0.07528888888888889,
      "grad_norm": 1.4345208406448364,
      "learning_rate": 0.0001849833296288064,
      "loss": 1.9532,
      "step": 3388
    },
    {
      "epoch": 0.0753111111111111,
      "grad_norm": 1.4720078706741333,
      "learning_rate": 0.0001849788841964881,
      "loss": 2.0113,
      "step": 3389
    },
    {
      "epoch": 0.07533333333333334,
      "grad_norm": 1.3436717987060547,
      "learning_rate": 0.00018497443876416982,
      "loss": 1.9456,
      "step": 3390
    },
    {
      "epoch": 0.07535555555555555,
      "grad_norm": 1.5637962818145752,
      "learning_rate": 0.00018496999333185153,
      "loss": 1.8608,
      "step": 3391
    },
    {
      "epoch": 0.07537777777777778,
      "grad_norm": 1.2686561346054077,
      "learning_rate": 0.00018496554789953324,
      "loss": 1.625,
      "step": 3392
    },
    {
      "epoch": 0.0754,
      "grad_norm": 1.2913857698440552,
      "learning_rate": 0.00018496110246721495,
      "loss": 1.8973,
      "step": 3393
    },
    {
      "epoch": 0.07542222222222222,
      "grad_norm": 1.561462640762329,
      "learning_rate": 0.00018495665703489666,
      "loss": 1.7178,
      "step": 3394
    },
    {
      "epoch": 0.07544444444444444,
      "grad_norm": 1.4434877634048462,
      "learning_rate": 0.00018495221160257837,
      "loss": 2.1639,
      "step": 3395
    },
    {
      "epoch": 0.07546666666666667,
      "grad_norm": 1.6147836446762085,
      "learning_rate": 0.00018494776617026005,
      "loss": 1.8649,
      "step": 3396
    },
    {
      "epoch": 0.07548888888888888,
      "grad_norm": 1.618361234664917,
      "learning_rate": 0.0001849433207379418,
      "loss": 1.9943,
      "step": 3397
    },
    {
      "epoch": 0.07551111111111111,
      "grad_norm": 1.5885554552078247,
      "learning_rate": 0.00018493887530562347,
      "loss": 1.5315,
      "step": 3398
    },
    {
      "epoch": 0.07553333333333333,
      "grad_norm": 1.674157738685608,
      "learning_rate": 0.00018493442987330518,
      "loss": 1.8451,
      "step": 3399
    },
    {
      "epoch": 0.07555555555555556,
      "grad_norm": 1.1902797222137451,
      "learning_rate": 0.0001849299844409869,
      "loss": 0.9804,
      "step": 3400
    },
    {
      "epoch": 0.07557777777777777,
      "grad_norm": 0.760408878326416,
      "learning_rate": 0.0001849255390086686,
      "loss": 1.4658,
      "step": 3401
    },
    {
      "epoch": 0.0756,
      "grad_norm": 0.8293417096138,
      "learning_rate": 0.0001849210935763503,
      "loss": 1.2773,
      "step": 3402
    },
    {
      "epoch": 0.07562222222222222,
      "grad_norm": 1.3957338333129883,
      "learning_rate": 0.00018491664814403202,
      "loss": 0.947,
      "step": 3403
    },
    {
      "epoch": 0.07564444444444444,
      "grad_norm": 1.1274092197418213,
      "learning_rate": 0.00018491220271171373,
      "loss": 2.4067,
      "step": 3404
    },
    {
      "epoch": 0.07566666666666666,
      "grad_norm": 1.2295225858688354,
      "learning_rate": 0.0001849077572793954,
      "loss": 2.7018,
      "step": 3405
    },
    {
      "epoch": 0.07568888888888889,
      "grad_norm": 1.263177514076233,
      "learning_rate": 0.00018490331184707715,
      "loss": 2.4436,
      "step": 3406
    },
    {
      "epoch": 0.07571111111111112,
      "grad_norm": 1.1552603244781494,
      "learning_rate": 0.00018489886641475883,
      "loss": 2.2545,
      "step": 3407
    },
    {
      "epoch": 0.07573333333333333,
      "grad_norm": 1.1881152391433716,
      "learning_rate": 0.00018489442098244054,
      "loss": 2.4022,
      "step": 3408
    },
    {
      "epoch": 0.07575555555555556,
      "grad_norm": 1.275702953338623,
      "learning_rate": 0.00018488997555012228,
      "loss": 1.9104,
      "step": 3409
    },
    {
      "epoch": 0.07577777777777778,
      "grad_norm": 1.3673769235610962,
      "learning_rate": 0.00018488553011780396,
      "loss": 2.2236,
      "step": 3410
    },
    {
      "epoch": 0.0758,
      "grad_norm": 1.2929093837738037,
      "learning_rate": 0.00018488108468548567,
      "loss": 2.1843,
      "step": 3411
    },
    {
      "epoch": 0.07582222222222222,
      "grad_norm": 1.359314203262329,
      "learning_rate": 0.00018487663925316738,
      "loss": 2.1149,
      "step": 3412
    },
    {
      "epoch": 0.07584444444444445,
      "grad_norm": 1.3210586309432983,
      "learning_rate": 0.0001848721938208491,
      "loss": 2.1579,
      "step": 3413
    },
    {
      "epoch": 0.07586666666666667,
      "grad_norm": 1.0641368627548218,
      "learning_rate": 0.0001848677483885308,
      "loss": 1.8042,
      "step": 3414
    },
    {
      "epoch": 0.0758888888888889,
      "grad_norm": 1.3975999355316162,
      "learning_rate": 0.0001848633029562125,
      "loss": 2.6793,
      "step": 3415
    },
    {
      "epoch": 0.07591111111111111,
      "grad_norm": 1.2937467098236084,
      "learning_rate": 0.0001848588575238942,
      "loss": 2.0272,
      "step": 3416
    },
    {
      "epoch": 0.07593333333333334,
      "grad_norm": 1.3563932180404663,
      "learning_rate": 0.00018485441209157593,
      "loss": 2.2837,
      "step": 3417
    },
    {
      "epoch": 0.07595555555555555,
      "grad_norm": 1.334378719329834,
      "learning_rate": 0.00018484996665925764,
      "loss": 2.031,
      "step": 3418
    },
    {
      "epoch": 0.07597777777777778,
      "grad_norm": 1.229436993598938,
      "learning_rate": 0.00018484552122693932,
      "loss": 1.7034,
      "step": 3419
    },
    {
      "epoch": 0.076,
      "grad_norm": 1.3505103588104248,
      "learning_rate": 0.00018484107579462106,
      "loss": 1.733,
      "step": 3420
    },
    {
      "epoch": 0.07602222222222223,
      "grad_norm": 1.242598533630371,
      "learning_rate": 0.00018483663036230274,
      "loss": 2.1144,
      "step": 3421
    },
    {
      "epoch": 0.07604444444444444,
      "grad_norm": 1.3723598718643188,
      "learning_rate": 0.00018483218492998445,
      "loss": 2.4923,
      "step": 3422
    },
    {
      "epoch": 0.07606666666666667,
      "grad_norm": 1.3054099082946777,
      "learning_rate": 0.00018482773949766616,
      "loss": 1.854,
      "step": 3423
    },
    {
      "epoch": 0.07608888888888889,
      "grad_norm": 1.492283582687378,
      "learning_rate": 0.00018482329406534787,
      "loss": 2.3229,
      "step": 3424
    },
    {
      "epoch": 0.07611111111111112,
      "grad_norm": 1.1340991258621216,
      "learning_rate": 0.00018481884863302955,
      "loss": 1.7517,
      "step": 3425
    },
    {
      "epoch": 0.07613333333333333,
      "grad_norm": 1.4965713024139404,
      "learning_rate": 0.00018481440320071129,
      "loss": 2.8053,
      "step": 3426
    },
    {
      "epoch": 0.07615555555555556,
      "grad_norm": 1.3556275367736816,
      "learning_rate": 0.000184809957768393,
      "loss": 1.9228,
      "step": 3427
    },
    {
      "epoch": 0.07617777777777777,
      "grad_norm": 0.9949300289154053,
      "learning_rate": 0.00018480551233607468,
      "loss": 1.6918,
      "step": 3428
    },
    {
      "epoch": 0.0762,
      "grad_norm": 1.1289187669754028,
      "learning_rate": 0.00018480106690375641,
      "loss": 2.0651,
      "step": 3429
    },
    {
      "epoch": 0.07622222222222222,
      "grad_norm": 1.2417426109313965,
      "learning_rate": 0.0001847966214714381,
      "loss": 2.0404,
      "step": 3430
    },
    {
      "epoch": 0.07624444444444445,
      "grad_norm": 1.6051791906356812,
      "learning_rate": 0.00018479217603911983,
      "loss": 2.5234,
      "step": 3431
    },
    {
      "epoch": 0.07626666666666666,
      "grad_norm": 1.1387208700180054,
      "learning_rate": 0.00018478773060680152,
      "loss": 0.7454,
      "step": 3432
    },
    {
      "epoch": 0.07628888888888889,
      "grad_norm": 1.3739467859268188,
      "learning_rate": 0.00018478328517448323,
      "loss": 1.7888,
      "step": 3433
    },
    {
      "epoch": 0.07631111111111111,
      "grad_norm": 1.2826472520828247,
      "learning_rate": 0.00018477883974216494,
      "loss": 1.9529,
      "step": 3434
    },
    {
      "epoch": 0.07633333333333334,
      "grad_norm": 1.4125449657440186,
      "learning_rate": 0.00018477439430984665,
      "loss": 2.1709,
      "step": 3435
    },
    {
      "epoch": 0.07635555555555555,
      "grad_norm": 1.268842339515686,
      "learning_rate": 0.00018476994887752835,
      "loss": 2.0351,
      "step": 3436
    },
    {
      "epoch": 0.07637777777777778,
      "grad_norm": 1.33278489112854,
      "learning_rate": 0.00018476550344521006,
      "loss": 1.6552,
      "step": 3437
    },
    {
      "epoch": 0.0764,
      "grad_norm": 1.6010874509811401,
      "learning_rate": 0.00018476105801289177,
      "loss": 1.9434,
      "step": 3438
    },
    {
      "epoch": 0.07642222222222222,
      "grad_norm": 1.6925970315933228,
      "learning_rate": 0.00018475661258057346,
      "loss": 2.202,
      "step": 3439
    },
    {
      "epoch": 0.07644444444444444,
      "grad_norm": 1.2409571409225464,
      "learning_rate": 0.0001847521671482552,
      "loss": 2.006,
      "step": 3440
    },
    {
      "epoch": 0.07646666666666667,
      "grad_norm": 1.504262089729309,
      "learning_rate": 0.00018474772171593688,
      "loss": 2.2944,
      "step": 3441
    },
    {
      "epoch": 0.07648888888888888,
      "grad_norm": 1.1491262912750244,
      "learning_rate": 0.00018474327628361859,
      "loss": 1.6683,
      "step": 3442
    },
    {
      "epoch": 0.07651111111111111,
      "grad_norm": 1.3025236129760742,
      "learning_rate": 0.0001847388308513003,
      "loss": 2.0945,
      "step": 3443
    },
    {
      "epoch": 0.07653333333333333,
      "grad_norm": 1.6361143589019775,
      "learning_rate": 0.000184734385418982,
      "loss": 2.3858,
      "step": 3444
    },
    {
      "epoch": 0.07655555555555556,
      "grad_norm": 1.5140334367752075,
      "learning_rate": 0.00018472993998666371,
      "loss": 2.0115,
      "step": 3445
    },
    {
      "epoch": 0.07657777777777777,
      "grad_norm": 1.5223745107650757,
      "learning_rate": 0.00018472549455434542,
      "loss": 2.2974,
      "step": 3446
    },
    {
      "epoch": 0.0766,
      "grad_norm": 1.3797028064727783,
      "learning_rate": 0.00018472104912202713,
      "loss": 2.0622,
      "step": 3447
    },
    {
      "epoch": 0.07662222222222222,
      "grad_norm": 1.4724992513656616,
      "learning_rate": 0.00018471660368970882,
      "loss": 1.7984,
      "step": 3448
    },
    {
      "epoch": 0.07664444444444445,
      "grad_norm": 1.4768145084381104,
      "learning_rate": 0.00018471215825739055,
      "loss": 1.8535,
      "step": 3449
    },
    {
      "epoch": 0.07666666666666666,
      "grad_norm": 1.2939058542251587,
      "learning_rate": 0.00018470771282507224,
      "loss": 1.9566,
      "step": 3450
    },
    {
      "epoch": 0.07668888888888889,
      "grad_norm": 1.1560622453689575,
      "learning_rate": 0.00018470326739275397,
      "loss": 2.586,
      "step": 3451
    },
    {
      "epoch": 0.0767111111111111,
      "grad_norm": 0.8209676146507263,
      "learning_rate": 0.00018469882196043565,
      "loss": 1.1835,
      "step": 3452
    },
    {
      "epoch": 0.07673333333333333,
      "grad_norm": 1.0181770324707031,
      "learning_rate": 0.00018469437652811736,
      "loss": 1.9395,
      "step": 3453
    },
    {
      "epoch": 0.07675555555555555,
      "grad_norm": 1.1864060163497925,
      "learning_rate": 0.00018468993109579907,
      "loss": 2.4299,
      "step": 3454
    },
    {
      "epoch": 0.07677777777777778,
      "grad_norm": 1.2893823385238647,
      "learning_rate": 0.00018468548566348078,
      "loss": 2.2946,
      "step": 3455
    },
    {
      "epoch": 0.0768,
      "grad_norm": 1.1601964235305786,
      "learning_rate": 0.0001846810402311625,
      "loss": 2.1538,
      "step": 3456
    },
    {
      "epoch": 0.07682222222222222,
      "grad_norm": 1.2344838380813599,
      "learning_rate": 0.0001846765947988442,
      "loss": 2.1581,
      "step": 3457
    },
    {
      "epoch": 0.07684444444444445,
      "grad_norm": 1.3981658220291138,
      "learning_rate": 0.0001846721493665259,
      "loss": 2.4107,
      "step": 3458
    },
    {
      "epoch": 0.07686666666666667,
      "grad_norm": 1.286293387413025,
      "learning_rate": 0.0001846677039342076,
      "loss": 2.1764,
      "step": 3459
    },
    {
      "epoch": 0.0768888888888889,
      "grad_norm": 1.241084337234497,
      "learning_rate": 0.00018466325850188933,
      "loss": 1.9225,
      "step": 3460
    },
    {
      "epoch": 0.07691111111111111,
      "grad_norm": 1.2202966213226318,
      "learning_rate": 0.00018465881306957101,
      "loss": 1.8707,
      "step": 3461
    },
    {
      "epoch": 0.07693333333333334,
      "grad_norm": 1.1628791093826294,
      "learning_rate": 0.00018465436763725272,
      "loss": 2.0193,
      "step": 3462
    },
    {
      "epoch": 0.07695555555555555,
      "grad_norm": 1.1507421731948853,
      "learning_rate": 0.00018464992220493443,
      "loss": 2.0882,
      "step": 3463
    },
    {
      "epoch": 0.07697777777777778,
      "grad_norm": 1.1908776760101318,
      "learning_rate": 0.00018464547677261614,
      "loss": 2.102,
      "step": 3464
    },
    {
      "epoch": 0.077,
      "grad_norm": 1.1009654998779297,
      "learning_rate": 0.00018464103134029785,
      "loss": 2.0613,
      "step": 3465
    },
    {
      "epoch": 0.07702222222222223,
      "grad_norm": 1.2995816469192505,
      "learning_rate": 0.00018463658590797956,
      "loss": 1.8517,
      "step": 3466
    },
    {
      "epoch": 0.07704444444444444,
      "grad_norm": 1.174272894859314,
      "learning_rate": 0.00018463214047566127,
      "loss": 1.5513,
      "step": 3467
    },
    {
      "epoch": 0.07706666666666667,
      "grad_norm": 1.3458250761032104,
      "learning_rate": 0.00018462769504334295,
      "loss": 1.3634,
      "step": 3468
    },
    {
      "epoch": 0.07708888888888889,
      "grad_norm": 1.2003450393676758,
      "learning_rate": 0.0001846232496110247,
      "loss": 1.9655,
      "step": 3469
    },
    {
      "epoch": 0.07711111111111112,
      "grad_norm": 1.3843733072280884,
      "learning_rate": 0.00018461880417870637,
      "loss": 2.0414,
      "step": 3470
    },
    {
      "epoch": 0.07713333333333333,
      "grad_norm": 1.1063510179519653,
      "learning_rate": 0.0001846143587463881,
      "loss": 1.9021,
      "step": 3471
    },
    {
      "epoch": 0.07715555555555556,
      "grad_norm": 1.4000247716903687,
      "learning_rate": 0.0001846099133140698,
      "loss": 2.0526,
      "step": 3472
    },
    {
      "epoch": 0.07717777777777778,
      "grad_norm": 1.1991673707962036,
      "learning_rate": 0.0001846054678817515,
      "loss": 1.8678,
      "step": 3473
    },
    {
      "epoch": 0.0772,
      "grad_norm": 1.225142240524292,
      "learning_rate": 0.0001846010224494332,
      "loss": 1.9452,
      "step": 3474
    },
    {
      "epoch": 0.07722222222222222,
      "grad_norm": 1.9785882234573364,
      "learning_rate": 0.00018459657701711492,
      "loss": 2.0528,
      "step": 3475
    },
    {
      "epoch": 0.07724444444444445,
      "grad_norm": 1.7890123128890991,
      "learning_rate": 0.00018459213158479663,
      "loss": 1.0974,
      "step": 3476
    },
    {
      "epoch": 0.07726666666666666,
      "grad_norm": 1.4988901615142822,
      "learning_rate": 0.00018458768615247834,
      "loss": 2.0531,
      "step": 3477
    },
    {
      "epoch": 0.0772888888888889,
      "grad_norm": 1.367693543434143,
      "learning_rate": 0.00018458324072016005,
      "loss": 2.3504,
      "step": 3478
    },
    {
      "epoch": 0.07731111111111111,
      "grad_norm": 1.5607545375823975,
      "learning_rate": 0.00018457879528784173,
      "loss": 1.6545,
      "step": 3479
    },
    {
      "epoch": 0.07733333333333334,
      "grad_norm": 1.2028279304504395,
      "learning_rate": 0.00018457434985552347,
      "loss": 1.9468,
      "step": 3480
    },
    {
      "epoch": 0.07735555555555555,
      "grad_norm": 1.423886775970459,
      "learning_rate": 0.00018456990442320515,
      "loss": 1.889,
      "step": 3481
    },
    {
      "epoch": 0.07737777777777778,
      "grad_norm": 0.7290233373641968,
      "learning_rate": 0.00018456545899088686,
      "loss": 0.3994,
      "step": 3482
    },
    {
      "epoch": 0.0774,
      "grad_norm": 1.3803188800811768,
      "learning_rate": 0.0001845610135585686,
      "loss": 2.0634,
      "step": 3483
    },
    {
      "epoch": 0.07742222222222223,
      "grad_norm": 1.4180113077163696,
      "learning_rate": 0.00018455656812625028,
      "loss": 2.3882,
      "step": 3484
    },
    {
      "epoch": 0.07744444444444444,
      "grad_norm": 1.3056670427322388,
      "learning_rate": 0.000184552122693932,
      "loss": 1.9961,
      "step": 3485
    },
    {
      "epoch": 0.07746666666666667,
      "grad_norm": 1.4707244634628296,
      "learning_rate": 0.0001845476772616137,
      "loss": 1.9851,
      "step": 3486
    },
    {
      "epoch": 0.07748888888888888,
      "grad_norm": 1.6690611839294434,
      "learning_rate": 0.0001845432318292954,
      "loss": 2.3228,
      "step": 3487
    },
    {
      "epoch": 0.07751111111111111,
      "grad_norm": 1.2367544174194336,
      "learning_rate": 0.00018453878639697712,
      "loss": 1.8545,
      "step": 3488
    },
    {
      "epoch": 0.07753333333333333,
      "grad_norm": 1.2950916290283203,
      "learning_rate": 0.00018453434096465883,
      "loss": 2.1296,
      "step": 3489
    },
    {
      "epoch": 0.07755555555555556,
      "grad_norm": 1.189381718635559,
      "learning_rate": 0.0001845298955323405,
      "loss": 0.7387,
      "step": 3490
    },
    {
      "epoch": 0.07757777777777777,
      "grad_norm": 1.1289829015731812,
      "learning_rate": 0.00018452545010002225,
      "loss": 1.6084,
      "step": 3491
    },
    {
      "epoch": 0.0776,
      "grad_norm": 1.1105577945709229,
      "learning_rate": 0.00018452100466770396,
      "loss": 1.6848,
      "step": 3492
    },
    {
      "epoch": 0.07762222222222222,
      "grad_norm": 1.3867590427398682,
      "learning_rate": 0.00018451655923538564,
      "loss": 2.1979,
      "step": 3493
    },
    {
      "epoch": 0.07764444444444445,
      "grad_norm": 1.3577754497528076,
      "learning_rate": 0.00018451211380306738,
      "loss": 2.1895,
      "step": 3494
    },
    {
      "epoch": 0.07766666666666666,
      "grad_norm": 1.1534167528152466,
      "learning_rate": 0.00018450766837074906,
      "loss": 1.3549,
      "step": 3495
    },
    {
      "epoch": 0.07768888888888889,
      "grad_norm": 1.7601591348648071,
      "learning_rate": 0.00018450322293843077,
      "loss": 2.0725,
      "step": 3496
    },
    {
      "epoch": 0.0777111111111111,
      "grad_norm": 1.51445734500885,
      "learning_rate": 0.00018449877750611248,
      "loss": 2.457,
      "step": 3497
    },
    {
      "epoch": 0.07773333333333333,
      "grad_norm": 1.122924566268921,
      "learning_rate": 0.0001844943320737942,
      "loss": 1.0034,
      "step": 3498
    },
    {
      "epoch": 0.07775555555555555,
      "grad_norm": 1.2729206085205078,
      "learning_rate": 0.00018448988664147587,
      "loss": 1.4905,
      "step": 3499
    },
    {
      "epoch": 0.07777777777777778,
      "grad_norm": 1.3704026937484741,
      "learning_rate": 0.0001844854412091576,
      "loss": 1.7086,
      "step": 3500
    },
    {
      "epoch": 0.0778,
      "grad_norm": 1.169458031654358,
      "learning_rate": 0.00018448099577683932,
      "loss": 2.3989,
      "step": 3501
    },
    {
      "epoch": 0.07782222222222222,
      "grad_norm": 1.2413055896759033,
      "learning_rate": 0.000184476550344521,
      "loss": 2.8056,
      "step": 3502
    },
    {
      "epoch": 0.07784444444444444,
      "grad_norm": 0.9283324480056763,
      "learning_rate": 0.00018447210491220274,
      "loss": 2.1868,
      "step": 3503
    },
    {
      "epoch": 0.07786666666666667,
      "grad_norm": 1.0944463014602661,
      "learning_rate": 0.00018446765947988442,
      "loss": 2.4525,
      "step": 3504
    },
    {
      "epoch": 0.07788888888888888,
      "grad_norm": 1.040734052658081,
      "learning_rate": 0.00018446321404756613,
      "loss": 2.456,
      "step": 3505
    },
    {
      "epoch": 0.07791111111111111,
      "grad_norm": 1.2531497478485107,
      "learning_rate": 0.00018445876861524784,
      "loss": 2.1874,
      "step": 3506
    },
    {
      "epoch": 0.07793333333333333,
      "grad_norm": 1.0920476913452148,
      "learning_rate": 0.00018445432318292955,
      "loss": 2.5354,
      "step": 3507
    },
    {
      "epoch": 0.07795555555555556,
      "grad_norm": 0.9596732258796692,
      "learning_rate": 0.00018444987775061126,
      "loss": 2.184,
      "step": 3508
    },
    {
      "epoch": 0.07797777777777777,
      "grad_norm": 1.0432252883911133,
      "learning_rate": 0.00018444543231829297,
      "loss": 2.3774,
      "step": 3509
    },
    {
      "epoch": 0.078,
      "grad_norm": 1.034541368484497,
      "learning_rate": 0.00018444098688597468,
      "loss": 2.2227,
      "step": 3510
    },
    {
      "epoch": 0.07802222222222223,
      "grad_norm": 1.1673376560211182,
      "learning_rate": 0.0001844365414536564,
      "loss": 2.1715,
      "step": 3511
    },
    {
      "epoch": 0.07804444444444444,
      "grad_norm": 1.13186514377594,
      "learning_rate": 0.0001844320960213381,
      "loss": 2.2296,
      "step": 3512
    },
    {
      "epoch": 0.07806666666666667,
      "grad_norm": 1.1876461505889893,
      "learning_rate": 0.00018442765058901978,
      "loss": 1.1278,
      "step": 3513
    },
    {
      "epoch": 0.07808888888888889,
      "grad_norm": 1.0793194770812988,
      "learning_rate": 0.00018442320515670152,
      "loss": 2.1435,
      "step": 3514
    },
    {
      "epoch": 0.07811111111111112,
      "grad_norm": 1.3283754587173462,
      "learning_rate": 0.0001844187597243832,
      "loss": 2.4194,
      "step": 3515
    },
    {
      "epoch": 0.07813333333333333,
      "grad_norm": 1.0138556957244873,
      "learning_rate": 0.0001844143142920649,
      "loss": 1.8808,
      "step": 3516
    },
    {
      "epoch": 0.07815555555555556,
      "grad_norm": 1.2677544355392456,
      "learning_rate": 0.00018440986885974662,
      "loss": 2.2068,
      "step": 3517
    },
    {
      "epoch": 0.07817777777777778,
      "grad_norm": 1.4461482763290405,
      "learning_rate": 0.00018440542342742833,
      "loss": 2.0152,
      "step": 3518
    },
    {
      "epoch": 0.0782,
      "grad_norm": 1.2722433805465698,
      "learning_rate": 0.00018440097799511004,
      "loss": 2.3119,
      "step": 3519
    },
    {
      "epoch": 0.07822222222222222,
      "grad_norm": 1.3366338014602661,
      "learning_rate": 0.00018439653256279175,
      "loss": 1.3402,
      "step": 3520
    },
    {
      "epoch": 0.07824444444444445,
      "grad_norm": 1.1577637195587158,
      "learning_rate": 0.00018439208713047346,
      "loss": 2.1692,
      "step": 3521
    },
    {
      "epoch": 0.07826666666666666,
      "grad_norm": 1.166265845298767,
      "learning_rate": 0.00018438764169815514,
      "loss": 2.1591,
      "step": 3522
    },
    {
      "epoch": 0.0782888888888889,
      "grad_norm": 1.3110215663909912,
      "learning_rate": 0.00018438319626583687,
      "loss": 2.0267,
      "step": 3523
    },
    {
      "epoch": 0.07831111111111111,
      "grad_norm": 1.2503719329833984,
      "learning_rate": 0.00018437875083351856,
      "loss": 2.0863,
      "step": 3524
    },
    {
      "epoch": 0.07833333333333334,
      "grad_norm": 1.5013507604599,
      "learning_rate": 0.00018437430540120027,
      "loss": 1.7642,
      "step": 3525
    },
    {
      "epoch": 0.07835555555555555,
      "grad_norm": 1.0705934762954712,
      "learning_rate": 0.00018436985996888198,
      "loss": 1.8557,
      "step": 3526
    },
    {
      "epoch": 0.07837777777777778,
      "grad_norm": 1.474947214126587,
      "learning_rate": 0.00018436541453656369,
      "loss": 2.2498,
      "step": 3527
    },
    {
      "epoch": 0.0784,
      "grad_norm": 1.130644679069519,
      "learning_rate": 0.0001843609691042454,
      "loss": 2.1409,
      "step": 3528
    },
    {
      "epoch": 0.07842222222222223,
      "grad_norm": 1.279459834098816,
      "learning_rate": 0.0001843565236719271,
      "loss": 1.2218,
      "step": 3529
    },
    {
      "epoch": 0.07844444444444444,
      "grad_norm": 1.57211434841156,
      "learning_rate": 0.00018435207823960882,
      "loss": 2.0618,
      "step": 3530
    },
    {
      "epoch": 0.07846666666666667,
      "grad_norm": 1.3878650665283203,
      "learning_rate": 0.00018434763280729052,
      "loss": 2.3256,
      "step": 3531
    },
    {
      "epoch": 0.07848888888888889,
      "grad_norm": 1.353080153465271,
      "learning_rate": 0.00018434318737497223,
      "loss": 2.0595,
      "step": 3532
    },
    {
      "epoch": 0.07851111111111111,
      "grad_norm": 1.2658865451812744,
      "learning_rate": 0.00018433874194265392,
      "loss": 1.9995,
      "step": 3533
    },
    {
      "epoch": 0.07853333333333333,
      "grad_norm": 1.3999888896942139,
      "learning_rate": 0.00018433429651033565,
      "loss": 2.3547,
      "step": 3534
    },
    {
      "epoch": 0.07855555555555556,
      "grad_norm": 1.3804991245269775,
      "learning_rate": 0.00018432985107801734,
      "loss": 2.2289,
      "step": 3535
    },
    {
      "epoch": 0.07857777777777777,
      "grad_norm": 1.2219804525375366,
      "learning_rate": 0.00018432540564569905,
      "loss": 1.7369,
      "step": 3536
    },
    {
      "epoch": 0.0786,
      "grad_norm": 1.2095115184783936,
      "learning_rate": 0.00018432096021338076,
      "loss": 1.8324,
      "step": 3537
    },
    {
      "epoch": 0.07862222222222222,
      "grad_norm": 1.2143144607543945,
      "learning_rate": 0.00018431651478106247,
      "loss": 1.5044,
      "step": 3538
    },
    {
      "epoch": 0.07864444444444445,
      "grad_norm": 1.325598955154419,
      "learning_rate": 0.00018431206934874417,
      "loss": 1.8022,
      "step": 3539
    },
    {
      "epoch": 0.07866666666666666,
      "grad_norm": 1.554053544998169,
      "learning_rate": 0.00018430762391642588,
      "loss": 2.484,
      "step": 3540
    },
    {
      "epoch": 0.07868888888888889,
      "grad_norm": 1.298063039779663,
      "learning_rate": 0.0001843031784841076,
      "loss": 1.7501,
      "step": 3541
    },
    {
      "epoch": 0.0787111111111111,
      "grad_norm": 1.4226232767105103,
      "learning_rate": 0.00018429873305178928,
      "loss": 1.8218,
      "step": 3542
    },
    {
      "epoch": 0.07873333333333334,
      "grad_norm": 1.4770629405975342,
      "learning_rate": 0.000184294287619471,
      "loss": 2.0258,
      "step": 3543
    },
    {
      "epoch": 0.07875555555555555,
      "grad_norm": 1.7609769105911255,
      "learning_rate": 0.0001842898421871527,
      "loss": 2.3438,
      "step": 3544
    },
    {
      "epoch": 0.07877777777777778,
      "grad_norm": 1.478041648864746,
      "learning_rate": 0.00018428539675483443,
      "loss": 1.9367,
      "step": 3545
    },
    {
      "epoch": 0.0788,
      "grad_norm": 1.4286446571350098,
      "learning_rate": 0.00018428095132251611,
      "loss": 1.7178,
      "step": 3546
    },
    {
      "epoch": 0.07882222222222222,
      "grad_norm": 1.3285038471221924,
      "learning_rate": 0.00018427650589019782,
      "loss": 1.9675,
      "step": 3547
    },
    {
      "epoch": 0.07884444444444444,
      "grad_norm": 1.2517716884613037,
      "learning_rate": 0.00018427206045787953,
      "loss": 1.6969,
      "step": 3548
    },
    {
      "epoch": 0.07886666666666667,
      "grad_norm": 1.3864372968673706,
      "learning_rate": 0.00018426761502556124,
      "loss": 1.8481,
      "step": 3549
    },
    {
      "epoch": 0.07888888888888888,
      "grad_norm": 1.818996787071228,
      "learning_rate": 0.00018426316959324295,
      "loss": 1.8749,
      "step": 3550
    },
    {
      "epoch": 0.07891111111111111,
      "grad_norm": 1.0214799642562866,
      "learning_rate": 0.00018425872416092466,
      "loss": 2.3813,
      "step": 3551
    },
    {
      "epoch": 0.07893333333333333,
      "grad_norm": 1.1543335914611816,
      "learning_rate": 0.00018425427872860637,
      "loss": 2.9633,
      "step": 3552
    },
    {
      "epoch": 0.07895555555555556,
      "grad_norm": 1.0040719509124756,
      "learning_rate": 0.00018424983329628806,
      "loss": 2.354,
      "step": 3553
    },
    {
      "epoch": 0.07897777777777777,
      "grad_norm": 1.2549113035202026,
      "learning_rate": 0.0001842453878639698,
      "loss": 2.1434,
      "step": 3554
    },
    {
      "epoch": 0.079,
      "grad_norm": 1.2673051357269287,
      "learning_rate": 0.00018424094243165147,
      "loss": 2.0013,
      "step": 3555
    },
    {
      "epoch": 0.07902222222222222,
      "grad_norm": 1.1167728900909424,
      "learning_rate": 0.00018423649699933318,
      "loss": 1.9597,
      "step": 3556
    },
    {
      "epoch": 0.07904444444444444,
      "grad_norm": 1.2686415910720825,
      "learning_rate": 0.00018423205156701492,
      "loss": 2.2501,
      "step": 3557
    },
    {
      "epoch": 0.07906666666666666,
      "grad_norm": 1.0964961051940918,
      "learning_rate": 0.0001842276061346966,
      "loss": 2.2192,
      "step": 3558
    },
    {
      "epoch": 0.07908888888888889,
      "grad_norm": 1.236358880996704,
      "learning_rate": 0.0001842231607023783,
      "loss": 2.4522,
      "step": 3559
    },
    {
      "epoch": 0.0791111111111111,
      "grad_norm": 1.4324880838394165,
      "learning_rate": 0.00018421871527006002,
      "loss": 2.5656,
      "step": 3560
    },
    {
      "epoch": 0.07913333333333333,
      "grad_norm": 1.134580135345459,
      "learning_rate": 0.00018421426983774173,
      "loss": 2.2437,
      "step": 3561
    },
    {
      "epoch": 0.07915555555555556,
      "grad_norm": 1.2555785179138184,
      "learning_rate": 0.00018420982440542341,
      "loss": 2.4751,
      "step": 3562
    },
    {
      "epoch": 0.07917777777777778,
      "grad_norm": 1.039559245109558,
      "learning_rate": 0.00018420537897310515,
      "loss": 1.6947,
      "step": 3563
    },
    {
      "epoch": 0.0792,
      "grad_norm": 1.424818992614746,
      "learning_rate": 0.00018420093354078683,
      "loss": 1.8682,
      "step": 3564
    },
    {
      "epoch": 0.07922222222222222,
      "grad_norm": 1.4339795112609863,
      "learning_rate": 0.00018419648810846857,
      "loss": 2.4491,
      "step": 3565
    },
    {
      "epoch": 0.07924444444444445,
      "grad_norm": 1.4758858680725098,
      "learning_rate": 0.00018419204267615028,
      "loss": 2.4947,
      "step": 3566
    },
    {
      "epoch": 0.07926666666666667,
      "grad_norm": 1.2654050588607788,
      "learning_rate": 0.00018418759724383196,
      "loss": 2.3357,
      "step": 3567
    },
    {
      "epoch": 0.0792888888888889,
      "grad_norm": 1.2733409404754639,
      "learning_rate": 0.0001841831518115137,
      "loss": 1.6436,
      "step": 3568
    },
    {
      "epoch": 0.07931111111111111,
      "grad_norm": 1.3263685703277588,
      "learning_rate": 0.00018417870637919538,
      "loss": 1.9048,
      "step": 3569
    },
    {
      "epoch": 0.07933333333333334,
      "grad_norm": 1.2005525827407837,
      "learning_rate": 0.0001841742609468771,
      "loss": 2.1377,
      "step": 3570
    },
    {
      "epoch": 0.07935555555555555,
      "grad_norm": 1.3363029956817627,
      "learning_rate": 0.0001841698155145588,
      "loss": 1.865,
      "step": 3571
    },
    {
      "epoch": 0.07937777777777778,
      "grad_norm": 1.3493443727493286,
      "learning_rate": 0.0001841653700822405,
      "loss": 1.879,
      "step": 3572
    },
    {
      "epoch": 0.0794,
      "grad_norm": 1.4277113676071167,
      "learning_rate": 0.0001841609246499222,
      "loss": 2.0551,
      "step": 3573
    },
    {
      "epoch": 0.07942222222222223,
      "grad_norm": 1.341077446937561,
      "learning_rate": 0.00018415647921760393,
      "loss": 1.5885,
      "step": 3574
    },
    {
      "epoch": 0.07944444444444444,
      "grad_norm": 1.4764906167984009,
      "learning_rate": 0.00018415203378528564,
      "loss": 2.3138,
      "step": 3575
    },
    {
      "epoch": 0.07946666666666667,
      "grad_norm": 1.2619186639785767,
      "learning_rate": 0.00018414758835296732,
      "loss": 2.0172,
      "step": 3576
    },
    {
      "epoch": 0.07948888888888889,
      "grad_norm": 1.494451642036438,
      "learning_rate": 0.00018414314292064906,
      "loss": 2.2375,
      "step": 3577
    },
    {
      "epoch": 0.07951111111111112,
      "grad_norm": 1.520302176475525,
      "learning_rate": 0.00018413869748833074,
      "loss": 2.4607,
      "step": 3578
    },
    {
      "epoch": 0.07953333333333333,
      "grad_norm": 1.2348612546920776,
      "learning_rate": 0.00018413425205601245,
      "loss": 1.9818,
      "step": 3579
    },
    {
      "epoch": 0.07955555555555556,
      "grad_norm": 1.3702938556671143,
      "learning_rate": 0.00018412980662369416,
      "loss": 2.2337,
      "step": 3580
    },
    {
      "epoch": 0.07957777777777778,
      "grad_norm": 1.4724692106246948,
      "learning_rate": 0.00018412536119137587,
      "loss": 1.7561,
      "step": 3581
    },
    {
      "epoch": 0.0796,
      "grad_norm": 1.8898265361785889,
      "learning_rate": 0.00018412091575905755,
      "loss": 2.2726,
      "step": 3582
    },
    {
      "epoch": 0.07962222222222222,
      "grad_norm": 1.3017092943191528,
      "learning_rate": 0.0001841164703267393,
      "loss": 1.938,
      "step": 3583
    },
    {
      "epoch": 0.07964444444444445,
      "grad_norm": 1.4305883646011353,
      "learning_rate": 0.000184112024894421,
      "loss": 2.0982,
      "step": 3584
    },
    {
      "epoch": 0.07966666666666666,
      "grad_norm": 1.348796010017395,
      "learning_rate": 0.0001841075794621027,
      "loss": 2.3916,
      "step": 3585
    },
    {
      "epoch": 0.07968888888888889,
      "grad_norm": 1.1848704814910889,
      "learning_rate": 0.00018410313402978442,
      "loss": 1.8635,
      "step": 3586
    },
    {
      "epoch": 0.07971111111111111,
      "grad_norm": 1.4129849672317505,
      "learning_rate": 0.0001840986885974661,
      "loss": 1.8977,
      "step": 3587
    },
    {
      "epoch": 0.07973333333333334,
      "grad_norm": 1.5966459512710571,
      "learning_rate": 0.00018409424316514784,
      "loss": 2.2823,
      "step": 3588
    },
    {
      "epoch": 0.07975555555555555,
      "grad_norm": 1.3832221031188965,
      "learning_rate": 0.00018408979773282952,
      "loss": 1.7791,
      "step": 3589
    },
    {
      "epoch": 0.07977777777777778,
      "grad_norm": 1.5868730545043945,
      "learning_rate": 0.00018408535230051123,
      "loss": 1.6686,
      "step": 3590
    },
    {
      "epoch": 0.0798,
      "grad_norm": 1.3498882055282593,
      "learning_rate": 0.00018408090686819294,
      "loss": 2.0068,
      "step": 3591
    },
    {
      "epoch": 0.07982222222222222,
      "grad_norm": 1.481881022453308,
      "learning_rate": 0.00018407646143587465,
      "loss": 2.3949,
      "step": 3592
    },
    {
      "epoch": 0.07984444444444444,
      "grad_norm": 1.6734768152236938,
      "learning_rate": 0.00018407201600355636,
      "loss": 2.2972,
      "step": 3593
    },
    {
      "epoch": 0.07986666666666667,
      "grad_norm": 1.2737871408462524,
      "learning_rate": 0.00018406757057123807,
      "loss": 1.6486,
      "step": 3594
    },
    {
      "epoch": 0.07988888888888888,
      "grad_norm": 1.4712985754013062,
      "learning_rate": 0.00018406312513891978,
      "loss": 1.9414,
      "step": 3595
    },
    {
      "epoch": 0.07991111111111111,
      "grad_norm": 1.5442465543746948,
      "learning_rate": 0.00018405867970660146,
      "loss": 2.4666,
      "step": 3596
    },
    {
      "epoch": 0.07993333333333333,
      "grad_norm": 1.4952188730239868,
      "learning_rate": 0.0001840542342742832,
      "loss": 1.9409,
      "step": 3597
    },
    {
      "epoch": 0.07995555555555556,
      "grad_norm": 1.2679736614227295,
      "learning_rate": 0.00018404978884196488,
      "loss": 1.6859,
      "step": 3598
    },
    {
      "epoch": 0.07997777777777777,
      "grad_norm": 1.4676672220230103,
      "learning_rate": 0.0001840453434096466,
      "loss": 1.5231,
      "step": 3599
    },
    {
      "epoch": 0.08,
      "grad_norm": 1.2791333198547363,
      "learning_rate": 0.0001840408979773283,
      "loss": 1.1194,
      "step": 3600
    },
    {
      "epoch": 0.08002222222222222,
      "grad_norm": 0.7651627659797668,
      "learning_rate": 0.00018403645254501,
      "loss": 1.0419,
      "step": 3601
    },
    {
      "epoch": 0.08004444444444445,
      "grad_norm": 1.0922318696975708,
      "learning_rate": 0.00018403200711269172,
      "loss": 2.7505,
      "step": 3602
    },
    {
      "epoch": 0.08006666666666666,
      "grad_norm": 1.0344644784927368,
      "learning_rate": 0.00018402756168037343,
      "loss": 2.0838,
      "step": 3603
    },
    {
      "epoch": 0.08008888888888889,
      "grad_norm": 1.3135956525802612,
      "learning_rate": 0.00018402311624805514,
      "loss": 2.3239,
      "step": 3604
    },
    {
      "epoch": 0.0801111111111111,
      "grad_norm": 1.2219730615615845,
      "learning_rate": 0.00018401867081573685,
      "loss": 2.454,
      "step": 3605
    },
    {
      "epoch": 0.08013333333333333,
      "grad_norm": 1.4561711549758911,
      "learning_rate": 0.00018401422538341856,
      "loss": 2.2534,
      "step": 3606
    },
    {
      "epoch": 0.08015555555555555,
      "grad_norm": 1.7876352071762085,
      "learning_rate": 0.00018400977995110024,
      "loss": 2.3091,
      "step": 3607
    },
    {
      "epoch": 0.08017777777777778,
      "grad_norm": 1.3025296926498413,
      "learning_rate": 0.00018400533451878198,
      "loss": 1.9115,
      "step": 3608
    },
    {
      "epoch": 0.0802,
      "grad_norm": 1.2429578304290771,
      "learning_rate": 0.00018400088908646366,
      "loss": 2.3551,
      "step": 3609
    },
    {
      "epoch": 0.08022222222222222,
      "grad_norm": 1.2455662488937378,
      "learning_rate": 0.00018399644365414537,
      "loss": 1.9897,
      "step": 3610
    },
    {
      "epoch": 0.08024444444444444,
      "grad_norm": 1.1080116033554077,
      "learning_rate": 0.00018399199822182708,
      "loss": 2.0657,
      "step": 3611
    },
    {
      "epoch": 0.08026666666666667,
      "grad_norm": 1.262728214263916,
      "learning_rate": 0.0001839875527895088,
      "loss": 1.9923,
      "step": 3612
    },
    {
      "epoch": 0.0802888888888889,
      "grad_norm": 1.3619056940078735,
      "learning_rate": 0.0001839831073571905,
      "loss": 2.532,
      "step": 3613
    },
    {
      "epoch": 0.08031111111111111,
      "grad_norm": 1.1964768171310425,
      "learning_rate": 0.0001839786619248722,
      "loss": 1.7188,
      "step": 3614
    },
    {
      "epoch": 0.08033333333333334,
      "grad_norm": 1.2625559568405151,
      "learning_rate": 0.00018397421649255392,
      "loss": 2.0738,
      "step": 3615
    },
    {
      "epoch": 0.08035555555555556,
      "grad_norm": 1.1889249086380005,
      "learning_rate": 0.0001839697710602356,
      "loss": 1.623,
      "step": 3616
    },
    {
      "epoch": 0.08037777777777778,
      "grad_norm": 1.612296462059021,
      "learning_rate": 0.00018396532562791734,
      "loss": 1.7417,
      "step": 3617
    },
    {
      "epoch": 0.0804,
      "grad_norm": 1.2993457317352295,
      "learning_rate": 0.00018396088019559902,
      "loss": 1.9965,
      "step": 3618
    },
    {
      "epoch": 0.08042222222222223,
      "grad_norm": 1.466341495513916,
      "learning_rate": 0.00018395643476328073,
      "loss": 2.2562,
      "step": 3619
    },
    {
      "epoch": 0.08044444444444444,
      "grad_norm": 1.3218737840652466,
      "learning_rate": 0.00018395198933096244,
      "loss": 2.2346,
      "step": 3620
    },
    {
      "epoch": 0.08046666666666667,
      "grad_norm": 1.260883092880249,
      "learning_rate": 0.00018394754389864415,
      "loss": 1.9729,
      "step": 3621
    },
    {
      "epoch": 0.08048888888888889,
      "grad_norm": 1.4265375137329102,
      "learning_rate": 0.00018394309846632586,
      "loss": 2.0401,
      "step": 3622
    },
    {
      "epoch": 0.08051111111111112,
      "grad_norm": 1.3545376062393188,
      "learning_rate": 0.00018393865303400757,
      "loss": 2.4058,
      "step": 3623
    },
    {
      "epoch": 0.08053333333333333,
      "grad_norm": 1.4232828617095947,
      "learning_rate": 0.00018393420760168928,
      "loss": 2.2824,
      "step": 3624
    },
    {
      "epoch": 0.08055555555555556,
      "grad_norm": 0.9449294209480286,
      "learning_rate": 0.00018392976216937099,
      "loss": 0.0438,
      "step": 3625
    },
    {
      "epoch": 0.08057777777777778,
      "grad_norm": 1.272674560546875,
      "learning_rate": 0.0001839253167370527,
      "loss": 2.1593,
      "step": 3626
    },
    {
      "epoch": 0.0806,
      "grad_norm": 1.3517484664916992,
      "learning_rate": 0.00018392087130473438,
      "loss": 2.211,
      "step": 3627
    },
    {
      "epoch": 0.08062222222222222,
      "grad_norm": 1.4165470600128174,
      "learning_rate": 0.00018391642587241611,
      "loss": 2.1065,
      "step": 3628
    },
    {
      "epoch": 0.08064444444444445,
      "grad_norm": 1.3025490045547485,
      "learning_rate": 0.0001839119804400978,
      "loss": 1.9093,
      "step": 3629
    },
    {
      "epoch": 0.08066666666666666,
      "grad_norm": 1.5448799133300781,
      "learning_rate": 0.0001839075350077795,
      "loss": 1.6284,
      "step": 3630
    },
    {
      "epoch": 0.0806888888888889,
      "grad_norm": 1.2619613409042358,
      "learning_rate": 0.00018390308957546124,
      "loss": 1.8745,
      "step": 3631
    },
    {
      "epoch": 0.08071111111111111,
      "grad_norm": 1.32402503490448,
      "learning_rate": 0.00018389864414314293,
      "loss": 2.0141,
      "step": 3632
    },
    {
      "epoch": 0.08073333333333334,
      "grad_norm": 1.556218147277832,
      "learning_rate": 0.00018389419871082463,
      "loss": 1.2302,
      "step": 3633
    },
    {
      "epoch": 0.08075555555555555,
      "grad_norm": 1.385074257850647,
      "learning_rate": 0.00018388975327850634,
      "loss": 2.2311,
      "step": 3634
    },
    {
      "epoch": 0.08077777777777778,
      "grad_norm": 1.218326449394226,
      "learning_rate": 0.00018388530784618805,
      "loss": 2.0609,
      "step": 3635
    },
    {
      "epoch": 0.0808,
      "grad_norm": 1.3882129192352295,
      "learning_rate": 0.00018388086241386974,
      "loss": 1.8298,
      "step": 3636
    },
    {
      "epoch": 0.08082222222222223,
      "grad_norm": 1.1702189445495605,
      "learning_rate": 0.00018387641698155147,
      "loss": 1.7865,
      "step": 3637
    },
    {
      "epoch": 0.08084444444444444,
      "grad_norm": 1.167648196220398,
      "learning_rate": 0.00018387197154923316,
      "loss": 1.1477,
      "step": 3638
    },
    {
      "epoch": 0.08086666666666667,
      "grad_norm": 1.306415319442749,
      "learning_rate": 0.00018386752611691487,
      "loss": 1.7242,
      "step": 3639
    },
    {
      "epoch": 0.08088888888888889,
      "grad_norm": 1.4472483396530151,
      "learning_rate": 0.0001838630806845966,
      "loss": 1.9575,
      "step": 3640
    },
    {
      "epoch": 0.08091111111111111,
      "grad_norm": 1.3238056898117065,
      "learning_rate": 0.00018385863525227828,
      "loss": 1.7657,
      "step": 3641
    },
    {
      "epoch": 0.08093333333333333,
      "grad_norm": 1.3369293212890625,
      "learning_rate": 0.00018385418981996002,
      "loss": 2.0152,
      "step": 3642
    },
    {
      "epoch": 0.08095555555555556,
      "grad_norm": 1.4356917142868042,
      "learning_rate": 0.0001838497443876417,
      "loss": 2.0038,
      "step": 3643
    },
    {
      "epoch": 0.08097777777777777,
      "grad_norm": 1.1998122930526733,
      "learning_rate": 0.00018384529895532341,
      "loss": 1.6939,
      "step": 3644
    },
    {
      "epoch": 0.081,
      "grad_norm": 1.652801275253296,
      "learning_rate": 0.00018384085352300512,
      "loss": 1.8866,
      "step": 3645
    },
    {
      "epoch": 0.08102222222222222,
      "grad_norm": 1.295859456062317,
      "learning_rate": 0.00018383640809068683,
      "loss": 1.6522,
      "step": 3646
    },
    {
      "epoch": 0.08104444444444445,
      "grad_norm": 1.3272781372070312,
      "learning_rate": 0.00018383196265836852,
      "loss": 1.7942,
      "step": 3647
    },
    {
      "epoch": 0.08106666666666666,
      "grad_norm": 1.575764775276184,
      "learning_rate": 0.00018382751722605025,
      "loss": 1.0909,
      "step": 3648
    },
    {
      "epoch": 0.08108888888888889,
      "grad_norm": 1.3105343580245972,
      "learning_rate": 0.00018382307179373196,
      "loss": 1.5595,
      "step": 3649
    },
    {
      "epoch": 0.0811111111111111,
      "grad_norm": 1.3594954013824463,
      "learning_rate": 0.00018381862636141364,
      "loss": 0.3612,
      "step": 3650
    },
    {
      "epoch": 0.08113333333333334,
      "grad_norm": 1.2009679079055786,
      "learning_rate": 0.00018381418092909538,
      "loss": 1.3815,
      "step": 3651
    },
    {
      "epoch": 0.08115555555555555,
      "grad_norm": 1.504106879234314,
      "learning_rate": 0.00018380973549677706,
      "loss": 2.34,
      "step": 3652
    },
    {
      "epoch": 0.08117777777777778,
      "grad_norm": 1.378600001335144,
      "learning_rate": 0.00018380529006445877,
      "loss": 2.2169,
      "step": 3653
    },
    {
      "epoch": 0.0812,
      "grad_norm": 1.3567134141921997,
      "learning_rate": 0.00018380084463214048,
      "loss": 2.0908,
      "step": 3654
    },
    {
      "epoch": 0.08122222222222222,
      "grad_norm": 1.2840567827224731,
      "learning_rate": 0.0001837963991998222,
      "loss": 2.4718,
      "step": 3655
    },
    {
      "epoch": 0.08124444444444444,
      "grad_norm": 1.2164989709854126,
      "learning_rate": 0.00018379195376750387,
      "loss": 2.1918,
      "step": 3656
    },
    {
      "epoch": 0.08126666666666667,
      "grad_norm": 1.2970621585845947,
      "learning_rate": 0.0001837875083351856,
      "loss": 2.5404,
      "step": 3657
    },
    {
      "epoch": 0.08128888888888888,
      "grad_norm": 1.6917527914047241,
      "learning_rate": 0.00018378306290286732,
      "loss": 2.6029,
      "step": 3658
    },
    {
      "epoch": 0.08131111111111111,
      "grad_norm": 1.423792839050293,
      "learning_rate": 0.00018377861747054903,
      "loss": 2.3866,
      "step": 3659
    },
    {
      "epoch": 0.08133333333333333,
      "grad_norm": 1.0677741765975952,
      "learning_rate": 0.00018377417203823074,
      "loss": 1.837,
      "step": 3660
    },
    {
      "epoch": 0.08135555555555556,
      "grad_norm": 1.362773060798645,
      "learning_rate": 0.00018376972660591242,
      "loss": 2.1794,
      "step": 3661
    },
    {
      "epoch": 0.08137777777777777,
      "grad_norm": 1.1057037115097046,
      "learning_rate": 0.00018376528117359416,
      "loss": 1.7721,
      "step": 3662
    },
    {
      "epoch": 0.0814,
      "grad_norm": 1.3051068782806396,
      "learning_rate": 0.00018376083574127584,
      "loss": 2.2466,
      "step": 3663
    },
    {
      "epoch": 0.08142222222222223,
      "grad_norm": 1.3648536205291748,
      "learning_rate": 0.00018375639030895755,
      "loss": 2.5114,
      "step": 3664
    },
    {
      "epoch": 0.08144444444444444,
      "grad_norm": 1.2011499404907227,
      "learning_rate": 0.00018375194487663926,
      "loss": 1.7476,
      "step": 3665
    },
    {
      "epoch": 0.08146666666666667,
      "grad_norm": 1.173875093460083,
      "learning_rate": 0.00018374749944432097,
      "loss": 2.1159,
      "step": 3666
    },
    {
      "epoch": 0.08148888888888889,
      "grad_norm": 1.375784158706665,
      "learning_rate": 0.00018374305401200268,
      "loss": 2.0589,
      "step": 3667
    },
    {
      "epoch": 0.08151111111111112,
      "grad_norm": 1.263965368270874,
      "learning_rate": 0.0001837386085796844,
      "loss": 1.8981,
      "step": 3668
    },
    {
      "epoch": 0.08153333333333333,
      "grad_norm": 1.5320152044296265,
      "learning_rate": 0.0001837341631473661,
      "loss": 2.6019,
      "step": 3669
    },
    {
      "epoch": 0.08155555555555556,
      "grad_norm": 1.3832933902740479,
      "learning_rate": 0.00018372971771504778,
      "loss": 1.7914,
      "step": 3670
    },
    {
      "epoch": 0.08157777777777778,
      "grad_norm": 1.9614989757537842,
      "learning_rate": 0.00018372527228272952,
      "loss": 1.8868,
      "step": 3671
    },
    {
      "epoch": 0.0816,
      "grad_norm": 1.3117355108261108,
      "learning_rate": 0.0001837208268504112,
      "loss": 2.5962,
      "step": 3672
    },
    {
      "epoch": 0.08162222222222222,
      "grad_norm": 1.5149602890014648,
      "learning_rate": 0.0001837163814180929,
      "loss": 1.731,
      "step": 3673
    },
    {
      "epoch": 0.08164444444444445,
      "grad_norm": 1.4484587907791138,
      "learning_rate": 0.00018371193598577462,
      "loss": 1.6353,
      "step": 3674
    },
    {
      "epoch": 0.08166666666666667,
      "grad_norm": 1.5084599256515503,
      "learning_rate": 0.00018370749055345633,
      "loss": 2.4353,
      "step": 3675
    },
    {
      "epoch": 0.0816888888888889,
      "grad_norm": 1.3500257730484009,
      "learning_rate": 0.00018370304512113804,
      "loss": 2.3369,
      "step": 3676
    },
    {
      "epoch": 0.08171111111111111,
      "grad_norm": 1.5253559350967407,
      "learning_rate": 0.00018369859968881975,
      "loss": 1.9887,
      "step": 3677
    },
    {
      "epoch": 0.08173333333333334,
      "grad_norm": 1.4120569229125977,
      "learning_rate": 0.00018369415425650146,
      "loss": 2.2231,
      "step": 3678
    },
    {
      "epoch": 0.08175555555555555,
      "grad_norm": 1.1387830972671509,
      "learning_rate": 0.00018368970882418317,
      "loss": 1.9658,
      "step": 3679
    },
    {
      "epoch": 0.08177777777777778,
      "grad_norm": 1.6434063911437988,
      "learning_rate": 0.00018368526339186488,
      "loss": 2.3205,
      "step": 3680
    },
    {
      "epoch": 0.0818,
      "grad_norm": 1.296899437904358,
      "learning_rate": 0.00018368081795954656,
      "loss": 1.744,
      "step": 3681
    },
    {
      "epoch": 0.08182222222222223,
      "grad_norm": 1.2624237537384033,
      "learning_rate": 0.0001836763725272283,
      "loss": 2.0235,
      "step": 3682
    },
    {
      "epoch": 0.08184444444444444,
      "grad_norm": 1.5623878240585327,
      "learning_rate": 0.00018367192709490998,
      "loss": 2.1944,
      "step": 3683
    },
    {
      "epoch": 0.08186666666666667,
      "grad_norm": 1.5247491598129272,
      "learning_rate": 0.0001836674816625917,
      "loss": 2.3596,
      "step": 3684
    },
    {
      "epoch": 0.08188888888888889,
      "grad_norm": 1.2370851039886475,
      "learning_rate": 0.0001836630362302734,
      "loss": 2.0781,
      "step": 3685
    },
    {
      "epoch": 0.08191111111111112,
      "grad_norm": 1.3484132289886475,
      "learning_rate": 0.0001836585907979551,
      "loss": 2.3458,
      "step": 3686
    },
    {
      "epoch": 0.08193333333333333,
      "grad_norm": 1.4338109493255615,
      "learning_rate": 0.00018365414536563682,
      "loss": 2.4587,
      "step": 3687
    },
    {
      "epoch": 0.08195555555555556,
      "grad_norm": 1.4265894889831543,
      "learning_rate": 0.00018364969993331853,
      "loss": 2.2896,
      "step": 3688
    },
    {
      "epoch": 0.08197777777777777,
      "grad_norm": 1.4162578582763672,
      "learning_rate": 0.00018364525450100024,
      "loss": 2.1227,
      "step": 3689
    },
    {
      "epoch": 0.082,
      "grad_norm": 1.510770559310913,
      "learning_rate": 0.00018364080906868192,
      "loss": 2.1402,
      "step": 3690
    },
    {
      "epoch": 0.08202222222222222,
      "grad_norm": 1.2629023790359497,
      "learning_rate": 0.00018363636363636366,
      "loss": 2.0158,
      "step": 3691
    },
    {
      "epoch": 0.08204444444444445,
      "grad_norm": 1.305181622505188,
      "learning_rate": 0.00018363191820404534,
      "loss": 1.8069,
      "step": 3692
    },
    {
      "epoch": 0.08206666666666666,
      "grad_norm": 1.3685085773468018,
      "learning_rate": 0.00018362747277172705,
      "loss": 2.0623,
      "step": 3693
    },
    {
      "epoch": 0.08208888888888889,
      "grad_norm": 1.4363067150115967,
      "learning_rate": 0.00018362302733940876,
      "loss": 2.2537,
      "step": 3694
    },
    {
      "epoch": 0.08211111111111111,
      "grad_norm": 1.0464816093444824,
      "learning_rate": 0.00018361858190709047,
      "loss": 1.5119,
      "step": 3695
    },
    {
      "epoch": 0.08213333333333334,
      "grad_norm": 1.2719902992248535,
      "learning_rate": 0.00018361413647477218,
      "loss": 1.6483,
      "step": 3696
    },
    {
      "epoch": 0.08215555555555555,
      "grad_norm": 1.4137662649154663,
      "learning_rate": 0.0001836096910424539,
      "loss": 1.8361,
      "step": 3697
    },
    {
      "epoch": 0.08217777777777778,
      "grad_norm": 1.267458200454712,
      "learning_rate": 0.0001836052456101356,
      "loss": 1.7088,
      "step": 3698
    },
    {
      "epoch": 0.0822,
      "grad_norm": 1.7159905433654785,
      "learning_rate": 0.0001836008001778173,
      "loss": 2.0834,
      "step": 3699
    },
    {
      "epoch": 0.08222222222222222,
      "grad_norm": 1.3477818965911865,
      "learning_rate": 0.00018359635474549902,
      "loss": 0.6832,
      "step": 3700
    },
    {
      "epoch": 0.08224444444444444,
      "grad_norm": 1.3076441287994385,
      "learning_rate": 0.0001835919093131807,
      "loss": 2.6709,
      "step": 3701
    },
    {
      "epoch": 0.08226666666666667,
      "grad_norm": 1.1363846063613892,
      "learning_rate": 0.00018358746388086244,
      "loss": 2.3923,
      "step": 3702
    },
    {
      "epoch": 0.08228888888888888,
      "grad_norm": 1.495496153831482,
      "learning_rate": 0.00018358301844854412,
      "loss": 2.3562,
      "step": 3703
    },
    {
      "epoch": 0.08231111111111111,
      "grad_norm": 1.2286193370819092,
      "learning_rate": 0.00018357857301622583,
      "loss": 2.5056,
      "step": 3704
    },
    {
      "epoch": 0.08233333333333333,
      "grad_norm": 1.1402894258499146,
      "learning_rate": 0.00018357412758390756,
      "loss": 1.9959,
      "step": 3705
    },
    {
      "epoch": 0.08235555555555556,
      "grad_norm": 1.7085946798324585,
      "learning_rate": 0.00018356968215158925,
      "loss": 1.7225,
      "step": 3706
    },
    {
      "epoch": 0.08237777777777777,
      "grad_norm": 1.388522982597351,
      "learning_rate": 0.00018356523671927096,
      "loss": 2.2679,
      "step": 3707
    },
    {
      "epoch": 0.0824,
      "grad_norm": 1.1444454193115234,
      "learning_rate": 0.00018356079128695267,
      "loss": 2.4866,
      "step": 3708
    },
    {
      "epoch": 0.08242222222222222,
      "grad_norm": 1.2037158012390137,
      "learning_rate": 0.00018355634585463438,
      "loss": 1.9698,
      "step": 3709
    },
    {
      "epoch": 0.08244444444444445,
      "grad_norm": 1.2525960206985474,
      "learning_rate": 0.00018355190042231606,
      "loss": 2.1183,
      "step": 3710
    },
    {
      "epoch": 0.08246666666666666,
      "grad_norm": 1.2685823440551758,
      "learning_rate": 0.0001835474549899978,
      "loss": 2.3999,
      "step": 3711
    },
    {
      "epoch": 0.08248888888888889,
      "grad_norm": 1.1982176303863525,
      "learning_rate": 0.00018354300955767948,
      "loss": 2.1479,
      "step": 3712
    },
    {
      "epoch": 0.0825111111111111,
      "grad_norm": 1.1716853380203247,
      "learning_rate": 0.0001835385641253612,
      "loss": 2.0812,
      "step": 3713
    },
    {
      "epoch": 0.08253333333333333,
      "grad_norm": 1.269726037979126,
      "learning_rate": 0.00018353411869304292,
      "loss": 1.6473,
      "step": 3714
    },
    {
      "epoch": 0.08255555555555555,
      "grad_norm": 1.376862645149231,
      "learning_rate": 0.0001835296732607246,
      "loss": 2.0835,
      "step": 3715
    },
    {
      "epoch": 0.08257777777777778,
      "grad_norm": 1.4289859533309937,
      "learning_rate": 0.00018352522782840634,
      "loss": 2.2132,
      "step": 3716
    },
    {
      "epoch": 0.0826,
      "grad_norm": 1.2596189975738525,
      "learning_rate": 0.00018352078239608803,
      "loss": 2.0538,
      "step": 3717
    },
    {
      "epoch": 0.08262222222222222,
      "grad_norm": 1.392706274986267,
      "learning_rate": 0.00018351633696376974,
      "loss": 1.8508,
      "step": 3718
    },
    {
      "epoch": 0.08264444444444445,
      "grad_norm": 1.222619652748108,
      "learning_rate": 0.00018351189153145145,
      "loss": 2.019,
      "step": 3719
    },
    {
      "epoch": 0.08266666666666667,
      "grad_norm": 1.2307435274124146,
      "learning_rate": 0.00018350744609913315,
      "loss": 2.0585,
      "step": 3720
    },
    {
      "epoch": 0.0826888888888889,
      "grad_norm": 1.7775535583496094,
      "learning_rate": 0.00018350300066681484,
      "loss": 2.5409,
      "step": 3721
    },
    {
      "epoch": 0.08271111111111111,
      "grad_norm": 1.337125301361084,
      "learning_rate": 0.00018349855523449657,
      "loss": 2.396,
      "step": 3722
    },
    {
      "epoch": 0.08273333333333334,
      "grad_norm": 1.3704264163970947,
      "learning_rate": 0.00018349410980217828,
      "loss": 2.3751,
      "step": 3723
    },
    {
      "epoch": 0.08275555555555555,
      "grad_norm": 1.3984158039093018,
      "learning_rate": 0.00018348966436985997,
      "loss": 2.1248,
      "step": 3724
    },
    {
      "epoch": 0.08277777777777778,
      "grad_norm": 1.2886028289794922,
      "learning_rate": 0.0001834852189375417,
      "loss": 2.1778,
      "step": 3725
    },
    {
      "epoch": 0.0828,
      "grad_norm": 1.1951922178268433,
      "learning_rate": 0.00018348077350522339,
      "loss": 1.9336,
      "step": 3726
    },
    {
      "epoch": 0.08282222222222223,
      "grad_norm": 1.3340922594070435,
      "learning_rate": 0.0001834763280729051,
      "loss": 2.0582,
      "step": 3727
    },
    {
      "epoch": 0.08284444444444444,
      "grad_norm": 1.9350781440734863,
      "learning_rate": 0.0001834718826405868,
      "loss": 2.2931,
      "step": 3728
    },
    {
      "epoch": 0.08286666666666667,
      "grad_norm": 1.3482329845428467,
      "learning_rate": 0.00018346743720826851,
      "loss": 2.0152,
      "step": 3729
    },
    {
      "epoch": 0.08288888888888889,
      "grad_norm": 1.343555212020874,
      "learning_rate": 0.0001834629917759502,
      "loss": 2.3119,
      "step": 3730
    },
    {
      "epoch": 0.08291111111111112,
      "grad_norm": 1.2393773794174194,
      "learning_rate": 0.00018345854634363193,
      "loss": 2.0094,
      "step": 3731
    },
    {
      "epoch": 0.08293333333333333,
      "grad_norm": 1.1807552576065063,
      "learning_rate": 0.00018345410091131364,
      "loss": 2.0507,
      "step": 3732
    },
    {
      "epoch": 0.08295555555555556,
      "grad_norm": 1.3803151845932007,
      "learning_rate": 0.00018344965547899533,
      "loss": 2.1102,
      "step": 3733
    },
    {
      "epoch": 0.08297777777777778,
      "grad_norm": 1.5443792343139648,
      "learning_rate": 0.00018344521004667706,
      "loss": 2.1081,
      "step": 3734
    },
    {
      "epoch": 0.083,
      "grad_norm": 1.2594364881515503,
      "learning_rate": 0.00018344076461435874,
      "loss": 1.8055,
      "step": 3735
    },
    {
      "epoch": 0.08302222222222222,
      "grad_norm": 1.3027013540267944,
      "learning_rate": 0.00018343631918204048,
      "loss": 1.9598,
      "step": 3736
    },
    {
      "epoch": 0.08304444444444445,
      "grad_norm": 1.3988456726074219,
      "learning_rate": 0.00018343187374972216,
      "loss": 1.9072,
      "step": 3737
    },
    {
      "epoch": 0.08306666666666666,
      "grad_norm": 1.1366162300109863,
      "learning_rate": 0.00018342742831740387,
      "loss": 0.8282,
      "step": 3738
    },
    {
      "epoch": 0.08308888888888889,
      "grad_norm": 1.3433319330215454,
      "learning_rate": 0.00018342298288508558,
      "loss": 2.145,
      "step": 3739
    },
    {
      "epoch": 0.08311111111111111,
      "grad_norm": 1.6333012580871582,
      "learning_rate": 0.0001834185374527673,
      "loss": 1.9882,
      "step": 3740
    },
    {
      "epoch": 0.08313333333333334,
      "grad_norm": 1.5079331398010254,
      "learning_rate": 0.000183414092020449,
      "loss": 2.2294,
      "step": 3741
    },
    {
      "epoch": 0.08315555555555555,
      "grad_norm": 1.4349793195724487,
      "learning_rate": 0.0001834096465881307,
      "loss": 1.9885,
      "step": 3742
    },
    {
      "epoch": 0.08317777777777778,
      "grad_norm": 1.5758147239685059,
      "learning_rate": 0.00018340520115581242,
      "loss": 1.6917,
      "step": 3743
    },
    {
      "epoch": 0.0832,
      "grad_norm": 1.4096463918685913,
      "learning_rate": 0.0001834007557234941,
      "loss": 2.1504,
      "step": 3744
    },
    {
      "epoch": 0.08322222222222223,
      "grad_norm": 1.3794286251068115,
      "learning_rate": 0.00018339631029117584,
      "loss": 1.7257,
      "step": 3745
    },
    {
      "epoch": 0.08324444444444444,
      "grad_norm": 1.4833141565322876,
      "learning_rate": 0.00018339186485885752,
      "loss": 1.9217,
      "step": 3746
    },
    {
      "epoch": 0.08326666666666667,
      "grad_norm": 1.7716563940048218,
      "learning_rate": 0.00018338741942653923,
      "loss": 2.1866,
      "step": 3747
    },
    {
      "epoch": 0.08328888888888888,
      "grad_norm": 1.4403369426727295,
      "learning_rate": 0.00018338297399422094,
      "loss": 1.659,
      "step": 3748
    },
    {
      "epoch": 0.08331111111111111,
      "grad_norm": 1.3384677171707153,
      "learning_rate": 0.00018337852856190265,
      "loss": 1.7207,
      "step": 3749
    },
    {
      "epoch": 0.08333333333333333,
      "grad_norm": 1.173349142074585,
      "learning_rate": 0.00018337408312958436,
      "loss": 1.2062,
      "step": 3750
    },
    {
      "epoch": 0.08335555555555556,
      "grad_norm": 1.14934241771698,
      "learning_rate": 0.00018336963769726607,
      "loss": 2.5767,
      "step": 3751
    },
    {
      "epoch": 0.08337777777777777,
      "grad_norm": 1.1485891342163086,
      "learning_rate": 0.00018336519226494778,
      "loss": 2.1732,
      "step": 3752
    },
    {
      "epoch": 0.0834,
      "grad_norm": 1.2195016145706177,
      "learning_rate": 0.0001833607468326295,
      "loss": 2.3286,
      "step": 3753
    },
    {
      "epoch": 0.08342222222222222,
      "grad_norm": 1.106770634651184,
      "learning_rate": 0.0001833563014003112,
      "loss": 2.0485,
      "step": 3754
    },
    {
      "epoch": 0.08344444444444445,
      "grad_norm": 1.0948654413223267,
      "learning_rate": 0.00018335185596799288,
      "loss": 2.1415,
      "step": 3755
    },
    {
      "epoch": 0.08346666666666666,
      "grad_norm": 1.0810214281082153,
      "learning_rate": 0.00018334741053567462,
      "loss": 1.9772,
      "step": 3756
    },
    {
      "epoch": 0.08348888888888889,
      "grad_norm": 1.108093023300171,
      "learning_rate": 0.0001833429651033563,
      "loss": 2.0626,
      "step": 3757
    },
    {
      "epoch": 0.0835111111111111,
      "grad_norm": 1.31307053565979,
      "learning_rate": 0.000183338519671038,
      "loss": 2.1667,
      "step": 3758
    },
    {
      "epoch": 0.08353333333333333,
      "grad_norm": 1.193341612815857,
      "learning_rate": 0.00018333407423871972,
      "loss": 2.0653,
      "step": 3759
    },
    {
      "epoch": 0.08355555555555555,
      "grad_norm": 1.399157166481018,
      "learning_rate": 0.00018332962880640143,
      "loss": 1.5565,
      "step": 3760
    },
    {
      "epoch": 0.08357777777777778,
      "grad_norm": 1.119966745376587,
      "learning_rate": 0.00018332518337408314,
      "loss": 2.2336,
      "step": 3761
    },
    {
      "epoch": 0.0836,
      "grad_norm": 1.3634086847305298,
      "learning_rate": 0.00018332073794176485,
      "loss": 2.5965,
      "step": 3762
    },
    {
      "epoch": 0.08362222222222222,
      "grad_norm": 1.0697473287582397,
      "learning_rate": 0.00018331629250944656,
      "loss": 2.0305,
      "step": 3763
    },
    {
      "epoch": 0.08364444444444444,
      "grad_norm": 1.3779423236846924,
      "learning_rate": 0.00018331184707712824,
      "loss": 2.4304,
      "step": 3764
    },
    {
      "epoch": 0.08366666666666667,
      "grad_norm": 1.227135181427002,
      "learning_rate": 0.00018330740164480998,
      "loss": 2.0807,
      "step": 3765
    },
    {
      "epoch": 0.08368888888888888,
      "grad_norm": 1.2680401802062988,
      "learning_rate": 0.00018330295621249166,
      "loss": 2.1856,
      "step": 3766
    },
    {
      "epoch": 0.08371111111111111,
      "grad_norm": 1.5422371625900269,
      "learning_rate": 0.00018329851078017337,
      "loss": 2.174,
      "step": 3767
    },
    {
      "epoch": 0.08373333333333334,
      "grad_norm": 1.2656880617141724,
      "learning_rate": 0.00018329406534785508,
      "loss": 2.1735,
      "step": 3768
    },
    {
      "epoch": 0.08375555555555556,
      "grad_norm": 1.351730465888977,
      "learning_rate": 0.0001832896199155368,
      "loss": 2.2512,
      "step": 3769
    },
    {
      "epoch": 0.08377777777777778,
      "grad_norm": 1.2336546182632446,
      "learning_rate": 0.0001832851744832185,
      "loss": 2.0626,
      "step": 3770
    },
    {
      "epoch": 0.0838,
      "grad_norm": 1.3643064498901367,
      "learning_rate": 0.0001832807290509002,
      "loss": 2.532,
      "step": 3771
    },
    {
      "epoch": 0.08382222222222223,
      "grad_norm": 1.3892377614974976,
      "learning_rate": 0.00018327628361858192,
      "loss": 1.8554,
      "step": 3772
    },
    {
      "epoch": 0.08384444444444444,
      "grad_norm": 1.1425843238830566,
      "learning_rate": 0.00018327183818626363,
      "loss": 2.1771,
      "step": 3773
    },
    {
      "epoch": 0.08386666666666667,
      "grad_norm": 1.2658792734146118,
      "learning_rate": 0.00018326739275394534,
      "loss": 2.0332,
      "step": 3774
    },
    {
      "epoch": 0.08388888888888889,
      "grad_norm": 0.942596971988678,
      "learning_rate": 0.00018326294732162702,
      "loss": 0.7195,
      "step": 3775
    },
    {
      "epoch": 0.08391111111111112,
      "grad_norm": 1.3439239263534546,
      "learning_rate": 0.00018325850188930876,
      "loss": 1.8195,
      "step": 3776
    },
    {
      "epoch": 0.08393333333333333,
      "grad_norm": 1.0942491292953491,
      "learning_rate": 0.00018325405645699044,
      "loss": 1.902,
      "step": 3777
    },
    {
      "epoch": 0.08395555555555556,
      "grad_norm": 1.3457939624786377,
      "learning_rate": 0.00018324961102467215,
      "loss": 2.0151,
      "step": 3778
    },
    {
      "epoch": 0.08397777777777778,
      "grad_norm": 1.4305779933929443,
      "learning_rate": 0.0001832451655923539,
      "loss": 2.0161,
      "step": 3779
    },
    {
      "epoch": 0.084,
      "grad_norm": 1.5203875303268433,
      "learning_rate": 0.00018324072016003557,
      "loss": 2.1299,
      "step": 3780
    },
    {
      "epoch": 0.08402222222222222,
      "grad_norm": 1.2600908279418945,
      "learning_rate": 0.00018323627472771728,
      "loss": 1.8775,
      "step": 3781
    },
    {
      "epoch": 0.08404444444444445,
      "grad_norm": 1.4517302513122559,
      "learning_rate": 0.000183231829295399,
      "loss": 2.1346,
      "step": 3782
    },
    {
      "epoch": 0.08406666666666666,
      "grad_norm": 1.3709062337875366,
      "learning_rate": 0.0001832273838630807,
      "loss": 2.0511,
      "step": 3783
    },
    {
      "epoch": 0.0840888888888889,
      "grad_norm": 1.2844997644424438,
      "learning_rate": 0.00018322293843076238,
      "loss": 2.1488,
      "step": 3784
    },
    {
      "epoch": 0.08411111111111111,
      "grad_norm": 1.3488349914550781,
      "learning_rate": 0.00018321849299844412,
      "loss": 1.9388,
      "step": 3785
    },
    {
      "epoch": 0.08413333333333334,
      "grad_norm": 1.384660005569458,
      "learning_rate": 0.0001832140475661258,
      "loss": 1.8102,
      "step": 3786
    },
    {
      "epoch": 0.08415555555555555,
      "grad_norm": 1.673464298248291,
      "learning_rate": 0.0001832096021338075,
      "loss": 2.3498,
      "step": 3787
    },
    {
      "epoch": 0.08417777777777778,
      "grad_norm": 1.142154335975647,
      "learning_rate": 0.00018320515670148925,
      "loss": 1.5239,
      "step": 3788
    },
    {
      "epoch": 0.0842,
      "grad_norm": 1.0959197282791138,
      "learning_rate": 0.00018320071126917093,
      "loss": 1.4466,
      "step": 3789
    },
    {
      "epoch": 0.08422222222222223,
      "grad_norm": 1.5571155548095703,
      "learning_rate": 0.00018319626583685264,
      "loss": 1.9711,
      "step": 3790
    },
    {
      "epoch": 0.08424444444444444,
      "grad_norm": 1.321845293045044,
      "learning_rate": 0.00018319182040453435,
      "loss": 1.8046,
      "step": 3791
    },
    {
      "epoch": 0.08426666666666667,
      "grad_norm": 1.5317105054855347,
      "learning_rate": 0.00018318737497221606,
      "loss": 1.7864,
      "step": 3792
    },
    {
      "epoch": 0.08428888888888889,
      "grad_norm": 1.3122411966323853,
      "learning_rate": 0.00018318292953989777,
      "loss": 1.8149,
      "step": 3793
    },
    {
      "epoch": 0.08431111111111111,
      "grad_norm": 1.271420955657959,
      "learning_rate": 0.00018317848410757948,
      "loss": 1.8306,
      "step": 3794
    },
    {
      "epoch": 0.08433333333333333,
      "grad_norm": 1.3152903318405151,
      "learning_rate": 0.00018317403867526116,
      "loss": 1.6876,
      "step": 3795
    },
    {
      "epoch": 0.08435555555555556,
      "grad_norm": 1.5708154439926147,
      "learning_rate": 0.0001831695932429429,
      "loss": 2.0446,
      "step": 3796
    },
    {
      "epoch": 0.08437777777777777,
      "grad_norm": 1.3261884450912476,
      "learning_rate": 0.0001831651478106246,
      "loss": 2.0654,
      "step": 3797
    },
    {
      "epoch": 0.0844,
      "grad_norm": 1.4633420705795288,
      "learning_rate": 0.0001831607023783063,
      "loss": 1.9781,
      "step": 3798
    },
    {
      "epoch": 0.08442222222222222,
      "grad_norm": 1.7155293226242065,
      "learning_rate": 0.00018315625694598803,
      "loss": 2.1932,
      "step": 3799
    },
    {
      "epoch": 0.08444444444444445,
      "grad_norm": 0.9392032027244568,
      "learning_rate": 0.0001831518115136697,
      "loss": 0.5209,
      "step": 3800
    },
    {
      "epoch": 0.08446666666666666,
      "grad_norm": 1.2845485210418701,
      "learning_rate": 0.00018314736608135142,
      "loss": 2.2759,
      "step": 3801
    },
    {
      "epoch": 0.08448888888888889,
      "grad_norm": 1.1438502073287964,
      "learning_rate": 0.00018314292064903313,
      "loss": 2.7633,
      "step": 3802
    },
    {
      "epoch": 0.0845111111111111,
      "grad_norm": 1.2022689580917358,
      "learning_rate": 0.00018313847521671484,
      "loss": 2.6877,
      "step": 3803
    },
    {
      "epoch": 0.08453333333333334,
      "grad_norm": 1.2780210971832275,
      "learning_rate": 0.00018313402978439652,
      "loss": 2.4602,
      "step": 3804
    },
    {
      "epoch": 0.08455555555555555,
      "grad_norm": 1.147143006324768,
      "learning_rate": 0.00018312958435207826,
      "loss": 2.0325,
      "step": 3805
    },
    {
      "epoch": 0.08457777777777778,
      "grad_norm": 1.0741664171218872,
      "learning_rate": 0.00018312513891975997,
      "loss": 2.589,
      "step": 3806
    },
    {
      "epoch": 0.0846,
      "grad_norm": 1.1212646961212158,
      "learning_rate": 0.00018312069348744165,
      "loss": 2.149,
      "step": 3807
    },
    {
      "epoch": 0.08462222222222222,
      "grad_norm": 1.1260703802108765,
      "learning_rate": 0.00018311624805512338,
      "loss": 2.103,
      "step": 3808
    },
    {
      "epoch": 0.08464444444444444,
      "grad_norm": 1.293121337890625,
      "learning_rate": 0.00018311180262280507,
      "loss": 2.0342,
      "step": 3809
    },
    {
      "epoch": 0.08466666666666667,
      "grad_norm": 1.3064484596252441,
      "learning_rate": 0.0001831073571904868,
      "loss": 2.1646,
      "step": 3810
    },
    {
      "epoch": 0.08468888888888888,
      "grad_norm": 1.1782290935516357,
      "learning_rate": 0.00018310291175816849,
      "loss": 2.2629,
      "step": 3811
    },
    {
      "epoch": 0.08471111111111111,
      "grad_norm": 1.1606324911117554,
      "learning_rate": 0.0001830984663258502,
      "loss": 2.1509,
      "step": 3812
    },
    {
      "epoch": 0.08473333333333333,
      "grad_norm": 1.1473417282104492,
      "learning_rate": 0.0001830940208935319,
      "loss": 2.192,
      "step": 3813
    },
    {
      "epoch": 0.08475555555555556,
      "grad_norm": 1.12730073928833,
      "learning_rate": 0.00018308957546121362,
      "loss": 2.0235,
      "step": 3814
    },
    {
      "epoch": 0.08477777777777777,
      "grad_norm": 1.1038776636123657,
      "learning_rate": 0.00018308513002889532,
      "loss": 2.0591,
      "step": 3815
    },
    {
      "epoch": 0.0848,
      "grad_norm": 1.5187519788742065,
      "learning_rate": 0.00018308068459657703,
      "loss": 2.2847,
      "step": 3816
    },
    {
      "epoch": 0.08482222222222222,
      "grad_norm": 1.1474043130874634,
      "learning_rate": 0.00018307623916425874,
      "loss": 1.2486,
      "step": 3817
    },
    {
      "epoch": 0.08484444444444444,
      "grad_norm": 1.1251564025878906,
      "learning_rate": 0.00018307179373194043,
      "loss": 0.9984,
      "step": 3818
    },
    {
      "epoch": 0.08486666666666667,
      "grad_norm": 1.3187544345855713,
      "learning_rate": 0.00018306734829962216,
      "loss": 2.0501,
      "step": 3819
    },
    {
      "epoch": 0.08488888888888889,
      "grad_norm": 1.1238620281219482,
      "learning_rate": 0.00018306290286730385,
      "loss": 1.8969,
      "step": 3820
    },
    {
      "epoch": 0.08491111111111112,
      "grad_norm": 1.1466844081878662,
      "learning_rate": 0.00018305845743498556,
      "loss": 1.8634,
      "step": 3821
    },
    {
      "epoch": 0.08493333333333333,
      "grad_norm": 1.1636260747909546,
      "learning_rate": 0.00018305401200266726,
      "loss": 2.0346,
      "step": 3822
    },
    {
      "epoch": 0.08495555555555556,
      "grad_norm": 1.2605708837509155,
      "learning_rate": 0.00018304956657034897,
      "loss": 2.1221,
      "step": 3823
    },
    {
      "epoch": 0.08497777777777778,
      "grad_norm": 1.1905038356781006,
      "learning_rate": 0.00018304512113803068,
      "loss": 2.3228,
      "step": 3824
    },
    {
      "epoch": 0.085,
      "grad_norm": 1.3121824264526367,
      "learning_rate": 0.0001830406757057124,
      "loss": 1.9939,
      "step": 3825
    },
    {
      "epoch": 0.08502222222222222,
      "grad_norm": 1.428402304649353,
      "learning_rate": 0.0001830362302733941,
      "loss": 1.9317,
      "step": 3826
    },
    {
      "epoch": 0.08504444444444445,
      "grad_norm": 1.2127010822296143,
      "learning_rate": 0.00018303178484107579,
      "loss": 2.2116,
      "step": 3827
    },
    {
      "epoch": 0.08506666666666667,
      "grad_norm": 1.0765200853347778,
      "learning_rate": 0.00018302733940875752,
      "loss": 1.4125,
      "step": 3828
    },
    {
      "epoch": 0.0850888888888889,
      "grad_norm": 1.4758669137954712,
      "learning_rate": 0.0001830228939764392,
      "loss": 2.3978,
      "step": 3829
    },
    {
      "epoch": 0.08511111111111111,
      "grad_norm": 1.2892208099365234,
      "learning_rate": 0.00018301844854412094,
      "loss": 1.7413,
      "step": 3830
    },
    {
      "epoch": 0.08513333333333334,
      "grad_norm": 1.28184974193573,
      "learning_rate": 0.00018301400311180262,
      "loss": 1.8904,
      "step": 3831
    },
    {
      "epoch": 0.08515555555555555,
      "grad_norm": 1.3503646850585938,
      "learning_rate": 0.00018300955767948433,
      "loss": 2.0101,
      "step": 3832
    },
    {
      "epoch": 0.08517777777777778,
      "grad_norm": 1.3963651657104492,
      "learning_rate": 0.00018300511224716604,
      "loss": 2.0048,
      "step": 3833
    },
    {
      "epoch": 0.0852,
      "grad_norm": 1.353186845779419,
      "learning_rate": 0.00018300066681484775,
      "loss": 2.0891,
      "step": 3834
    },
    {
      "epoch": 0.08522222222222223,
      "grad_norm": 1.2621327638626099,
      "learning_rate": 0.00018299622138252946,
      "loss": 1.8593,
      "step": 3835
    },
    {
      "epoch": 0.08524444444444444,
      "grad_norm": 1.5457473993301392,
      "learning_rate": 0.00018299177595021117,
      "loss": 2.1439,
      "step": 3836
    },
    {
      "epoch": 0.08526666666666667,
      "grad_norm": 1.2190488576889038,
      "learning_rate": 0.00018298733051789288,
      "loss": 2.1942,
      "step": 3837
    },
    {
      "epoch": 0.08528888888888889,
      "grad_norm": 1.450424313545227,
      "learning_rate": 0.00018298288508557456,
      "loss": 1.8608,
      "step": 3838
    },
    {
      "epoch": 0.08531111111111112,
      "grad_norm": 1.333061695098877,
      "learning_rate": 0.0001829784396532563,
      "loss": 1.7707,
      "step": 3839
    },
    {
      "epoch": 0.08533333333333333,
      "grad_norm": 1.3491209745407104,
      "learning_rate": 0.00018297399422093798,
      "loss": 1.9879,
      "step": 3840
    },
    {
      "epoch": 0.08535555555555556,
      "grad_norm": 1.6014151573181152,
      "learning_rate": 0.0001829695487886197,
      "loss": 2.3131,
      "step": 3841
    },
    {
      "epoch": 0.08537777777777777,
      "grad_norm": 1.4640525579452515,
      "learning_rate": 0.0001829651033563014,
      "loss": 2.2822,
      "step": 3842
    },
    {
      "epoch": 0.0854,
      "grad_norm": 1.201319932937622,
      "learning_rate": 0.0001829606579239831,
      "loss": 1.6643,
      "step": 3843
    },
    {
      "epoch": 0.08542222222222222,
      "grad_norm": 1.3478792905807495,
      "learning_rate": 0.00018295621249166482,
      "loss": 1.8764,
      "step": 3844
    },
    {
      "epoch": 0.08544444444444445,
      "grad_norm": 1.3052295446395874,
      "learning_rate": 0.00018295176705934653,
      "loss": 1.7053,
      "step": 3845
    },
    {
      "epoch": 0.08546666666666666,
      "grad_norm": 1.3359328508377075,
      "learning_rate": 0.00018294732162702824,
      "loss": 1.8894,
      "step": 3846
    },
    {
      "epoch": 0.08548888888888889,
      "grad_norm": 1.4691016674041748,
      "learning_rate": 0.00018294287619470992,
      "loss": 1.8617,
      "step": 3847
    },
    {
      "epoch": 0.08551111111111111,
      "grad_norm": 1.3177027702331543,
      "learning_rate": 0.00018293843076239166,
      "loss": 1.8823,
      "step": 3848
    },
    {
      "epoch": 0.08553333333333334,
      "grad_norm": 1.5961673259735107,
      "learning_rate": 0.00018293398533007334,
      "loss": 1.905,
      "step": 3849
    },
    {
      "epoch": 0.08555555555555555,
      "grad_norm": 1.4407944679260254,
      "learning_rate": 0.00018292953989775508,
      "loss": 1.7201,
      "step": 3850
    },
    {
      "epoch": 0.08557777777777778,
      "grad_norm": 0.6729428172111511,
      "learning_rate": 0.00018292509446543676,
      "loss": 0.0287,
      "step": 3851
    },
    {
      "epoch": 0.0856,
      "grad_norm": 0.7333818078041077,
      "learning_rate": 0.00018292064903311847,
      "loss": 1.0013,
      "step": 3852
    },
    {
      "epoch": 0.08562222222222222,
      "grad_norm": 0.9840003252029419,
      "learning_rate": 0.0001829162036008002,
      "loss": 1.0692,
      "step": 3853
    },
    {
      "epoch": 0.08564444444444444,
      "grad_norm": 1.1732404232025146,
      "learning_rate": 0.0001829117581684819,
      "loss": 2.0807,
      "step": 3854
    },
    {
      "epoch": 0.08566666666666667,
      "grad_norm": 1.106427550315857,
      "learning_rate": 0.0001829073127361636,
      "loss": 2.1901,
      "step": 3855
    },
    {
      "epoch": 0.08568888888888888,
      "grad_norm": 1.2000621557235718,
      "learning_rate": 0.0001829028673038453,
      "loss": 2.0366,
      "step": 3856
    },
    {
      "epoch": 0.08571111111111111,
      "grad_norm": 1.1870254278182983,
      "learning_rate": 0.00018289842187152702,
      "loss": 2.1497,
      "step": 3857
    },
    {
      "epoch": 0.08573333333333333,
      "grad_norm": 1.2883726358413696,
      "learning_rate": 0.0001828939764392087,
      "loss": 2.5934,
      "step": 3858
    },
    {
      "epoch": 0.08575555555555556,
      "grad_norm": 1.24656081199646,
      "learning_rate": 0.00018288953100689044,
      "loss": 2.6096,
      "step": 3859
    },
    {
      "epoch": 0.08577777777777777,
      "grad_norm": 1.0583786964416504,
      "learning_rate": 0.00018288508557457212,
      "loss": 1.0283,
      "step": 3860
    },
    {
      "epoch": 0.0858,
      "grad_norm": 1.234200119972229,
      "learning_rate": 0.00018288064014225383,
      "loss": 2.3328,
      "step": 3861
    },
    {
      "epoch": 0.08582222222222222,
      "grad_norm": 1.124598503112793,
      "learning_rate": 0.00018287619470993557,
      "loss": 1.7652,
      "step": 3862
    },
    {
      "epoch": 0.08584444444444445,
      "grad_norm": 1.3905720710754395,
      "learning_rate": 0.00018287174927761725,
      "loss": 2.1556,
      "step": 3863
    },
    {
      "epoch": 0.08586666666666666,
      "grad_norm": 1.1601526737213135,
      "learning_rate": 0.00018286730384529896,
      "loss": 1.8192,
      "step": 3864
    },
    {
      "epoch": 0.08588888888888889,
      "grad_norm": 1.1960759162902832,
      "learning_rate": 0.00018286285841298067,
      "loss": 2.0937,
      "step": 3865
    },
    {
      "epoch": 0.0859111111111111,
      "grad_norm": 1.1918174028396606,
      "learning_rate": 0.00018285841298066238,
      "loss": 2.226,
      "step": 3866
    },
    {
      "epoch": 0.08593333333333333,
      "grad_norm": 1.2833738327026367,
      "learning_rate": 0.0001828539675483441,
      "loss": 2.0411,
      "step": 3867
    },
    {
      "epoch": 0.08595555555555555,
      "grad_norm": 1.3212376832962036,
      "learning_rate": 0.0001828495221160258,
      "loss": 2.1898,
      "step": 3868
    },
    {
      "epoch": 0.08597777777777778,
      "grad_norm": 1.1451706886291504,
      "learning_rate": 0.00018284507668370748,
      "loss": 1.849,
      "step": 3869
    },
    {
      "epoch": 0.086,
      "grad_norm": 1.1616791486740112,
      "learning_rate": 0.00018284063125138922,
      "loss": 1.7259,
      "step": 3870
    },
    {
      "epoch": 0.08602222222222222,
      "grad_norm": 1.6663930416107178,
      "learning_rate": 0.00018283618581907093,
      "loss": 1.2284,
      "step": 3871
    },
    {
      "epoch": 0.08604444444444445,
      "grad_norm": 1.2836792469024658,
      "learning_rate": 0.0001828317403867526,
      "loss": 2.2392,
      "step": 3872
    },
    {
      "epoch": 0.08606666666666667,
      "grad_norm": 1.2171481847763062,
      "learning_rate": 0.00018282729495443435,
      "loss": 2.0785,
      "step": 3873
    },
    {
      "epoch": 0.0860888888888889,
      "grad_norm": 1.2060463428497314,
      "learning_rate": 0.00018282284952211603,
      "loss": 1.8582,
      "step": 3874
    },
    {
      "epoch": 0.08611111111111111,
      "grad_norm": 1.1895673274993896,
      "learning_rate": 0.00018281840408979774,
      "loss": 1.9122,
      "step": 3875
    },
    {
      "epoch": 0.08613333333333334,
      "grad_norm": 1.509826898574829,
      "learning_rate": 0.00018281395865747945,
      "loss": 2.2616,
      "step": 3876
    },
    {
      "epoch": 0.08615555555555555,
      "grad_norm": 1.3473097085952759,
      "learning_rate": 0.00018280951322516116,
      "loss": 2.0758,
      "step": 3877
    },
    {
      "epoch": 0.08617777777777778,
      "grad_norm": 1.6493169069290161,
      "learning_rate": 0.00018280506779284287,
      "loss": 2.2373,
      "step": 3878
    },
    {
      "epoch": 0.0862,
      "grad_norm": 1.089248776435852,
      "learning_rate": 0.00018280062236052458,
      "loss": 1.1297,
      "step": 3879
    },
    {
      "epoch": 0.08622222222222223,
      "grad_norm": 1.1902804374694824,
      "learning_rate": 0.0001827961769282063,
      "loss": 1.1705,
      "step": 3880
    },
    {
      "epoch": 0.08624444444444444,
      "grad_norm": 1.4258880615234375,
      "learning_rate": 0.00018279173149588797,
      "loss": 2.0755,
      "step": 3881
    },
    {
      "epoch": 0.08626666666666667,
      "grad_norm": 1.316024661064148,
      "learning_rate": 0.0001827872860635697,
      "loss": 2.0348,
      "step": 3882
    },
    {
      "epoch": 0.08628888888888889,
      "grad_norm": 1.4670634269714355,
      "learning_rate": 0.0001827828406312514,
      "loss": 2.0473,
      "step": 3883
    },
    {
      "epoch": 0.08631111111111112,
      "grad_norm": 1.5652819871902466,
      "learning_rate": 0.0001827783951989331,
      "loss": 2.5831,
      "step": 3884
    },
    {
      "epoch": 0.08633333333333333,
      "grad_norm": 1.4132565259933472,
      "learning_rate": 0.0001827739497666148,
      "loss": 2.3326,
      "step": 3885
    },
    {
      "epoch": 0.08635555555555556,
      "grad_norm": 1.2993839979171753,
      "learning_rate": 0.00018276950433429652,
      "loss": 1.8057,
      "step": 3886
    },
    {
      "epoch": 0.08637777777777778,
      "grad_norm": 1.2038097381591797,
      "learning_rate": 0.00018276505890197823,
      "loss": 1.9702,
      "step": 3887
    },
    {
      "epoch": 0.0864,
      "grad_norm": 1.3122345209121704,
      "learning_rate": 0.00018276061346965994,
      "loss": 1.9484,
      "step": 3888
    },
    {
      "epoch": 0.08642222222222222,
      "grad_norm": 1.383968710899353,
      "learning_rate": 0.00018275616803734165,
      "loss": 2.0874,
      "step": 3889
    },
    {
      "epoch": 0.08644444444444445,
      "grad_norm": 1.4431442022323608,
      "learning_rate": 0.00018275172260502336,
      "loss": 1.9278,
      "step": 3890
    },
    {
      "epoch": 0.08646666666666666,
      "grad_norm": 1.4338607788085938,
      "learning_rate": 0.00018274727717270507,
      "loss": 2.0402,
      "step": 3891
    },
    {
      "epoch": 0.08648888888888889,
      "grad_norm": 1.6500836610794067,
      "learning_rate": 0.00018274283174038675,
      "loss": 1.9843,
      "step": 3892
    },
    {
      "epoch": 0.08651111111111111,
      "grad_norm": 1.2799413204193115,
      "learning_rate": 0.00018273838630806849,
      "loss": 1.7724,
      "step": 3893
    },
    {
      "epoch": 0.08653333333333334,
      "grad_norm": 1.622963547706604,
      "learning_rate": 0.00018273394087575017,
      "loss": 2.2003,
      "step": 3894
    },
    {
      "epoch": 0.08655555555555555,
      "grad_norm": 1.247835636138916,
      "learning_rate": 0.00018272949544343188,
      "loss": 1.4512,
      "step": 3895
    },
    {
      "epoch": 0.08657777777777778,
      "grad_norm": 1.3503494262695312,
      "learning_rate": 0.0001827250500111136,
      "loss": 1.6344,
      "step": 3896
    },
    {
      "epoch": 0.0866,
      "grad_norm": 1.5317302942276,
      "learning_rate": 0.0001827206045787953,
      "loss": 1.278,
      "step": 3897
    },
    {
      "epoch": 0.08662222222222223,
      "grad_norm": 1.6802184581756592,
      "learning_rate": 0.000182716159146477,
      "loss": 1.8352,
      "step": 3898
    },
    {
      "epoch": 0.08664444444444444,
      "grad_norm": 1.332260012626648,
      "learning_rate": 0.00018271171371415872,
      "loss": 1.7385,
      "step": 3899
    },
    {
      "epoch": 0.08666666666666667,
      "grad_norm": 1.4168360233306885,
      "learning_rate": 0.00018270726828184043,
      "loss": 1.654,
      "step": 3900
    },
    {
      "epoch": 0.08668888888888888,
      "grad_norm": 1.11492919921875,
      "learning_rate": 0.0001827028228495221,
      "loss": 2.8721,
      "step": 3901
    },
    {
      "epoch": 0.08671111111111111,
      "grad_norm": 0.9290326237678528,
      "learning_rate": 0.00018269837741720384,
      "loss": 1.3628,
      "step": 3902
    },
    {
      "epoch": 0.08673333333333333,
      "grad_norm": 1.1157268285751343,
      "learning_rate": 0.00018269393198488553,
      "loss": 2.8096,
      "step": 3903
    },
    {
      "epoch": 0.08675555555555556,
      "grad_norm": 1.1336044073104858,
      "learning_rate": 0.00018268948655256724,
      "loss": 2.0028,
      "step": 3904
    },
    {
      "epoch": 0.08677777777777777,
      "grad_norm": 1.1529829502105713,
      "learning_rate": 0.00018268504112024895,
      "loss": 2.0633,
      "step": 3905
    },
    {
      "epoch": 0.0868,
      "grad_norm": 1.2534562349319458,
      "learning_rate": 0.00018268059568793066,
      "loss": 2.7211,
      "step": 3906
    },
    {
      "epoch": 0.08682222222222222,
      "grad_norm": 1.2881025075912476,
      "learning_rate": 0.00018267615025561237,
      "loss": 2.3184,
      "step": 3907
    },
    {
      "epoch": 0.08684444444444445,
      "grad_norm": 1.069238543510437,
      "learning_rate": 0.00018267170482329408,
      "loss": 2.1236,
      "step": 3908
    },
    {
      "epoch": 0.08686666666666666,
      "grad_norm": 1.2697378396987915,
      "learning_rate": 0.00018266725939097578,
      "loss": 2.125,
      "step": 3909
    },
    {
      "epoch": 0.08688888888888889,
      "grad_norm": 1.2994015216827393,
      "learning_rate": 0.0001826628139586575,
      "loss": 1.9171,
      "step": 3910
    },
    {
      "epoch": 0.0869111111111111,
      "grad_norm": 1.0967013835906982,
      "learning_rate": 0.0001826583685263392,
      "loss": 1.6726,
      "step": 3911
    },
    {
      "epoch": 0.08693333333333333,
      "grad_norm": 1.1177443265914917,
      "learning_rate": 0.0001826539230940209,
      "loss": 1.7946,
      "step": 3912
    },
    {
      "epoch": 0.08695555555555555,
      "grad_norm": 1.2079192399978638,
      "learning_rate": 0.00018264947766170262,
      "loss": 2.2675,
      "step": 3913
    },
    {
      "epoch": 0.08697777777777778,
      "grad_norm": 1.2005130052566528,
      "learning_rate": 0.0001826450322293843,
      "loss": 2.2046,
      "step": 3914
    },
    {
      "epoch": 0.087,
      "grad_norm": 0.9720653891563416,
      "learning_rate": 0.00018264058679706602,
      "loss": 0.7893,
      "step": 3915
    },
    {
      "epoch": 0.08702222222222222,
      "grad_norm": 1.1333423852920532,
      "learning_rate": 0.00018263614136474773,
      "loss": 2.3172,
      "step": 3916
    },
    {
      "epoch": 0.08704444444444444,
      "grad_norm": 1.1365100145339966,
      "learning_rate": 0.00018263169593242943,
      "loss": 1.9795,
      "step": 3917
    },
    {
      "epoch": 0.08706666666666667,
      "grad_norm": 1.843353509902954,
      "learning_rate": 0.00018262725050011114,
      "loss": 2.3793,
      "step": 3918
    },
    {
      "epoch": 0.08708888888888888,
      "grad_norm": 1.4716764688491821,
      "learning_rate": 0.00018262280506779285,
      "loss": 2.1506,
      "step": 3919
    },
    {
      "epoch": 0.08711111111111111,
      "grad_norm": 1.2647080421447754,
      "learning_rate": 0.00018261835963547456,
      "loss": 1.6478,
      "step": 3920
    },
    {
      "epoch": 0.08713333333333333,
      "grad_norm": 1.2279027700424194,
      "learning_rate": 0.00018261391420315625,
      "loss": 1.5735,
      "step": 3921
    },
    {
      "epoch": 0.08715555555555556,
      "grad_norm": 1.8002568483352661,
      "learning_rate": 0.00018260946877083798,
      "loss": 2.7739,
      "step": 3922
    },
    {
      "epoch": 0.08717777777777778,
      "grad_norm": 1.3656952381134033,
      "learning_rate": 0.00018260502333851967,
      "loss": 2.1193,
      "step": 3923
    },
    {
      "epoch": 0.0872,
      "grad_norm": 1.1363921165466309,
      "learning_rate": 0.0001826005779062014,
      "loss": 2.0275,
      "step": 3924
    },
    {
      "epoch": 0.08722222222222223,
      "grad_norm": 1.2623662948608398,
      "learning_rate": 0.00018259613247388308,
      "loss": 1.9614,
      "step": 3925
    },
    {
      "epoch": 0.08724444444444444,
      "grad_norm": 1.2325552701950073,
      "learning_rate": 0.0001825916870415648,
      "loss": 1.8201,
      "step": 3926
    },
    {
      "epoch": 0.08726666666666667,
      "grad_norm": 1.227401852607727,
      "learning_rate": 0.00018258724160924653,
      "loss": 1.861,
      "step": 3927
    },
    {
      "epoch": 0.08728888888888889,
      "grad_norm": 1.7943168878555298,
      "learning_rate": 0.0001825827961769282,
      "loss": 2.0819,
      "step": 3928
    },
    {
      "epoch": 0.08731111111111112,
      "grad_norm": 1.3471245765686035,
      "learning_rate": 0.00018257835074460992,
      "loss": 2.1757,
      "step": 3929
    },
    {
      "epoch": 0.08733333333333333,
      "grad_norm": 1.2830681800842285,
      "learning_rate": 0.00018257390531229163,
      "loss": 1.7819,
      "step": 3930
    },
    {
      "epoch": 0.08735555555555556,
      "grad_norm": 1.503760576248169,
      "learning_rate": 0.00018256945987997334,
      "loss": 2.147,
      "step": 3931
    },
    {
      "epoch": 0.08737777777777778,
      "grad_norm": 1.274315357208252,
      "learning_rate": 0.00018256501444765502,
      "loss": 1.9309,
      "step": 3932
    },
    {
      "epoch": 0.0874,
      "grad_norm": 1.124243974685669,
      "learning_rate": 0.00018256056901533676,
      "loss": 1.4179,
      "step": 3933
    },
    {
      "epoch": 0.08742222222222222,
      "grad_norm": 1.495699405670166,
      "learning_rate": 0.00018255612358301844,
      "loss": 2.2812,
      "step": 3934
    },
    {
      "epoch": 0.08744444444444445,
      "grad_norm": 1.2558859586715698,
      "learning_rate": 0.00018255167815070015,
      "loss": 1.9374,
      "step": 3935
    },
    {
      "epoch": 0.08746666666666666,
      "grad_norm": 1.431708574295044,
      "learning_rate": 0.0001825472327183819,
      "loss": 2.1444,
      "step": 3936
    },
    {
      "epoch": 0.0874888888888889,
      "grad_norm": 1.640269160270691,
      "learning_rate": 0.00018254278728606357,
      "loss": 2.3488,
      "step": 3937
    },
    {
      "epoch": 0.08751111111111111,
      "grad_norm": 1.3659045696258545,
      "learning_rate": 0.00018253834185374528,
      "loss": 1.6372,
      "step": 3938
    },
    {
      "epoch": 0.08753333333333334,
      "grad_norm": 1.3964117765426636,
      "learning_rate": 0.000182533896421427,
      "loss": 1.7944,
      "step": 3939
    },
    {
      "epoch": 0.08755555555555555,
      "grad_norm": 1.3688442707061768,
      "learning_rate": 0.0001825294509891087,
      "loss": 1.8169,
      "step": 3940
    },
    {
      "epoch": 0.08757777777777778,
      "grad_norm": 1.4212323427200317,
      "learning_rate": 0.00018252500555679038,
      "loss": 1.5998,
      "step": 3941
    },
    {
      "epoch": 0.0876,
      "grad_norm": 1.274173617362976,
      "learning_rate": 0.00018252056012447212,
      "loss": 1.8158,
      "step": 3942
    },
    {
      "epoch": 0.08762222222222223,
      "grad_norm": 1.159591555595398,
      "learning_rate": 0.0001825161146921538,
      "loss": 1.6519,
      "step": 3943
    },
    {
      "epoch": 0.08764444444444444,
      "grad_norm": 1.3204801082611084,
      "learning_rate": 0.00018251166925983554,
      "loss": 1.7134,
      "step": 3944
    },
    {
      "epoch": 0.08766666666666667,
      "grad_norm": 1.462691068649292,
      "learning_rate": 0.00018250722382751725,
      "loss": 1.6365,
      "step": 3945
    },
    {
      "epoch": 0.08768888888888889,
      "grad_norm": 1.473249912261963,
      "learning_rate": 0.00018250277839519893,
      "loss": 1.8595,
      "step": 3946
    },
    {
      "epoch": 0.08771111111111111,
      "grad_norm": 1.5079234838485718,
      "learning_rate": 0.00018249833296288067,
      "loss": 1.6698,
      "step": 3947
    },
    {
      "epoch": 0.08773333333333333,
      "grad_norm": 1.3877707719802856,
      "learning_rate": 0.00018249388753056235,
      "loss": 1.978,
      "step": 3948
    },
    {
      "epoch": 0.08775555555555556,
      "grad_norm": 1.373972773551941,
      "learning_rate": 0.00018248944209824406,
      "loss": 1.6741,
      "step": 3949
    },
    {
      "epoch": 0.08777777777777777,
      "grad_norm": 1.5319815874099731,
      "learning_rate": 0.00018248499666592577,
      "loss": 1.7444,
      "step": 3950
    },
    {
      "epoch": 0.0878,
      "grad_norm": 1.1451045274734497,
      "learning_rate": 0.00018248055123360748,
      "loss": 2.6294,
      "step": 3951
    },
    {
      "epoch": 0.08782222222222222,
      "grad_norm": 1.3626810312271118,
      "learning_rate": 0.0001824761058012892,
      "loss": 2.7648,
      "step": 3952
    },
    {
      "epoch": 0.08784444444444445,
      "grad_norm": 1.3611873388290405,
      "learning_rate": 0.0001824716603689709,
      "loss": 2.6151,
      "step": 3953
    },
    {
      "epoch": 0.08786666666666666,
      "grad_norm": 1.384328842163086,
      "learning_rate": 0.0001824672149366526,
      "loss": 3.144,
      "step": 3954
    },
    {
      "epoch": 0.08788888888888889,
      "grad_norm": 1.287131905555725,
      "learning_rate": 0.0001824627695043343,
      "loss": 1.9983,
      "step": 3955
    },
    {
      "epoch": 0.0879111111111111,
      "grad_norm": 1.3529751300811768,
      "learning_rate": 0.00018245832407201603,
      "loss": 2.9865,
      "step": 3956
    },
    {
      "epoch": 0.08793333333333334,
      "grad_norm": 1.1994839906692505,
      "learning_rate": 0.0001824538786396977,
      "loss": 2.3215,
      "step": 3957
    },
    {
      "epoch": 0.08795555555555555,
      "grad_norm": 1.0824435949325562,
      "learning_rate": 0.00018244943320737942,
      "loss": 2.2071,
      "step": 3958
    },
    {
      "epoch": 0.08797777777777778,
      "grad_norm": 1.3807737827301025,
      "learning_rate": 0.00018244498777506113,
      "loss": 2.8193,
      "step": 3959
    },
    {
      "epoch": 0.088,
      "grad_norm": 1.1116480827331543,
      "learning_rate": 0.00018244054234274284,
      "loss": 2.0974,
      "step": 3960
    },
    {
      "epoch": 0.08802222222222222,
      "grad_norm": 1.0865592956542969,
      "learning_rate": 0.00018243609691042455,
      "loss": 2.0467,
      "step": 3961
    },
    {
      "epoch": 0.08804444444444444,
      "grad_norm": 1.4668089151382446,
      "learning_rate": 0.00018243165147810626,
      "loss": 2.4284,
      "step": 3962
    },
    {
      "epoch": 0.08806666666666667,
      "grad_norm": 1.2750132083892822,
      "learning_rate": 0.00018242720604578797,
      "loss": 2.435,
      "step": 3963
    },
    {
      "epoch": 0.08808888888888888,
      "grad_norm": 1.1693750619888306,
      "learning_rate": 0.00018242276061346968,
      "loss": 2.3241,
      "step": 3964
    },
    {
      "epoch": 0.08811111111111111,
      "grad_norm": 1.3129546642303467,
      "learning_rate": 0.0001824183151811514,
      "loss": 2.4794,
      "step": 3965
    },
    {
      "epoch": 0.08813333333333333,
      "grad_norm": 1.2565345764160156,
      "learning_rate": 0.00018241386974883307,
      "loss": 2.3347,
      "step": 3966
    },
    {
      "epoch": 0.08815555555555556,
      "grad_norm": 1.4078856706619263,
      "learning_rate": 0.0001824094243165148,
      "loss": 1.7856,
      "step": 3967
    },
    {
      "epoch": 0.08817777777777777,
      "grad_norm": 0.9889540076255798,
      "learning_rate": 0.0001824049788841965,
      "loss": 1.0568,
      "step": 3968
    },
    {
      "epoch": 0.0882,
      "grad_norm": 1.3720183372497559,
      "learning_rate": 0.0001824005334518782,
      "loss": 2.142,
      "step": 3969
    },
    {
      "epoch": 0.08822222222222222,
      "grad_norm": 2.0734097957611084,
      "learning_rate": 0.0001823960880195599,
      "loss": 2.1306,
      "step": 3970
    },
    {
      "epoch": 0.08824444444444444,
      "grad_norm": 1.5309531688690186,
      "learning_rate": 0.00018239164258724162,
      "loss": 2.239,
      "step": 3971
    },
    {
      "epoch": 0.08826666666666666,
      "grad_norm": 1.593670129776001,
      "learning_rate": 0.00018238719715492333,
      "loss": 1.6127,
      "step": 3972
    },
    {
      "epoch": 0.08828888888888889,
      "grad_norm": 1.2348586320877075,
      "learning_rate": 0.00018238275172260504,
      "loss": 1.7285,
      "step": 3973
    },
    {
      "epoch": 0.08831111111111112,
      "grad_norm": 1.130700707435608,
      "learning_rate": 0.00018237830629028675,
      "loss": 1.8215,
      "step": 3974
    },
    {
      "epoch": 0.08833333333333333,
      "grad_norm": 1.3735883235931396,
      "learning_rate": 0.00018237386085796843,
      "loss": 2.1751,
      "step": 3975
    },
    {
      "epoch": 0.08835555555555556,
      "grad_norm": 1.6415408849716187,
      "learning_rate": 0.00018236941542565017,
      "loss": 2.3657,
      "step": 3976
    },
    {
      "epoch": 0.08837777777777778,
      "grad_norm": 1.179374098777771,
      "learning_rate": 0.00018236496999333185,
      "loss": 1.816,
      "step": 3977
    },
    {
      "epoch": 0.0884,
      "grad_norm": 1.0282421112060547,
      "learning_rate": 0.00018236052456101356,
      "loss": 1.5093,
      "step": 3978
    },
    {
      "epoch": 0.08842222222222222,
      "grad_norm": 1.3459587097167969,
      "learning_rate": 0.00018235607912869527,
      "loss": 1.9031,
      "step": 3979
    },
    {
      "epoch": 0.08844444444444445,
      "grad_norm": 1.5987575054168701,
      "learning_rate": 0.00018235163369637698,
      "loss": 2.2409,
      "step": 3980
    },
    {
      "epoch": 0.08846666666666667,
      "grad_norm": 1.356877088546753,
      "learning_rate": 0.0001823471882640587,
      "loss": 1.8444,
      "step": 3981
    },
    {
      "epoch": 0.0884888888888889,
      "grad_norm": 1.6989684104919434,
      "learning_rate": 0.0001823427428317404,
      "loss": 1.6699,
      "step": 3982
    },
    {
      "epoch": 0.08851111111111111,
      "grad_norm": 1.3182530403137207,
      "learning_rate": 0.0001823382973994221,
      "loss": 1.7226,
      "step": 3983
    },
    {
      "epoch": 0.08853333333333334,
      "grad_norm": 1.0926573276519775,
      "learning_rate": 0.00018233385196710382,
      "loss": 0.7869,
      "step": 3984
    },
    {
      "epoch": 0.08855555555555555,
      "grad_norm": 1.505751371383667,
      "learning_rate": 0.00018232940653478553,
      "loss": 2.0821,
      "step": 3985
    },
    {
      "epoch": 0.08857777777777778,
      "grad_norm": 1.4366180896759033,
      "learning_rate": 0.0001823249611024672,
      "loss": 2.0181,
      "step": 3986
    },
    {
      "epoch": 0.0886,
      "grad_norm": 1.3815208673477173,
      "learning_rate": 0.00018232051567014895,
      "loss": 1.9652,
      "step": 3987
    },
    {
      "epoch": 0.08862222222222223,
      "grad_norm": 1.1777048110961914,
      "learning_rate": 0.00018231607023783063,
      "loss": 1.584,
      "step": 3988
    },
    {
      "epoch": 0.08864444444444444,
      "grad_norm": 1.5454330444335938,
      "learning_rate": 0.00018231162480551234,
      "loss": 2.3896,
      "step": 3989
    },
    {
      "epoch": 0.08866666666666667,
      "grad_norm": 1.3766738176345825,
      "learning_rate": 0.00018230717937319405,
      "loss": 1.6587,
      "step": 3990
    },
    {
      "epoch": 0.08868888888888889,
      "grad_norm": 1.064445972442627,
      "learning_rate": 0.00018230273394087576,
      "loss": 1.3703,
      "step": 3991
    },
    {
      "epoch": 0.08871111111111112,
      "grad_norm": 1.2387447357177734,
      "learning_rate": 0.00018229828850855747,
      "loss": 1.8601,
      "step": 3992
    },
    {
      "epoch": 0.08873333333333333,
      "grad_norm": 1.6053434610366821,
      "learning_rate": 0.00018229384307623918,
      "loss": 2.3741,
      "step": 3993
    },
    {
      "epoch": 0.08875555555555556,
      "grad_norm": 1.5138375759124756,
      "learning_rate": 0.00018228939764392089,
      "loss": 1.9498,
      "step": 3994
    },
    {
      "epoch": 0.08877777777777777,
      "grad_norm": 1.4985507726669312,
      "learning_rate": 0.00018228495221160257,
      "loss": 1.931,
      "step": 3995
    },
    {
      "epoch": 0.0888,
      "grad_norm": 1.4858930110931396,
      "learning_rate": 0.0001822805067792843,
      "loss": 1.783,
      "step": 3996
    },
    {
      "epoch": 0.08882222222222222,
      "grad_norm": 1.0707796812057495,
      "learning_rate": 0.000182276061346966,
      "loss": 1.0062,
      "step": 3997
    },
    {
      "epoch": 0.08884444444444445,
      "grad_norm": 1.5340445041656494,
      "learning_rate": 0.0001822716159146477,
      "loss": 2.0391,
      "step": 3998
    },
    {
      "epoch": 0.08886666666666666,
      "grad_norm": 1.7474359273910522,
      "learning_rate": 0.0001822671704823294,
      "loss": 1.6239,
      "step": 3999
    },
    {
      "epoch": 0.08888888888888889,
      "grad_norm": 1.7199676036834717,
      "learning_rate": 0.00018226272505001112,
      "loss": 1.8825,
      "step": 4000
    },
    {
      "epoch": 0.08891111111111111,
      "grad_norm": 1.1654189825057983,
      "learning_rate": 0.00018225827961769285,
      "loss": 2.3205,
      "step": 4001
    },
    {
      "epoch": 0.08893333333333334,
      "grad_norm": 1.0770715475082397,
      "learning_rate": 0.00018225383418537454,
      "loss": 2.1443,
      "step": 4002
    },
    {
      "epoch": 0.08895555555555555,
      "grad_norm": 1.1399768590927124,
      "learning_rate": 0.00018224938875305625,
      "loss": 2.228,
      "step": 4003
    },
    {
      "epoch": 0.08897777777777778,
      "grad_norm": 1.2105519771575928,
      "learning_rate": 0.00018224494332073795,
      "loss": 2.2901,
      "step": 4004
    },
    {
      "epoch": 0.089,
      "grad_norm": 1.3387752771377563,
      "learning_rate": 0.00018224049788841966,
      "loss": 2.3667,
      "step": 4005
    },
    {
      "epoch": 0.08902222222222222,
      "grad_norm": 1.366286039352417,
      "learning_rate": 0.00018223605245610135,
      "loss": 2.0674,
      "step": 4006
    },
    {
      "epoch": 0.08904444444444444,
      "grad_norm": 1.034104824066162,
      "learning_rate": 0.00018223160702378308,
      "loss": 1.6388,
      "step": 4007
    },
    {
      "epoch": 0.08906666666666667,
      "grad_norm": 1.419653296470642,
      "learning_rate": 0.00018222716159146477,
      "loss": 2.597,
      "step": 4008
    },
    {
      "epoch": 0.08908888888888888,
      "grad_norm": 1.376345157623291,
      "learning_rate": 0.00018222271615914648,
      "loss": 2.2231,
      "step": 4009
    },
    {
      "epoch": 0.08911111111111111,
      "grad_norm": 1.5309399366378784,
      "learning_rate": 0.0001822182707268282,
      "loss": 2.2812,
      "step": 4010
    },
    {
      "epoch": 0.08913333333333333,
      "grad_norm": 1.1608930826187134,
      "learning_rate": 0.0001822138252945099,
      "loss": 2.0559,
      "step": 4011
    },
    {
      "epoch": 0.08915555555555556,
      "grad_norm": 1.237950325012207,
      "learning_rate": 0.0001822093798621916,
      "loss": 2.04,
      "step": 4012
    },
    {
      "epoch": 0.08917777777777777,
      "grad_norm": 1.3438576459884644,
      "learning_rate": 0.00018220493442987331,
      "loss": 2.6675,
      "step": 4013
    },
    {
      "epoch": 0.0892,
      "grad_norm": 1.3429163694381714,
      "learning_rate": 0.00018220048899755502,
      "loss": 2.2567,
      "step": 4014
    },
    {
      "epoch": 0.08922222222222222,
      "grad_norm": 1.0870521068572998,
      "learning_rate": 0.0001821960435652367,
      "loss": 1.552,
      "step": 4015
    },
    {
      "epoch": 0.08924444444444445,
      "grad_norm": 1.3223501443862915,
      "learning_rate": 0.00018219159813291844,
      "loss": 2.2699,
      "step": 4016
    },
    {
      "epoch": 0.08926666666666666,
      "grad_norm": 1.3303872346878052,
      "learning_rate": 0.00018218715270060013,
      "loss": 2.4244,
      "step": 4017
    },
    {
      "epoch": 0.08928888888888889,
      "grad_norm": 1.0466386079788208,
      "learning_rate": 0.00018218270726828184,
      "loss": 1.5336,
      "step": 4018
    },
    {
      "epoch": 0.0893111111111111,
      "grad_norm": 1.267941951751709,
      "learning_rate": 0.00018217826183596357,
      "loss": 1.8151,
      "step": 4019
    },
    {
      "epoch": 0.08933333333333333,
      "grad_norm": 1.208484172821045,
      "learning_rate": 0.00018217381640364525,
      "loss": 1.9847,
      "step": 4020
    },
    {
      "epoch": 0.08935555555555555,
      "grad_norm": 1.3358150720596313,
      "learning_rate": 0.000182169370971327,
      "loss": 2.4709,
      "step": 4021
    },
    {
      "epoch": 0.08937777777777778,
      "grad_norm": 0.9815666675567627,
      "learning_rate": 0.00018216492553900867,
      "loss": 1.4165,
      "step": 4022
    },
    {
      "epoch": 0.0894,
      "grad_norm": 1.3121657371520996,
      "learning_rate": 0.00018216048010669038,
      "loss": 2.4059,
      "step": 4023
    },
    {
      "epoch": 0.08942222222222222,
      "grad_norm": 1.3153599500656128,
      "learning_rate": 0.0001821560346743721,
      "loss": 1.7834,
      "step": 4024
    },
    {
      "epoch": 0.08944444444444444,
      "grad_norm": 1.4722740650177002,
      "learning_rate": 0.0001821515892420538,
      "loss": 1.9365,
      "step": 4025
    },
    {
      "epoch": 0.08946666666666667,
      "grad_norm": 1.6213995218276978,
      "learning_rate": 0.0001821471438097355,
      "loss": 2.3869,
      "step": 4026
    },
    {
      "epoch": 0.0894888888888889,
      "grad_norm": 1.2937724590301514,
      "learning_rate": 0.00018214269837741722,
      "loss": 1.7115,
      "step": 4027
    },
    {
      "epoch": 0.08951111111111111,
      "grad_norm": 1.3780187368392944,
      "learning_rate": 0.00018213825294509893,
      "loss": 1.8938,
      "step": 4028
    },
    {
      "epoch": 0.08953333333333334,
      "grad_norm": 1.5479607582092285,
      "learning_rate": 0.00018213380751278061,
      "loss": 2.4191,
      "step": 4029
    },
    {
      "epoch": 0.08955555555555555,
      "grad_norm": 1.3018114566802979,
      "learning_rate": 0.00018212936208046235,
      "loss": 1.9965,
      "step": 4030
    },
    {
      "epoch": 0.08957777777777778,
      "grad_norm": 1.505035638809204,
      "learning_rate": 0.00018212491664814403,
      "loss": 2.3121,
      "step": 4031
    },
    {
      "epoch": 0.0896,
      "grad_norm": 1.39242684841156,
      "learning_rate": 0.00018212047121582574,
      "loss": 1.6258,
      "step": 4032
    },
    {
      "epoch": 0.08962222222222223,
      "grad_norm": 1.5285018682479858,
      "learning_rate": 0.00018211602578350745,
      "loss": 2.3059,
      "step": 4033
    },
    {
      "epoch": 0.08964444444444444,
      "grad_norm": 1.3786457777023315,
      "learning_rate": 0.00018211158035118916,
      "loss": 1.9854,
      "step": 4034
    },
    {
      "epoch": 0.08966666666666667,
      "grad_norm": 1.4496877193450928,
      "learning_rate": 0.00018210713491887087,
      "loss": 2.0708,
      "step": 4035
    },
    {
      "epoch": 0.08968888888888889,
      "grad_norm": 1.1986298561096191,
      "learning_rate": 0.00018210268948655258,
      "loss": 1.7447,
      "step": 4036
    },
    {
      "epoch": 0.08971111111111112,
      "grad_norm": 1.2278554439544678,
      "learning_rate": 0.0001820982440542343,
      "loss": 2.1479,
      "step": 4037
    },
    {
      "epoch": 0.08973333333333333,
      "grad_norm": 1.1859891414642334,
      "learning_rate": 0.000182093798621916,
      "loss": 1.5363,
      "step": 4038
    },
    {
      "epoch": 0.08975555555555556,
      "grad_norm": 1.2920050621032715,
      "learning_rate": 0.0001820893531895977,
      "loss": 1.7126,
      "step": 4039
    },
    {
      "epoch": 0.08977777777777778,
      "grad_norm": 1.2669432163238525,
      "learning_rate": 0.0001820849077572794,
      "loss": 1.8844,
      "step": 4040
    },
    {
      "epoch": 0.0898,
      "grad_norm": 1.3032450675964355,
      "learning_rate": 0.00018208046232496113,
      "loss": 1.5503,
      "step": 4041
    },
    {
      "epoch": 0.08982222222222222,
      "grad_norm": 1.9114999771118164,
      "learning_rate": 0.0001820760168926428,
      "loss": 2.1349,
      "step": 4042
    },
    {
      "epoch": 0.08984444444444445,
      "grad_norm": 1.7164593935012817,
      "learning_rate": 0.00018207157146032452,
      "loss": 2.4535,
      "step": 4043
    },
    {
      "epoch": 0.08986666666666666,
      "grad_norm": 1.281882405281067,
      "learning_rate": 0.00018206712602800623,
      "loss": 1.6772,
      "step": 4044
    },
    {
      "epoch": 0.0898888888888889,
      "grad_norm": 1.291181206703186,
      "learning_rate": 0.00018206268059568794,
      "loss": 1.77,
      "step": 4045
    },
    {
      "epoch": 0.08991111111111111,
      "grad_norm": 1.5831859111785889,
      "learning_rate": 0.00018205823516336965,
      "loss": 2.1031,
      "step": 4046
    },
    {
      "epoch": 0.08993333333333334,
      "grad_norm": 1.6419646739959717,
      "learning_rate": 0.00018205378973105136,
      "loss": 2.1175,
      "step": 4047
    },
    {
      "epoch": 0.08995555555555555,
      "grad_norm": 1.4621165990829468,
      "learning_rate": 0.00018204934429873307,
      "loss": 1.9295,
      "step": 4048
    },
    {
      "epoch": 0.08997777777777778,
      "grad_norm": 1.4456675052642822,
      "learning_rate": 0.00018204489886641475,
      "loss": 1.4717,
      "step": 4049
    },
    {
      "epoch": 0.09,
      "grad_norm": 1.8878512382507324,
      "learning_rate": 0.0001820404534340965,
      "loss": 1.4931,
      "step": 4050
    },
    {
      "epoch": 0.09002222222222223,
      "grad_norm": 0.33234038949012756,
      "learning_rate": 0.00018203600800177817,
      "loss": 0.0248,
      "step": 4051
    },
    {
      "epoch": 0.09004444444444444,
      "grad_norm": 1.067193627357483,
      "learning_rate": 0.00018203156256945988,
      "loss": 2.1954,
      "step": 4052
    },
    {
      "epoch": 0.09006666666666667,
      "grad_norm": 1.11116361618042,
      "learning_rate": 0.0001820271171371416,
      "loss": 2.4635,
      "step": 4053
    },
    {
      "epoch": 0.09008888888888889,
      "grad_norm": 6.025672435760498,
      "learning_rate": 0.0001820226717048233,
      "loss": 0.5715,
      "step": 4054
    },
    {
      "epoch": 0.09011111111111111,
      "grad_norm": 1.2340022325515747,
      "learning_rate": 0.000182018226272505,
      "loss": 2.4092,
      "step": 4055
    },
    {
      "epoch": 0.09013333333333333,
      "grad_norm": 1.2766684293746948,
      "learning_rate": 0.00018201378084018672,
      "loss": 2.0936,
      "step": 4056
    },
    {
      "epoch": 0.09015555555555556,
      "grad_norm": 1.2358952760696411,
      "learning_rate": 0.00018200933540786843,
      "loss": 2.5282,
      "step": 4057
    },
    {
      "epoch": 0.09017777777777777,
      "grad_norm": 1.080397129058838,
      "learning_rate": 0.00018200488997555014,
      "loss": 2.1662,
      "step": 4058
    },
    {
      "epoch": 0.0902,
      "grad_norm": 1.2267324924468994,
      "learning_rate": 0.00018200044454323185,
      "loss": 2.2952,
      "step": 4059
    },
    {
      "epoch": 0.09022222222222222,
      "grad_norm": 1.363930344581604,
      "learning_rate": 0.00018199599911091353,
      "loss": 2.3119,
      "step": 4060
    },
    {
      "epoch": 0.09024444444444445,
      "grad_norm": 1.7942321300506592,
      "learning_rate": 0.00018199155367859527,
      "loss": 2.6284,
      "step": 4061
    },
    {
      "epoch": 0.09026666666666666,
      "grad_norm": 1.4145745038986206,
      "learning_rate": 0.00018198710824627695,
      "loss": 2.7728,
      "step": 4062
    },
    {
      "epoch": 0.09028888888888889,
      "grad_norm": 1.1446871757507324,
      "learning_rate": 0.00018198266281395866,
      "loss": 1.8908,
      "step": 4063
    },
    {
      "epoch": 0.0903111111111111,
      "grad_norm": 1.2324484586715698,
      "learning_rate": 0.00018197821738164037,
      "loss": 2.1921,
      "step": 4064
    },
    {
      "epoch": 0.09033333333333333,
      "grad_norm": 1.2518575191497803,
      "learning_rate": 0.00018197377194932208,
      "loss": 2.0331,
      "step": 4065
    },
    {
      "epoch": 0.09035555555555555,
      "grad_norm": 1.296597957611084,
      "learning_rate": 0.0001819693265170038,
      "loss": 2.3096,
      "step": 4066
    },
    {
      "epoch": 0.09037777777777778,
      "grad_norm": 1.4862322807312012,
      "learning_rate": 0.0001819648810846855,
      "loss": 2.2494,
      "step": 4067
    },
    {
      "epoch": 0.0904,
      "grad_norm": 1.2500277757644653,
      "learning_rate": 0.0001819604356523672,
      "loss": 1.8087,
      "step": 4068
    },
    {
      "epoch": 0.09042222222222222,
      "grad_norm": 1.2148723602294922,
      "learning_rate": 0.0001819559902200489,
      "loss": 2.1848,
      "step": 4069
    },
    {
      "epoch": 0.09044444444444444,
      "grad_norm": 1.2145519256591797,
      "learning_rate": 0.00018195154478773063,
      "loss": 0.9238,
      "step": 4070
    },
    {
      "epoch": 0.09046666666666667,
      "grad_norm": 1.3164136409759521,
      "learning_rate": 0.0001819470993554123,
      "loss": 2.0691,
      "step": 4071
    },
    {
      "epoch": 0.09048888888888888,
      "grad_norm": 1.2843410968780518,
      "learning_rate": 0.00018194265392309402,
      "loss": 1.8868,
      "step": 4072
    },
    {
      "epoch": 0.09051111111111111,
      "grad_norm": 1.3158208131790161,
      "learning_rate": 0.00018193820849077573,
      "loss": 1.4847,
      "step": 4073
    },
    {
      "epoch": 0.09053333333333333,
      "grad_norm": 1.7421456575393677,
      "learning_rate": 0.00018193376305845744,
      "loss": 1.9892,
      "step": 4074
    },
    {
      "epoch": 0.09055555555555556,
      "grad_norm": 1.2904186248779297,
      "learning_rate": 0.00018192931762613915,
      "loss": 1.6743,
      "step": 4075
    },
    {
      "epoch": 0.09057777777777777,
      "grad_norm": 1.356465220451355,
      "learning_rate": 0.00018192487219382086,
      "loss": 2.2248,
      "step": 4076
    },
    {
      "epoch": 0.0906,
      "grad_norm": 1.4544111490249634,
      "learning_rate": 0.00018192042676150257,
      "loss": 1.499,
      "step": 4077
    },
    {
      "epoch": 0.09062222222222223,
      "grad_norm": 1.1715073585510254,
      "learning_rate": 0.00018191598132918428,
      "loss": 2.044,
      "step": 4078
    },
    {
      "epoch": 0.09064444444444444,
      "grad_norm": 1.368010401725769,
      "learning_rate": 0.000181911535896866,
      "loss": 2.4096,
      "step": 4079
    },
    {
      "epoch": 0.09066666666666667,
      "grad_norm": 1.209328532218933,
      "learning_rate": 0.00018190709046454767,
      "loss": 2.0634,
      "step": 4080
    },
    {
      "epoch": 0.09068888888888889,
      "grad_norm": 1.1925572156906128,
      "learning_rate": 0.0001819026450322294,
      "loss": 1.7468,
      "step": 4081
    },
    {
      "epoch": 0.09071111111111112,
      "grad_norm": 1.38496994972229,
      "learning_rate": 0.0001818981995999111,
      "loss": 2.1352,
      "step": 4082
    },
    {
      "epoch": 0.09073333333333333,
      "grad_norm": 1.2292604446411133,
      "learning_rate": 0.0001818937541675928,
      "loss": 1.8989,
      "step": 4083
    },
    {
      "epoch": 0.09075555555555556,
      "grad_norm": 1.361112117767334,
      "learning_rate": 0.00018188930873527453,
      "loss": 2.4108,
      "step": 4084
    },
    {
      "epoch": 0.09077777777777778,
      "grad_norm": 1.3043910264968872,
      "learning_rate": 0.00018188486330295622,
      "loss": 2.2388,
      "step": 4085
    },
    {
      "epoch": 0.0908,
      "grad_norm": 1.2776652574539185,
      "learning_rate": 0.00018188041787063793,
      "loss": 2.1992,
      "step": 4086
    },
    {
      "epoch": 0.09082222222222222,
      "grad_norm": 1.2072038650512695,
      "learning_rate": 0.00018187597243831964,
      "loss": 1.9774,
      "step": 4087
    },
    {
      "epoch": 0.09084444444444445,
      "grad_norm": 1.2190172672271729,
      "learning_rate": 0.00018187152700600135,
      "loss": 2.0718,
      "step": 4088
    },
    {
      "epoch": 0.09086666666666667,
      "grad_norm": 1.5369328260421753,
      "learning_rate": 0.00018186708157368303,
      "loss": 2.3374,
      "step": 4089
    },
    {
      "epoch": 0.0908888888888889,
      "grad_norm": 1.2563663721084595,
      "learning_rate": 0.00018186263614136477,
      "loss": 1.7178,
      "step": 4090
    },
    {
      "epoch": 0.09091111111111111,
      "grad_norm": 1.189376950263977,
      "learning_rate": 0.00018185819070904645,
      "loss": 1.8669,
      "step": 4091
    },
    {
      "epoch": 0.09093333333333334,
      "grad_norm": 1.274102807044983,
      "learning_rate": 0.00018185374527672816,
      "loss": 2.2547,
      "step": 4092
    },
    {
      "epoch": 0.09095555555555555,
      "grad_norm": 1.4080109596252441,
      "learning_rate": 0.0001818492998444099,
      "loss": 2.0774,
      "step": 4093
    },
    {
      "epoch": 0.09097777777777778,
      "grad_norm": 1.2916828393936157,
      "learning_rate": 0.00018184485441209158,
      "loss": 1.6038,
      "step": 4094
    },
    {
      "epoch": 0.091,
      "grad_norm": 1.2181613445281982,
      "learning_rate": 0.0001818404089797733,
      "loss": 1.8275,
      "step": 4095
    },
    {
      "epoch": 0.09102222222222223,
      "grad_norm": 1.469650149345398,
      "learning_rate": 0.000181835963547455,
      "loss": 2.0016,
      "step": 4096
    },
    {
      "epoch": 0.09104444444444444,
      "grad_norm": 1.3400145769119263,
      "learning_rate": 0.0001818315181151367,
      "loss": 1.8783,
      "step": 4097
    },
    {
      "epoch": 0.09106666666666667,
      "grad_norm": 1.454121708869934,
      "learning_rate": 0.00018182707268281842,
      "loss": 1.7824,
      "step": 4098
    },
    {
      "epoch": 0.09108888888888889,
      "grad_norm": 1.7567150592803955,
      "learning_rate": 0.00018182262725050012,
      "loss": 2.1554,
      "step": 4099
    },
    {
      "epoch": 0.09111111111111111,
      "grad_norm": 1.4065117835998535,
      "learning_rate": 0.00018181818181818183,
      "loss": 1.4674,
      "step": 4100
    },
    {
      "epoch": 0.09113333333333333,
      "grad_norm": 1.067503809928894,
      "learning_rate": 0.00018181373638586354,
      "loss": 2.7277,
      "step": 4101
    },
    {
      "epoch": 0.09115555555555556,
      "grad_norm": 1.1799376010894775,
      "learning_rate": 0.00018180929095354525,
      "loss": 2.6751,
      "step": 4102
    },
    {
      "epoch": 0.09117777777777777,
      "grad_norm": 1.2468464374542236,
      "learning_rate": 0.00018180484552122694,
      "loss": 2.3971,
      "step": 4103
    },
    {
      "epoch": 0.0912,
      "grad_norm": 1.1874558925628662,
      "learning_rate": 0.00018180040008890867,
      "loss": 2.6052,
      "step": 4104
    },
    {
      "epoch": 0.09122222222222222,
      "grad_norm": 1.1237014532089233,
      "learning_rate": 0.00018179595465659036,
      "loss": 2.2262,
      "step": 4105
    },
    {
      "epoch": 0.09124444444444445,
      "grad_norm": 0.9946170449256897,
      "learning_rate": 0.00018179150922427206,
      "loss": 1.5529,
      "step": 4106
    },
    {
      "epoch": 0.09126666666666666,
      "grad_norm": 1.1014432907104492,
      "learning_rate": 0.00018178706379195377,
      "loss": 2.4072,
      "step": 4107
    },
    {
      "epoch": 0.09128888888888889,
      "grad_norm": 1.0999475717544556,
      "learning_rate": 0.00018178261835963548,
      "loss": 1.9625,
      "step": 4108
    },
    {
      "epoch": 0.0913111111111111,
      "grad_norm": 1.183287501335144,
      "learning_rate": 0.0001817781729273172,
      "loss": 1.9984,
      "step": 4109
    },
    {
      "epoch": 0.09133333333333334,
      "grad_norm": 1.2450661659240723,
      "learning_rate": 0.0001817737274949989,
      "loss": 2.1961,
      "step": 4110
    },
    {
      "epoch": 0.09135555555555555,
      "grad_norm": 1.2629178762435913,
      "learning_rate": 0.0001817692820626806,
      "loss": 2.0241,
      "step": 4111
    },
    {
      "epoch": 0.09137777777777778,
      "grad_norm": 1.1407676935195923,
      "learning_rate": 0.0001817648366303623,
      "loss": 2.3813,
      "step": 4112
    },
    {
      "epoch": 0.0914,
      "grad_norm": 1.1981663703918457,
      "learning_rate": 0.00018176039119804403,
      "loss": 2.127,
      "step": 4113
    },
    {
      "epoch": 0.09142222222222222,
      "grad_norm": 1.6344211101531982,
      "learning_rate": 0.00018175594576572571,
      "loss": 2.3908,
      "step": 4114
    },
    {
      "epoch": 0.09144444444444444,
      "grad_norm": 1.4242089986801147,
      "learning_rate": 0.00018175150033340745,
      "loss": 2.4322,
      "step": 4115
    },
    {
      "epoch": 0.09146666666666667,
      "grad_norm": 1.284766674041748,
      "learning_rate": 0.00018174705490108913,
      "loss": 2.2547,
      "step": 4116
    },
    {
      "epoch": 0.09148888888888888,
      "grad_norm": 1.1385011672973633,
      "learning_rate": 0.00018174260946877084,
      "loss": 1.7965,
      "step": 4117
    },
    {
      "epoch": 0.09151111111111111,
      "grad_norm": 1.1987061500549316,
      "learning_rate": 0.00018173816403645255,
      "loss": 1.9546,
      "step": 4118
    },
    {
      "epoch": 0.09153333333333333,
      "grad_norm": 1.543986201286316,
      "learning_rate": 0.00018173371860413426,
      "loss": 2.2107,
      "step": 4119
    },
    {
      "epoch": 0.09155555555555556,
      "grad_norm": 1.3513902425765991,
      "learning_rate": 0.00018172927317181597,
      "loss": 2.2166,
      "step": 4120
    },
    {
      "epoch": 0.09157777777777777,
      "grad_norm": 1.5229825973510742,
      "learning_rate": 0.00018172482773949768,
      "loss": 2.1961,
      "step": 4121
    },
    {
      "epoch": 0.0916,
      "grad_norm": 1.3071125745773315,
      "learning_rate": 0.0001817203823071794,
      "loss": 2.2583,
      "step": 4122
    },
    {
      "epoch": 0.09162222222222222,
      "grad_norm": 1.1928024291992188,
      "learning_rate": 0.00018171593687486107,
      "loss": 2.064,
      "step": 4123
    },
    {
      "epoch": 0.09164444444444445,
      "grad_norm": 1.4223048686981201,
      "learning_rate": 0.0001817114914425428,
      "loss": 2.051,
      "step": 4124
    },
    {
      "epoch": 0.09166666666666666,
      "grad_norm": 1.1061046123504639,
      "learning_rate": 0.0001817070460102245,
      "loss": 1.6612,
      "step": 4125
    },
    {
      "epoch": 0.09168888888888889,
      "grad_norm": 1.3171643018722534,
      "learning_rate": 0.0001817026005779062,
      "loss": 2.4557,
      "step": 4126
    },
    {
      "epoch": 0.0917111111111111,
      "grad_norm": 1.4509333372116089,
      "learning_rate": 0.0001816981551455879,
      "loss": 2.2647,
      "step": 4127
    },
    {
      "epoch": 0.09173333333333333,
      "grad_norm": 1.041982650756836,
      "learning_rate": 0.00018169370971326962,
      "loss": 1.0209,
      "step": 4128
    },
    {
      "epoch": 0.09175555555555556,
      "grad_norm": 1.3982865810394287,
      "learning_rate": 0.00018168926428095133,
      "loss": 1.6007,
      "step": 4129
    },
    {
      "epoch": 0.09177777777777778,
      "grad_norm": 1.341732144355774,
      "learning_rate": 0.00018168481884863304,
      "loss": 2.0328,
      "step": 4130
    },
    {
      "epoch": 0.0918,
      "grad_norm": 1.386540412902832,
      "learning_rate": 0.00018168037341631475,
      "loss": 2.1151,
      "step": 4131
    },
    {
      "epoch": 0.09182222222222222,
      "grad_norm": 1.4547587633132935,
      "learning_rate": 0.00018167592798399646,
      "loss": 2.2619,
      "step": 4132
    },
    {
      "epoch": 0.09184444444444445,
      "grad_norm": 1.330428123474121,
      "learning_rate": 0.00018167148255167817,
      "loss": 2.0824,
      "step": 4133
    },
    {
      "epoch": 0.09186666666666667,
      "grad_norm": 1.92506742477417,
      "learning_rate": 0.00018166703711935985,
      "loss": 1.9639,
      "step": 4134
    },
    {
      "epoch": 0.0918888888888889,
      "grad_norm": 1.524463176727295,
      "learning_rate": 0.0001816625916870416,
      "loss": 1.9331,
      "step": 4135
    },
    {
      "epoch": 0.09191111111111111,
      "grad_norm": 1.3584568500518799,
      "learning_rate": 0.00018165814625472327,
      "loss": 2.1083,
      "step": 4136
    },
    {
      "epoch": 0.09193333333333334,
      "grad_norm": 1.2452504634857178,
      "learning_rate": 0.00018165370082240498,
      "loss": 1.6683,
      "step": 4137
    },
    {
      "epoch": 0.09195555555555555,
      "grad_norm": 1.5261337757110596,
      "learning_rate": 0.0001816492553900867,
      "loss": 2.023,
      "step": 4138
    },
    {
      "epoch": 0.09197777777777778,
      "grad_norm": 1.327707052230835,
      "learning_rate": 0.0001816448099577684,
      "loss": 1.863,
      "step": 4139
    },
    {
      "epoch": 0.092,
      "grad_norm": 1.279916524887085,
      "learning_rate": 0.0001816403645254501,
      "loss": 1.821,
      "step": 4140
    },
    {
      "epoch": 0.09202222222222223,
      "grad_norm": 1.303451418876648,
      "learning_rate": 0.00018163591909313182,
      "loss": 1.9548,
      "step": 4141
    },
    {
      "epoch": 0.09204444444444444,
      "grad_norm": 1.4252902269363403,
      "learning_rate": 0.00018163147366081353,
      "loss": 2.0182,
      "step": 4142
    },
    {
      "epoch": 0.09206666666666667,
      "grad_norm": 1.4667932987213135,
      "learning_rate": 0.0001816270282284952,
      "loss": 1.988,
      "step": 4143
    },
    {
      "epoch": 0.09208888888888889,
      "grad_norm": 1.4066476821899414,
      "learning_rate": 0.00018162258279617695,
      "loss": 2.0203,
      "step": 4144
    },
    {
      "epoch": 0.09211111111111112,
      "grad_norm": 1.4897884130477905,
      "learning_rate": 0.00018161813736385863,
      "loss": 2.0111,
      "step": 4145
    },
    {
      "epoch": 0.09213333333333333,
      "grad_norm": 1.6931284666061401,
      "learning_rate": 0.00018161369193154034,
      "loss": 1.9726,
      "step": 4146
    },
    {
      "epoch": 0.09215555555555556,
      "grad_norm": 1.417374610900879,
      "learning_rate": 0.00018160924649922205,
      "loss": 1.934,
      "step": 4147
    },
    {
      "epoch": 0.09217777777777778,
      "grad_norm": 1.4875603914260864,
      "learning_rate": 0.00018160480106690376,
      "loss": 2.0975,
      "step": 4148
    },
    {
      "epoch": 0.0922,
      "grad_norm": 1.4240719079971313,
      "learning_rate": 0.00018160035563458547,
      "loss": 1.8821,
      "step": 4149
    },
    {
      "epoch": 0.09222222222222222,
      "grad_norm": 1.3454698324203491,
      "learning_rate": 0.00018159591020226718,
      "loss": 1.1832,
      "step": 4150
    },
    {
      "epoch": 0.09224444444444445,
      "grad_norm": 1.187279224395752,
      "learning_rate": 0.0001815914647699489,
      "loss": 2.6025,
      "step": 4151
    },
    {
      "epoch": 0.09226666666666666,
      "grad_norm": 0.9831141233444214,
      "learning_rate": 0.0001815870193376306,
      "loss": 2.0989,
      "step": 4152
    },
    {
      "epoch": 0.09228888888888889,
      "grad_norm": 1.077631950378418,
      "learning_rate": 0.0001815825739053123,
      "loss": 1.1146,
      "step": 4153
    },
    {
      "epoch": 0.09231111111111111,
      "grad_norm": 1.36410391330719,
      "learning_rate": 0.000181578128472994,
      "loss": 1.6986,
      "step": 4154
    },
    {
      "epoch": 0.09233333333333334,
      "grad_norm": 1.1403145790100098,
      "learning_rate": 0.00018157368304067573,
      "loss": 1.9825,
      "step": 4155
    },
    {
      "epoch": 0.09235555555555555,
      "grad_norm": 1.1738941669464111,
      "learning_rate": 0.0001815692376083574,
      "loss": 2.196,
      "step": 4156
    },
    {
      "epoch": 0.09237777777777778,
      "grad_norm": 1.170693278312683,
      "learning_rate": 0.00018156479217603912,
      "loss": 2.5959,
      "step": 4157
    },
    {
      "epoch": 0.0924,
      "grad_norm": 1.2521940469741821,
      "learning_rate": 0.00018156034674372086,
      "loss": 2.0433,
      "step": 4158
    },
    {
      "epoch": 0.09242222222222223,
      "grad_norm": 1.8422415256500244,
      "learning_rate": 0.00018155590131140254,
      "loss": 2.2061,
      "step": 4159
    },
    {
      "epoch": 0.09244444444444444,
      "grad_norm": 1.1428771018981934,
      "learning_rate": 0.00018155145587908425,
      "loss": 1.8359,
      "step": 4160
    },
    {
      "epoch": 0.09246666666666667,
      "grad_norm": 1.272699236869812,
      "learning_rate": 0.00018154701044676596,
      "loss": 2.0727,
      "step": 4161
    },
    {
      "epoch": 0.09248888888888888,
      "grad_norm": 1.3834130764007568,
      "learning_rate": 0.00018154256501444767,
      "loss": 2.523,
      "step": 4162
    },
    {
      "epoch": 0.09251111111111111,
      "grad_norm": 1.2837368249893188,
      "learning_rate": 0.00018153811958212935,
      "loss": 2.0416,
      "step": 4163
    },
    {
      "epoch": 0.09253333333333333,
      "grad_norm": 1.3925597667694092,
      "learning_rate": 0.0001815336741498111,
      "loss": 2.1914,
      "step": 4164
    },
    {
      "epoch": 0.09255555555555556,
      "grad_norm": 1.2541146278381348,
      "learning_rate": 0.00018152922871749277,
      "loss": 2.2622,
      "step": 4165
    },
    {
      "epoch": 0.09257777777777777,
      "grad_norm": 1.1055595874786377,
      "learning_rate": 0.00018152478328517448,
      "loss": 2.2316,
      "step": 4166
    },
    {
      "epoch": 0.0926,
      "grad_norm": 1.1584255695343018,
      "learning_rate": 0.00018152033785285622,
      "loss": 2.05,
      "step": 4167
    },
    {
      "epoch": 0.09262222222222222,
      "grad_norm": 1.4687235355377197,
      "learning_rate": 0.0001815158924205379,
      "loss": 2.7488,
      "step": 4168
    },
    {
      "epoch": 0.09264444444444445,
      "grad_norm": 1.6420753002166748,
      "learning_rate": 0.0001815114469882196,
      "loss": 1.6486,
      "step": 4169
    },
    {
      "epoch": 0.09266666666666666,
      "grad_norm": 1.29860258102417,
      "learning_rate": 0.00018150700155590132,
      "loss": 2.0112,
      "step": 4170
    },
    {
      "epoch": 0.09268888888888889,
      "grad_norm": 1.113627552986145,
      "learning_rate": 0.00018150255612358303,
      "loss": 1.7817,
      "step": 4171
    },
    {
      "epoch": 0.0927111111111111,
      "grad_norm": 1.347639799118042,
      "learning_rate": 0.00018149811069126474,
      "loss": 2.1989,
      "step": 4172
    },
    {
      "epoch": 0.09273333333333333,
      "grad_norm": 1.31053626537323,
      "learning_rate": 0.00018149366525894645,
      "loss": 2.2405,
      "step": 4173
    },
    {
      "epoch": 0.09275555555555555,
      "grad_norm": 1.0628243684768677,
      "learning_rate": 0.00018148921982662816,
      "loss": 1.2763,
      "step": 4174
    },
    {
      "epoch": 0.09277777777777778,
      "grad_norm": 1.509133219718933,
      "learning_rate": 0.00018148477439430987,
      "loss": 1.9642,
      "step": 4175
    },
    {
      "epoch": 0.0928,
      "grad_norm": 1.3447598218917847,
      "learning_rate": 0.00018148032896199158,
      "loss": 2.1625,
      "step": 4176
    },
    {
      "epoch": 0.09282222222222222,
      "grad_norm": 1.3930628299713135,
      "learning_rate": 0.00018147588352967326,
      "loss": 1.4658,
      "step": 4177
    },
    {
      "epoch": 0.09284444444444444,
      "grad_norm": 1.2476844787597656,
      "learning_rate": 0.000181471438097355,
      "loss": 1.7581,
      "step": 4178
    },
    {
      "epoch": 0.09286666666666667,
      "grad_norm": 1.6546212434768677,
      "learning_rate": 0.00018146699266503668,
      "loss": 1.8664,
      "step": 4179
    },
    {
      "epoch": 0.09288888888888888,
      "grad_norm": 1.2041245698928833,
      "learning_rate": 0.0001814625472327184,
      "loss": 2.0695,
      "step": 4180
    },
    {
      "epoch": 0.09291111111111111,
      "grad_norm": 1.5564019680023193,
      "learning_rate": 0.0001814581018004001,
      "loss": 2.3585,
      "step": 4181
    },
    {
      "epoch": 0.09293333333333334,
      "grad_norm": 1.8060500621795654,
      "learning_rate": 0.0001814536563680818,
      "loss": 2.6819,
      "step": 4182
    },
    {
      "epoch": 0.09295555555555556,
      "grad_norm": 1.2701903581619263,
      "learning_rate": 0.00018144921093576352,
      "loss": 2.2501,
      "step": 4183
    },
    {
      "epoch": 0.09297777777777778,
      "grad_norm": 1.4386299848556519,
      "learning_rate": 0.00018144476550344523,
      "loss": 2.0179,
      "step": 4184
    },
    {
      "epoch": 0.093,
      "grad_norm": 1.2705012559890747,
      "learning_rate": 0.00018144032007112694,
      "loss": 0.7869,
      "step": 4185
    },
    {
      "epoch": 0.09302222222222223,
      "grad_norm": 1.10904860496521,
      "learning_rate": 0.00018143587463880862,
      "loss": 1.1131,
      "step": 4186
    },
    {
      "epoch": 0.09304444444444444,
      "grad_norm": 1.481854796409607,
      "learning_rate": 0.00018143142920649035,
      "loss": 2.1458,
      "step": 4187
    },
    {
      "epoch": 0.09306666666666667,
      "grad_norm": 1.3963654041290283,
      "learning_rate": 0.00018142698377417204,
      "loss": 2.3388,
      "step": 4188
    },
    {
      "epoch": 0.09308888888888889,
      "grad_norm": 1.2234638929367065,
      "learning_rate": 0.00018142253834185377,
      "loss": 1.9841,
      "step": 4189
    },
    {
      "epoch": 0.09311111111111112,
      "grad_norm": 1.4090217351913452,
      "learning_rate": 0.00018141809290953546,
      "loss": 1.9881,
      "step": 4190
    },
    {
      "epoch": 0.09313333333333333,
      "grad_norm": 1.6126677989959717,
      "learning_rate": 0.00018141364747721717,
      "loss": 2.3224,
      "step": 4191
    },
    {
      "epoch": 0.09315555555555556,
      "grad_norm": 1.5788543224334717,
      "learning_rate": 0.00018140920204489888,
      "loss": 2.3603,
      "step": 4192
    },
    {
      "epoch": 0.09317777777777778,
      "grad_norm": 1.5272618532180786,
      "learning_rate": 0.00018140475661258058,
      "loss": 1.8782,
      "step": 4193
    },
    {
      "epoch": 0.0932,
      "grad_norm": 1.5217806100845337,
      "learning_rate": 0.0001814003111802623,
      "loss": 2.0306,
      "step": 4194
    },
    {
      "epoch": 0.09322222222222222,
      "grad_norm": 1.3852847814559937,
      "learning_rate": 0.000181395865747944,
      "loss": 2.1866,
      "step": 4195
    },
    {
      "epoch": 0.09324444444444445,
      "grad_norm": 1.3555530309677124,
      "learning_rate": 0.00018139142031562571,
      "loss": 1.7641,
      "step": 4196
    },
    {
      "epoch": 0.09326666666666666,
      "grad_norm": 1.4179768562316895,
      "learning_rate": 0.0001813869748833074,
      "loss": 1.7759,
      "step": 4197
    },
    {
      "epoch": 0.0932888888888889,
      "grad_norm": 1.8198423385620117,
      "learning_rate": 0.00018138252945098913,
      "loss": 2.0111,
      "step": 4198
    },
    {
      "epoch": 0.09331111111111111,
      "grad_norm": 1.2606964111328125,
      "learning_rate": 0.00018137808401867082,
      "loss": 1.7961,
      "step": 4199
    },
    {
      "epoch": 0.09333333333333334,
      "grad_norm": 1.642815113067627,
      "learning_rate": 0.00018137363858635253,
      "loss": 2.0713,
      "step": 4200
    },
    {
      "epoch": 0.09335555555555555,
      "grad_norm": 1.0824311971664429,
      "learning_rate": 0.00018136919315403423,
      "loss": 2.3005,
      "step": 4201
    },
    {
      "epoch": 0.09337777777777778,
      "grad_norm": 1.268574833869934,
      "learning_rate": 0.00018136474772171594,
      "loss": 2.679,
      "step": 4202
    },
    {
      "epoch": 0.0934,
      "grad_norm": 1.0037251710891724,
      "learning_rate": 0.00018136030228939765,
      "loss": 2.3274,
      "step": 4203
    },
    {
      "epoch": 0.09342222222222223,
      "grad_norm": 1.1797771453857422,
      "learning_rate": 0.00018135585685707936,
      "loss": 2.5565,
      "step": 4204
    },
    {
      "epoch": 0.09344444444444444,
      "grad_norm": 0.8439913392066956,
      "learning_rate": 0.00018135141142476107,
      "loss": 1.1975,
      "step": 4205
    },
    {
      "epoch": 0.09346666666666667,
      "grad_norm": 2.013122320175171,
      "learning_rate": 0.00018134696599244276,
      "loss": 1.3977,
      "step": 4206
    },
    {
      "epoch": 0.09348888888888889,
      "grad_norm": 1.0435880422592163,
      "learning_rate": 0.0001813425205601245,
      "loss": 2.1787,
      "step": 4207
    },
    {
      "epoch": 0.09351111111111111,
      "grad_norm": 1.1416970491409302,
      "learning_rate": 0.00018133807512780617,
      "loss": 2.3445,
      "step": 4208
    },
    {
      "epoch": 0.09353333333333333,
      "grad_norm": 2.4251341819763184,
      "learning_rate": 0.0001813336296954879,
      "loss": 2.1292,
      "step": 4209
    },
    {
      "epoch": 0.09355555555555556,
      "grad_norm": 1.3286365270614624,
      "learning_rate": 0.0001813291842631696,
      "loss": 2.6483,
      "step": 4210
    },
    {
      "epoch": 0.09357777777777777,
      "grad_norm": 3.780172824859619,
      "learning_rate": 0.0001813247388308513,
      "loss": 2.3436,
      "step": 4211
    },
    {
      "epoch": 0.0936,
      "grad_norm": 1.190225601196289,
      "learning_rate": 0.000181320293398533,
      "loss": 1.0689,
      "step": 4212
    },
    {
      "epoch": 0.09362222222222222,
      "grad_norm": 1.3211151361465454,
      "learning_rate": 0.00018131584796621472,
      "loss": 2.0866,
      "step": 4213
    },
    {
      "epoch": 0.09364444444444445,
      "grad_norm": 1.102105736732483,
      "learning_rate": 0.00018131140253389643,
      "loss": 2.0576,
      "step": 4214
    },
    {
      "epoch": 0.09366666666666666,
      "grad_norm": 1.079500675201416,
      "learning_rate": 0.00018130695710157814,
      "loss": 1.3332,
      "step": 4215
    },
    {
      "epoch": 0.09368888888888889,
      "grad_norm": 1.3115174770355225,
      "learning_rate": 0.00018130251166925985,
      "loss": 2.5506,
      "step": 4216
    },
    {
      "epoch": 0.0937111111111111,
      "grad_norm": 1.547541618347168,
      "learning_rate": 0.00018129806623694153,
      "loss": 2.616,
      "step": 4217
    },
    {
      "epoch": 0.09373333333333334,
      "grad_norm": 1.1907072067260742,
      "learning_rate": 0.00018129362080462327,
      "loss": 2.0952,
      "step": 4218
    },
    {
      "epoch": 0.09375555555555555,
      "grad_norm": 1.5523000955581665,
      "learning_rate": 0.00018128917537230495,
      "loss": 2.4598,
      "step": 4219
    },
    {
      "epoch": 0.09377777777777778,
      "grad_norm": 1.2876936197280884,
      "learning_rate": 0.00018128472993998666,
      "loss": 1.7338,
      "step": 4220
    },
    {
      "epoch": 0.0938,
      "grad_norm": 1.2711793184280396,
      "learning_rate": 0.00018128028450766837,
      "loss": 2.3053,
      "step": 4221
    },
    {
      "epoch": 0.09382222222222222,
      "grad_norm": 1.5317453145980835,
      "learning_rate": 0.00018127583907535008,
      "loss": 1.99,
      "step": 4222
    },
    {
      "epoch": 0.09384444444444444,
      "grad_norm": 1.5987350940704346,
      "learning_rate": 0.0001812713936430318,
      "loss": 2.2579,
      "step": 4223
    },
    {
      "epoch": 0.09386666666666667,
      "grad_norm": 1.209079384803772,
      "learning_rate": 0.0001812669482107135,
      "loss": 2.1626,
      "step": 4224
    },
    {
      "epoch": 0.09388888888888888,
      "grad_norm": 1.1336803436279297,
      "learning_rate": 0.0001812625027783952,
      "loss": 1.1717,
      "step": 4225
    },
    {
      "epoch": 0.09391111111111111,
      "grad_norm": 1.61040461063385,
      "learning_rate": 0.0001812580573460769,
      "loss": 2.2274,
      "step": 4226
    },
    {
      "epoch": 0.09393333333333333,
      "grad_norm": 1.129787564277649,
      "learning_rate": 0.00018125361191375863,
      "loss": 1.3491,
      "step": 4227
    },
    {
      "epoch": 0.09395555555555556,
      "grad_norm": 1.1524302959442139,
      "learning_rate": 0.0001812491664814403,
      "loss": 1.5449,
      "step": 4228
    },
    {
      "epoch": 0.09397777777777777,
      "grad_norm": 1.4663796424865723,
      "learning_rate": 0.00018124472104912205,
      "loss": 2.4459,
      "step": 4229
    },
    {
      "epoch": 0.094,
      "grad_norm": 1.4033117294311523,
      "learning_rate": 0.00018124027561680373,
      "loss": 2.4515,
      "step": 4230
    },
    {
      "epoch": 0.09402222222222222,
      "grad_norm": 1.3667465448379517,
      "learning_rate": 0.00018123583018448544,
      "loss": 2.4104,
      "step": 4231
    },
    {
      "epoch": 0.09404444444444444,
      "grad_norm": 1.3276413679122925,
      "learning_rate": 0.00018123138475216718,
      "loss": 2.3673,
      "step": 4232
    },
    {
      "epoch": 0.09406666666666667,
      "grad_norm": 1.6873568296432495,
      "learning_rate": 0.00018122693931984886,
      "loss": 1.8131,
      "step": 4233
    },
    {
      "epoch": 0.09408888888888889,
      "grad_norm": 1.1830881834030151,
      "learning_rate": 0.00018122249388753057,
      "loss": 1.3195,
      "step": 4234
    },
    {
      "epoch": 0.09411111111111112,
      "grad_norm": 1.2423733472824097,
      "learning_rate": 0.00018121804845521228,
      "loss": 1.7322,
      "step": 4235
    },
    {
      "epoch": 0.09413333333333333,
      "grad_norm": 1.4849443435668945,
      "learning_rate": 0.000181213603022894,
      "loss": 2.2424,
      "step": 4236
    },
    {
      "epoch": 0.09415555555555556,
      "grad_norm": 1.2287132740020752,
      "learning_rate": 0.00018120915759057567,
      "loss": 1.5136,
      "step": 4237
    },
    {
      "epoch": 0.09417777777777778,
      "grad_norm": 1.350013017654419,
      "learning_rate": 0.0001812047121582574,
      "loss": 2.0541,
      "step": 4238
    },
    {
      "epoch": 0.0942,
      "grad_norm": 2.004333972930908,
      "learning_rate": 0.0001812002667259391,
      "loss": 2.1348,
      "step": 4239
    },
    {
      "epoch": 0.09422222222222222,
      "grad_norm": 1.4392337799072266,
      "learning_rate": 0.0001811958212936208,
      "loss": 1.9321,
      "step": 4240
    },
    {
      "epoch": 0.09424444444444445,
      "grad_norm": 1.5513615608215332,
      "learning_rate": 0.00018119137586130254,
      "loss": 2.2537,
      "step": 4241
    },
    {
      "epoch": 0.09426666666666667,
      "grad_norm": 1.2317965030670166,
      "learning_rate": 0.00018118693042898422,
      "loss": 1.636,
      "step": 4242
    },
    {
      "epoch": 0.0942888888888889,
      "grad_norm": 1.2938313484191895,
      "learning_rate": 0.00018118248499666593,
      "loss": 1.8187,
      "step": 4243
    },
    {
      "epoch": 0.09431111111111111,
      "grad_norm": 1.340935468673706,
      "learning_rate": 0.00018117803956434764,
      "loss": 1.5115,
      "step": 4244
    },
    {
      "epoch": 0.09433333333333334,
      "grad_norm": 1.7534791231155396,
      "learning_rate": 0.00018117359413202935,
      "loss": 1.7701,
      "step": 4245
    },
    {
      "epoch": 0.09435555555555555,
      "grad_norm": 1.4208885431289673,
      "learning_rate": 0.00018116914869971106,
      "loss": 1.7399,
      "step": 4246
    },
    {
      "epoch": 0.09437777777777778,
      "grad_norm": 1.6531567573547363,
      "learning_rate": 0.00018116470326739277,
      "loss": 1.9721,
      "step": 4247
    },
    {
      "epoch": 0.0944,
      "grad_norm": 1.0221691131591797,
      "learning_rate": 0.00018116025783507448,
      "loss": 0.9554,
      "step": 4248
    },
    {
      "epoch": 0.09442222222222223,
      "grad_norm": 0.8962246775627136,
      "learning_rate": 0.0001811558124027562,
      "loss": 0.6982,
      "step": 4249
    },
    {
      "epoch": 0.09444444444444444,
      "grad_norm": 1.6421195268630981,
      "learning_rate": 0.0001811513669704379,
      "loss": 1.818,
      "step": 4250
    },
    {
      "epoch": 0.09446666666666667,
      "grad_norm": 1.294623851776123,
      "learning_rate": 0.00018114692153811958,
      "loss": 2.2651,
      "step": 4251
    },
    {
      "epoch": 0.09448888888888889,
      "grad_norm": 1.2783280611038208,
      "learning_rate": 0.00018114247610580132,
      "loss": 2.6086,
      "step": 4252
    },
    {
      "epoch": 0.09451111111111112,
      "grad_norm": 1.3720486164093018,
      "learning_rate": 0.000181138030673483,
      "loss": 3.0212,
      "step": 4253
    },
    {
      "epoch": 0.09453333333333333,
      "grad_norm": 1.2371083498001099,
      "learning_rate": 0.0001811335852411647,
      "loss": 2.5947,
      "step": 4254
    },
    {
      "epoch": 0.09455555555555556,
      "grad_norm": 1.1510810852050781,
      "learning_rate": 0.00018112913980884642,
      "loss": 1.7774,
      "step": 4255
    },
    {
      "epoch": 0.09457777777777777,
      "grad_norm": 1.3002768754959106,
      "learning_rate": 0.00018112469437652813,
      "loss": 2.2432,
      "step": 4256
    },
    {
      "epoch": 0.0946,
      "grad_norm": 1.4122568368911743,
      "learning_rate": 0.00018112024894420984,
      "loss": 2.1229,
      "step": 4257
    },
    {
      "epoch": 0.09462222222222222,
      "grad_norm": 1.2634310722351074,
      "learning_rate": 0.00018111580351189155,
      "loss": 2.2565,
      "step": 4258
    },
    {
      "epoch": 0.09464444444444445,
      "grad_norm": 1.222751259803772,
      "learning_rate": 0.00018111135807957326,
      "loss": 2.288,
      "step": 4259
    },
    {
      "epoch": 0.09466666666666666,
      "grad_norm": 1.275425672531128,
      "learning_rate": 0.00018110691264725494,
      "loss": 1.8685,
      "step": 4260
    },
    {
      "epoch": 0.09468888888888889,
      "grad_norm": 1.3416695594787598,
      "learning_rate": 0.00018110246721493668,
      "loss": 2.0879,
      "step": 4261
    },
    {
      "epoch": 0.09471111111111111,
      "grad_norm": 1.304337978363037,
      "learning_rate": 0.00018109802178261836,
      "loss": 2.1505,
      "step": 4262
    },
    {
      "epoch": 0.09473333333333334,
      "grad_norm": 1.3516786098480225,
      "learning_rate": 0.00018109357635030007,
      "loss": 2.7259,
      "step": 4263
    },
    {
      "epoch": 0.09475555555555555,
      "grad_norm": 1.4799913167953491,
      "learning_rate": 0.00018108913091798178,
      "loss": 2.3552,
      "step": 4264
    },
    {
      "epoch": 0.09477777777777778,
      "grad_norm": 1.1678763628005981,
      "learning_rate": 0.0001810846854856635,
      "loss": 2.4232,
      "step": 4265
    },
    {
      "epoch": 0.0948,
      "grad_norm": 1.1596277952194214,
      "learning_rate": 0.0001810802400533452,
      "loss": 1.9048,
      "step": 4266
    },
    {
      "epoch": 0.09482222222222222,
      "grad_norm": 1.223615050315857,
      "learning_rate": 0.0001810757946210269,
      "loss": 1.8111,
      "step": 4267
    },
    {
      "epoch": 0.09484444444444444,
      "grad_norm": 1.3789392709732056,
      "learning_rate": 0.00018107134918870862,
      "loss": 1.8811,
      "step": 4268
    },
    {
      "epoch": 0.09486666666666667,
      "grad_norm": 1.5451769828796387,
      "learning_rate": 0.00018106690375639033,
      "loss": 2.4704,
      "step": 4269
    },
    {
      "epoch": 0.09488888888888888,
      "grad_norm": 1.3389593362808228,
      "learning_rate": 0.00018106245832407204,
      "loss": 2.049,
      "step": 4270
    },
    {
      "epoch": 0.09491111111111111,
      "grad_norm": 1.2102974653244019,
      "learning_rate": 0.00018105801289175372,
      "loss": 1.8909,
      "step": 4271
    },
    {
      "epoch": 0.09493333333333333,
      "grad_norm": 1.4268876314163208,
      "learning_rate": 0.00018105356745943546,
      "loss": 2.2258,
      "step": 4272
    },
    {
      "epoch": 0.09495555555555556,
      "grad_norm": 1.5768458843231201,
      "learning_rate": 0.00018104912202711714,
      "loss": 1.9996,
      "step": 4273
    },
    {
      "epoch": 0.09497777777777777,
      "grad_norm": 1.2787331342697144,
      "learning_rate": 0.00018104467659479885,
      "loss": 1.9048,
      "step": 4274
    },
    {
      "epoch": 0.095,
      "grad_norm": 1.0063116550445557,
      "learning_rate": 0.00018104023116248056,
      "loss": 1.1417,
      "step": 4275
    },
    {
      "epoch": 0.09502222222222222,
      "grad_norm": 1.2776713371276855,
      "learning_rate": 0.00018103578573016227,
      "loss": 2.0983,
      "step": 4276
    },
    {
      "epoch": 0.09504444444444445,
      "grad_norm": 1.7451448440551758,
      "learning_rate": 0.00018103134029784398,
      "loss": 1.7376,
      "step": 4277
    },
    {
      "epoch": 0.09506666666666666,
      "grad_norm": 1.3430607318878174,
      "learning_rate": 0.00018102689486552569,
      "loss": 2.0422,
      "step": 4278
    },
    {
      "epoch": 0.09508888888888889,
      "grad_norm": 1.5033154487609863,
      "learning_rate": 0.0001810224494332074,
      "loss": 2.2636,
      "step": 4279
    },
    {
      "epoch": 0.0951111111111111,
      "grad_norm": 1.2348893880844116,
      "learning_rate": 0.00018101800400088908,
      "loss": 1.5191,
      "step": 4280
    },
    {
      "epoch": 0.09513333333333333,
      "grad_norm": 1.6065969467163086,
      "learning_rate": 0.00018101355856857081,
      "loss": 1.7404,
      "step": 4281
    },
    {
      "epoch": 0.09515555555555555,
      "grad_norm": 1.1985697746276855,
      "learning_rate": 0.0001810091131362525,
      "loss": 1.7366,
      "step": 4282
    },
    {
      "epoch": 0.09517777777777778,
      "grad_norm": 1.2793217897415161,
      "learning_rate": 0.0001810046677039342,
      "loss": 1.8455,
      "step": 4283
    },
    {
      "epoch": 0.0952,
      "grad_norm": 1.4190576076507568,
      "learning_rate": 0.00018100022227161592,
      "loss": 2.15,
      "step": 4284
    },
    {
      "epoch": 0.09522222222222222,
      "grad_norm": 1.6962013244628906,
      "learning_rate": 0.00018099577683929763,
      "loss": 2.4338,
      "step": 4285
    },
    {
      "epoch": 0.09524444444444445,
      "grad_norm": 1.3325179815292358,
      "learning_rate": 0.00018099133140697934,
      "loss": 1.7976,
      "step": 4286
    },
    {
      "epoch": 0.09526666666666667,
      "grad_norm": 1.3189228773117065,
      "learning_rate": 0.00018098688597466105,
      "loss": 2.1157,
      "step": 4287
    },
    {
      "epoch": 0.0952888888888889,
      "grad_norm": 1.4062597751617432,
      "learning_rate": 0.00018098244054234275,
      "loss": 1.9111,
      "step": 4288
    },
    {
      "epoch": 0.09531111111111111,
      "grad_norm": 1.2860467433929443,
      "learning_rate": 0.00018097799511002446,
      "loss": 1.6923,
      "step": 4289
    },
    {
      "epoch": 0.09533333333333334,
      "grad_norm": 1.2095752954483032,
      "learning_rate": 0.00018097354967770617,
      "loss": 1.579,
      "step": 4290
    },
    {
      "epoch": 0.09535555555555555,
      "grad_norm": 1.528182864189148,
      "learning_rate": 0.00018096910424538786,
      "loss": 1.9927,
      "step": 4291
    },
    {
      "epoch": 0.09537777777777778,
      "grad_norm": 1.2321522235870361,
      "learning_rate": 0.0001809646588130696,
      "loss": 1.8781,
      "step": 4292
    },
    {
      "epoch": 0.0954,
      "grad_norm": 1.5300689935684204,
      "learning_rate": 0.00018096021338075128,
      "loss": 2.081,
      "step": 4293
    },
    {
      "epoch": 0.09542222222222223,
      "grad_norm": 1.2138551473617554,
      "learning_rate": 0.00018095576794843299,
      "loss": 1.4392,
      "step": 4294
    },
    {
      "epoch": 0.09544444444444444,
      "grad_norm": 1.5390785932540894,
      "learning_rate": 0.0001809513225161147,
      "loss": 1.9736,
      "step": 4295
    },
    {
      "epoch": 0.09546666666666667,
      "grad_norm": 1.4192858934402466,
      "learning_rate": 0.0001809468770837964,
      "loss": 1.8074,
      "step": 4296
    },
    {
      "epoch": 0.09548888888888889,
      "grad_norm": 1.7370961904525757,
      "learning_rate": 0.00018094243165147811,
      "loss": 2.2916,
      "step": 4297
    },
    {
      "epoch": 0.09551111111111112,
      "grad_norm": 1.2780367136001587,
      "learning_rate": 0.00018093798621915982,
      "loss": 1.7095,
      "step": 4298
    },
    {
      "epoch": 0.09553333333333333,
      "grad_norm": 1.3951181173324585,
      "learning_rate": 0.00018093354078684153,
      "loss": 2.0691,
      "step": 4299
    },
    {
      "epoch": 0.09555555555555556,
      "grad_norm": 1.4083855152130127,
      "learning_rate": 0.00018092909535452322,
      "loss": 0.0724,
      "step": 4300
    },
    {
      "epoch": 0.09557777777777778,
      "grad_norm": 0.9079444408416748,
      "learning_rate": 0.00018092464992220495,
      "loss": 0.0312,
      "step": 4301
    },
    {
      "epoch": 0.0956,
      "grad_norm": 1.3994101285934448,
      "learning_rate": 0.00018092020448988664,
      "loss": 2.8179,
      "step": 4302
    },
    {
      "epoch": 0.09562222222222222,
      "grad_norm": 1.0253506898880005,
      "learning_rate": 0.00018091575905756837,
      "loss": 2.4645,
      "step": 4303
    },
    {
      "epoch": 0.09564444444444445,
      "grad_norm": 0.9988961815834045,
      "learning_rate": 0.00018091131362525005,
      "loss": 2.3299,
      "step": 4304
    },
    {
      "epoch": 0.09566666666666666,
      "grad_norm": 1.1515384912490845,
      "learning_rate": 0.00018090686819293176,
      "loss": 2.4374,
      "step": 4305
    },
    {
      "epoch": 0.09568888888888889,
      "grad_norm": 1.3075590133666992,
      "learning_rate": 0.0001809024227606135,
      "loss": 2.3008,
      "step": 4306
    },
    {
      "epoch": 0.09571111111111111,
      "grad_norm": 1.123917818069458,
      "learning_rate": 0.00018089797732829518,
      "loss": 1.7689,
      "step": 4307
    },
    {
      "epoch": 0.09573333333333334,
      "grad_norm": 1.1856988668441772,
      "learning_rate": 0.0001808935318959769,
      "loss": 1.9832,
      "step": 4308
    },
    {
      "epoch": 0.09575555555555555,
      "grad_norm": 1.3103424310684204,
      "learning_rate": 0.0001808890864636586,
      "loss": 2.0647,
      "step": 4309
    },
    {
      "epoch": 0.09577777777777778,
      "grad_norm": 1.462695837020874,
      "learning_rate": 0.0001808846410313403,
      "loss": 1.106,
      "step": 4310
    },
    {
      "epoch": 0.0958,
      "grad_norm": 1.256929874420166,
      "learning_rate": 0.000180880195599022,
      "loss": 2.4581,
      "step": 4311
    },
    {
      "epoch": 0.09582222222222223,
      "grad_norm": 1.2270046472549438,
      "learning_rate": 0.00018087575016670373,
      "loss": 2.1377,
      "step": 4312
    },
    {
      "epoch": 0.09584444444444444,
      "grad_norm": 1.2823048830032349,
      "learning_rate": 0.00018087130473438541,
      "loss": 2.2922,
      "step": 4313
    },
    {
      "epoch": 0.09586666666666667,
      "grad_norm": 1.218608021736145,
      "learning_rate": 0.00018086685930206712,
      "loss": 1.9525,
      "step": 4314
    },
    {
      "epoch": 0.09588888888888888,
      "grad_norm": 1.298201560974121,
      "learning_rate": 0.00018086241386974886,
      "loss": 2.113,
      "step": 4315
    },
    {
      "epoch": 0.09591111111111111,
      "grad_norm": 1.27276611328125,
      "learning_rate": 0.00018085796843743054,
      "loss": 1.1977,
      "step": 4316
    },
    {
      "epoch": 0.09593333333333333,
      "grad_norm": 0.3113328814506531,
      "learning_rate": 0.00018085352300511225,
      "loss": 0.0398,
      "step": 4317
    },
    {
      "epoch": 0.09595555555555556,
      "grad_norm": 1.482030987739563,
      "learning_rate": 0.00018084907757279396,
      "loss": 2.2754,
      "step": 4318
    },
    {
      "epoch": 0.09597777777777777,
      "grad_norm": 1.1038774251937866,
      "learning_rate": 0.00018084463214047567,
      "loss": 1.7575,
      "step": 4319
    },
    {
      "epoch": 0.096,
      "grad_norm": 1.5362251996994019,
      "learning_rate": 0.00018084018670815735,
      "loss": 2.2929,
      "step": 4320
    },
    {
      "epoch": 0.09602222222222222,
      "grad_norm": 1.4543116092681885,
      "learning_rate": 0.0001808357412758391,
      "loss": 1.8894,
      "step": 4321
    },
    {
      "epoch": 0.09604444444444445,
      "grad_norm": 1.8341054916381836,
      "learning_rate": 0.0001808312958435208,
      "loss": 2.503,
      "step": 4322
    },
    {
      "epoch": 0.09606666666666666,
      "grad_norm": 1.3067163228988647,
      "learning_rate": 0.0001808268504112025,
      "loss": 1.9965,
      "step": 4323
    },
    {
      "epoch": 0.09608888888888889,
      "grad_norm": 1.318099856376648,
      "learning_rate": 0.00018082240497888422,
      "loss": 2.1736,
      "step": 4324
    },
    {
      "epoch": 0.0961111111111111,
      "grad_norm": 1.4188133478164673,
      "learning_rate": 0.0001808179595465659,
      "loss": 2.5916,
      "step": 4325
    },
    {
      "epoch": 0.09613333333333333,
      "grad_norm": 1.6572717428207397,
      "learning_rate": 0.00018081351411424764,
      "loss": 2.0161,
      "step": 4326
    },
    {
      "epoch": 0.09615555555555555,
      "grad_norm": 1.4251986742019653,
      "learning_rate": 0.00018080906868192932,
      "loss": 2.1169,
      "step": 4327
    },
    {
      "epoch": 0.09617777777777778,
      "grad_norm": 1.1902278661727905,
      "learning_rate": 0.00018080462324961103,
      "loss": 2.1141,
      "step": 4328
    },
    {
      "epoch": 0.0962,
      "grad_norm": 0.9251983761787415,
      "learning_rate": 0.00018080017781729274,
      "loss": 0.9708,
      "step": 4329
    },
    {
      "epoch": 0.09622222222222222,
      "grad_norm": 1.4548628330230713,
      "learning_rate": 0.00018079573238497445,
      "loss": 1.8184,
      "step": 4330
    },
    {
      "epoch": 0.09624444444444444,
      "grad_norm": 1.542205810546875,
      "learning_rate": 0.00018079128695265616,
      "loss": 2.2024,
      "step": 4331
    },
    {
      "epoch": 0.09626666666666667,
      "grad_norm": 1.196998953819275,
      "learning_rate": 0.00018078684152033787,
      "loss": 1.6554,
      "step": 4332
    },
    {
      "epoch": 0.09628888888888888,
      "grad_norm": 1.0667402744293213,
      "learning_rate": 0.00018078239608801958,
      "loss": 0.9449,
      "step": 4333
    },
    {
      "epoch": 0.09631111111111111,
      "grad_norm": 1.5856736898422241,
      "learning_rate": 0.00018077795065570126,
      "loss": 2.2405,
      "step": 4334
    },
    {
      "epoch": 0.09633333333333334,
      "grad_norm": 1.3911514282226562,
      "learning_rate": 0.000180773505223383,
      "loss": 1.9074,
      "step": 4335
    },
    {
      "epoch": 0.09635555555555556,
      "grad_norm": 1.4888899326324463,
      "learning_rate": 0.00018076905979106468,
      "loss": 1.9256,
      "step": 4336
    },
    {
      "epoch": 0.09637777777777778,
      "grad_norm": 1.3612645864486694,
      "learning_rate": 0.0001807646143587464,
      "loss": 1.928,
      "step": 4337
    },
    {
      "epoch": 0.0964,
      "grad_norm": 1.2366394996643066,
      "learning_rate": 0.0001807601689264281,
      "loss": 1.5805,
      "step": 4338
    },
    {
      "epoch": 0.09642222222222223,
      "grad_norm": 1.4254026412963867,
      "learning_rate": 0.0001807557234941098,
      "loss": 1.8367,
      "step": 4339
    },
    {
      "epoch": 0.09644444444444444,
      "grad_norm": 1.8091131448745728,
      "learning_rate": 0.00018075127806179152,
      "loss": 2.351,
      "step": 4340
    },
    {
      "epoch": 0.09646666666666667,
      "grad_norm": 1.4739104509353638,
      "learning_rate": 0.00018074683262947323,
      "loss": 1.834,
      "step": 4341
    },
    {
      "epoch": 0.09648888888888889,
      "grad_norm": 1.322166085243225,
      "learning_rate": 0.00018074238719715494,
      "loss": 1.9759,
      "step": 4342
    },
    {
      "epoch": 0.09651111111111112,
      "grad_norm": 1.3412140607833862,
      "learning_rate": 0.00018073794176483665,
      "loss": 2.081,
      "step": 4343
    },
    {
      "epoch": 0.09653333333333333,
      "grad_norm": 1.4519928693771362,
      "learning_rate": 0.00018073349633251836,
      "loss": 1.9883,
      "step": 4344
    },
    {
      "epoch": 0.09655555555555556,
      "grad_norm": 1.3364869356155396,
      "learning_rate": 0.00018072905090020004,
      "loss": 1.5963,
      "step": 4345
    },
    {
      "epoch": 0.09657777777777778,
      "grad_norm": 1.4493587017059326,
      "learning_rate": 0.00018072460546788178,
      "loss": 1.9617,
      "step": 4346
    },
    {
      "epoch": 0.0966,
      "grad_norm": 1.399957537651062,
      "learning_rate": 0.00018072016003556346,
      "loss": 1.7653,
      "step": 4347
    },
    {
      "epoch": 0.09662222222222222,
      "grad_norm": 1.750044584274292,
      "learning_rate": 0.00018071571460324517,
      "loss": 2.1182,
      "step": 4348
    },
    {
      "epoch": 0.09664444444444445,
      "grad_norm": 1.8996422290802002,
      "learning_rate": 0.00018071126917092688,
      "loss": 1.7376,
      "step": 4349
    },
    {
      "epoch": 0.09666666666666666,
      "grad_norm": 1.560601830482483,
      "learning_rate": 0.0001807068237386086,
      "loss": 0.5731,
      "step": 4350
    },
    {
      "epoch": 0.0966888888888889,
      "grad_norm": 1.0504833459854126,
      "learning_rate": 0.0001807023783062903,
      "loss": 2.3573,
      "step": 4351
    },
    {
      "epoch": 0.09671111111111111,
      "grad_norm": 1.4904145002365112,
      "learning_rate": 0.000180697932873972,
      "loss": 1.1591,
      "step": 4352
    },
    {
      "epoch": 0.09673333333333334,
      "grad_norm": 0.8558697700500488,
      "learning_rate": 0.00018069348744165372,
      "loss": 1.1718,
      "step": 4353
    },
    {
      "epoch": 0.09675555555555555,
      "grad_norm": 1.1474530696868896,
      "learning_rate": 0.0001806890420093354,
      "loss": 2.3552,
      "step": 4354
    },
    {
      "epoch": 0.09677777777777778,
      "grad_norm": 0.9881858825683594,
      "learning_rate": 0.00018068459657701714,
      "loss": 2.2725,
      "step": 4355
    },
    {
      "epoch": 0.0968,
      "grad_norm": 0.949849009513855,
      "learning_rate": 0.00018068015114469882,
      "loss": 1.6118,
      "step": 4356
    },
    {
      "epoch": 0.09682222222222223,
      "grad_norm": 1.2274798154830933,
      "learning_rate": 0.00018067570571238053,
      "loss": 2.2421,
      "step": 4357
    },
    {
      "epoch": 0.09684444444444444,
      "grad_norm": 1.1576870679855347,
      "learning_rate": 0.00018067126028006224,
      "loss": 2.2184,
      "step": 4358
    },
    {
      "epoch": 0.09686666666666667,
      "grad_norm": 1.0928457975387573,
      "learning_rate": 0.00018066681484774395,
      "loss": 1.9365,
      "step": 4359
    },
    {
      "epoch": 0.09688888888888889,
      "grad_norm": 1.1598966121673584,
      "learning_rate": 0.00018066236941542566,
      "loss": 2.282,
      "step": 4360
    },
    {
      "epoch": 0.09691111111111111,
      "grad_norm": 1.2059329748153687,
      "learning_rate": 0.00018065792398310737,
      "loss": 2.0386,
      "step": 4361
    },
    {
      "epoch": 0.09693333333333333,
      "grad_norm": 1.069584846496582,
      "learning_rate": 0.00018065347855078908,
      "loss": 1.6026,
      "step": 4362
    },
    {
      "epoch": 0.09695555555555556,
      "grad_norm": 1.3587257862091064,
      "learning_rate": 0.00018064903311847079,
      "loss": 1.929,
      "step": 4363
    },
    {
      "epoch": 0.09697777777777777,
      "grad_norm": 1.2386860847473145,
      "learning_rate": 0.0001806445876861525,
      "loss": 2.4121,
      "step": 4364
    },
    {
      "epoch": 0.097,
      "grad_norm": 1.2312818765640259,
      "learning_rate": 0.00018064014225383418,
      "loss": 2.1486,
      "step": 4365
    },
    {
      "epoch": 0.09702222222222222,
      "grad_norm": 1.272645115852356,
      "learning_rate": 0.00018063569682151592,
      "loss": 1.6875,
      "step": 4366
    },
    {
      "epoch": 0.09704444444444445,
      "grad_norm": 1.142034888267517,
      "learning_rate": 0.0001806312513891976,
      "loss": 2.1747,
      "step": 4367
    },
    {
      "epoch": 0.09706666666666666,
      "grad_norm": 1.1463781595230103,
      "learning_rate": 0.0001806268059568793,
      "loss": 1.2144,
      "step": 4368
    },
    {
      "epoch": 0.09708888888888889,
      "grad_norm": 1.3081779479980469,
      "learning_rate": 0.00018062236052456102,
      "loss": 2.2114,
      "step": 4369
    },
    {
      "epoch": 0.0971111111111111,
      "grad_norm": 1.6387537717819214,
      "learning_rate": 0.00018061791509224273,
      "loss": 2.2408,
      "step": 4370
    },
    {
      "epoch": 0.09713333333333334,
      "grad_norm": 1.271367073059082,
      "learning_rate": 0.00018061346965992444,
      "loss": 2.1865,
      "step": 4371
    },
    {
      "epoch": 0.09715555555555555,
      "grad_norm": 1.4236445426940918,
      "learning_rate": 0.00018060902422760615,
      "loss": 2.2823,
      "step": 4372
    },
    {
      "epoch": 0.09717777777777778,
      "grad_norm": 1.4783875942230225,
      "learning_rate": 0.00018060457879528786,
      "loss": 2.5749,
      "step": 4373
    },
    {
      "epoch": 0.0972,
      "grad_norm": 1.446212887763977,
      "learning_rate": 0.00018060013336296954,
      "loss": 2.1849,
      "step": 4374
    },
    {
      "epoch": 0.09722222222222222,
      "grad_norm": 1.3906170129776,
      "learning_rate": 0.00018059568793065127,
      "loss": 2.1291,
      "step": 4375
    },
    {
      "epoch": 0.09724444444444444,
      "grad_norm": 1.4127378463745117,
      "learning_rate": 0.00018059124249833296,
      "loss": 2.2909,
      "step": 4376
    },
    {
      "epoch": 0.09726666666666667,
      "grad_norm": 1.329476237297058,
      "learning_rate": 0.00018058679706601467,
      "loss": 1.9118,
      "step": 4377
    },
    {
      "epoch": 0.09728888888888888,
      "grad_norm": 1.7600513696670532,
      "learning_rate": 0.00018058235163369638,
      "loss": 1.2208,
      "step": 4378
    },
    {
      "epoch": 0.09731111111111111,
      "grad_norm": 1.5222866535186768,
      "learning_rate": 0.00018057790620137809,
      "loss": 2.4877,
      "step": 4379
    },
    {
      "epoch": 0.09733333333333333,
      "grad_norm": 1.6175096035003662,
      "learning_rate": 0.00018057346076905982,
      "loss": 2.4975,
      "step": 4380
    },
    {
      "epoch": 0.09735555555555556,
      "grad_norm": 1.3158024549484253,
      "learning_rate": 0.0001805690153367415,
      "loss": 2.1654,
      "step": 4381
    },
    {
      "epoch": 0.09737777777777777,
      "grad_norm": 1.266546368598938,
      "learning_rate": 0.00018056456990442321,
      "loss": 2.2962,
      "step": 4382
    },
    {
      "epoch": 0.0974,
      "grad_norm": 1.3766202926635742,
      "learning_rate": 0.00018056012447210492,
      "loss": 2.0777,
      "step": 4383
    },
    {
      "epoch": 0.09742222222222222,
      "grad_norm": 1.6375465393066406,
      "learning_rate": 0.00018055567903978663,
      "loss": 2.5874,
      "step": 4384
    },
    {
      "epoch": 0.09744444444444444,
      "grad_norm": 1.3366793394088745,
      "learning_rate": 0.00018055123360746832,
      "loss": 1.9877,
      "step": 4385
    },
    {
      "epoch": 0.09746666666666666,
      "grad_norm": 1.199235439300537,
      "learning_rate": 0.00018054678817515005,
      "loss": 1.4807,
      "step": 4386
    },
    {
      "epoch": 0.09748888888888889,
      "grad_norm": 0.9937195777893066,
      "learning_rate": 0.00018054234274283174,
      "loss": 1.0858,
      "step": 4387
    },
    {
      "epoch": 0.09751111111111112,
      "grad_norm": 1.2782981395721436,
      "learning_rate": 0.00018053789731051345,
      "loss": 1.8537,
      "step": 4388
    },
    {
      "epoch": 0.09753333333333333,
      "grad_norm": 1.832302451133728,
      "learning_rate": 0.00018053345187819518,
      "loss": 1.8441,
      "step": 4389
    },
    {
      "epoch": 0.09755555555555556,
      "grad_norm": 1.429241418838501,
      "learning_rate": 0.00018052900644587686,
      "loss": 1.9086,
      "step": 4390
    },
    {
      "epoch": 0.09757777777777778,
      "grad_norm": 1.300802230834961,
      "learning_rate": 0.00018052456101355857,
      "loss": 1.8006,
      "step": 4391
    },
    {
      "epoch": 0.0976,
      "grad_norm": 1.724574327468872,
      "learning_rate": 0.00018052011558124028,
      "loss": 1.6432,
      "step": 4392
    },
    {
      "epoch": 0.09762222222222222,
      "grad_norm": 1.190918207168579,
      "learning_rate": 0.000180515670148922,
      "loss": 1.7289,
      "step": 4393
    },
    {
      "epoch": 0.09764444444444445,
      "grad_norm": 1.712777018547058,
      "learning_rate": 0.00018051122471660368,
      "loss": 2.1239,
      "step": 4394
    },
    {
      "epoch": 0.09766666666666667,
      "grad_norm": 1.7275041341781616,
      "learning_rate": 0.0001805067792842854,
      "loss": 1.7419,
      "step": 4395
    },
    {
      "epoch": 0.0976888888888889,
      "grad_norm": 1.387739658355713,
      "learning_rate": 0.00018050233385196712,
      "loss": 1.6528,
      "step": 4396
    },
    {
      "epoch": 0.09771111111111111,
      "grad_norm": 1.427575707435608,
      "learning_rate": 0.0001804978884196488,
      "loss": 1.8057,
      "step": 4397
    },
    {
      "epoch": 0.09773333333333334,
      "grad_norm": 1.9699738025665283,
      "learning_rate": 0.00018049344298733054,
      "loss": 2.2689,
      "step": 4398
    },
    {
      "epoch": 0.09775555555555555,
      "grad_norm": 1.493066430091858,
      "learning_rate": 0.00018048899755501222,
      "loss": 1.8887,
      "step": 4399
    },
    {
      "epoch": 0.09777777777777778,
      "grad_norm": 1.2431524991989136,
      "learning_rate": 0.00018048455212269396,
      "loss": 1.4983,
      "step": 4400
    },
    {
      "epoch": 0.0978,
      "grad_norm": 1.3198671340942383,
      "learning_rate": 0.00018048010669037564,
      "loss": 2.4862,
      "step": 4401
    },
    {
      "epoch": 0.09782222222222223,
      "grad_norm": 0.844988226890564,
      "learning_rate": 0.00018047566125805735,
      "loss": 1.1806,
      "step": 4402
    },
    {
      "epoch": 0.09784444444444444,
      "grad_norm": 1.0930746793746948,
      "learning_rate": 0.00018047121582573906,
      "loss": 2.3488,
      "step": 4403
    },
    {
      "epoch": 0.09786666666666667,
      "grad_norm": 1.369760274887085,
      "learning_rate": 0.00018046677039342077,
      "loss": 2.6371,
      "step": 4404
    },
    {
      "epoch": 0.09788888888888889,
      "grad_norm": 1.3217105865478516,
      "learning_rate": 0.00018046232496110248,
      "loss": 2.7823,
      "step": 4405
    },
    {
      "epoch": 0.09791111111111112,
      "grad_norm": 1.3410041332244873,
      "learning_rate": 0.0001804578795287842,
      "loss": 2.5896,
      "step": 4406
    },
    {
      "epoch": 0.09793333333333333,
      "grad_norm": 1.0788627862930298,
      "learning_rate": 0.0001804534340964659,
      "loss": 2.0777,
      "step": 4407
    },
    {
      "epoch": 0.09795555555555556,
      "grad_norm": 1.273199439048767,
      "learning_rate": 0.00018044898866414758,
      "loss": 2.1908,
      "step": 4408
    },
    {
      "epoch": 0.09797777777777777,
      "grad_norm": 1.3570038080215454,
      "learning_rate": 0.00018044454323182932,
      "loss": 2.9192,
      "step": 4409
    },
    {
      "epoch": 0.098,
      "grad_norm": 1.2110463380813599,
      "learning_rate": 0.000180440097799511,
      "loss": 2.5296,
      "step": 4410
    },
    {
      "epoch": 0.09802222222222222,
      "grad_norm": 1.1199480295181274,
      "learning_rate": 0.0001804356523671927,
      "loss": 1.8769,
      "step": 4411
    },
    {
      "epoch": 0.09804444444444445,
      "grad_norm": 1.202898621559143,
      "learning_rate": 0.00018043120693487442,
      "loss": 2.1629,
      "step": 4412
    },
    {
      "epoch": 0.09806666666666666,
      "grad_norm": 1.2951065301895142,
      "learning_rate": 0.00018042676150255613,
      "loss": 1.9552,
      "step": 4413
    },
    {
      "epoch": 0.09808888888888889,
      "grad_norm": 1.3778116703033447,
      "learning_rate": 0.00018042231607023784,
      "loss": 2.1159,
      "step": 4414
    },
    {
      "epoch": 0.09811111111111111,
      "grad_norm": 1.2748832702636719,
      "learning_rate": 0.00018041787063791955,
      "loss": 2.6161,
      "step": 4415
    },
    {
      "epoch": 0.09813333333333334,
      "grad_norm": 1.0710159540176392,
      "learning_rate": 0.00018041342520560126,
      "loss": 1.513,
      "step": 4416
    },
    {
      "epoch": 0.09815555555555555,
      "grad_norm": 1.3692610263824463,
      "learning_rate": 0.00018040897977328297,
      "loss": 2.0782,
      "step": 4417
    },
    {
      "epoch": 0.09817777777777778,
      "grad_norm": 1.190234661102295,
      "learning_rate": 0.00018040453434096468,
      "loss": 1.8536,
      "step": 4418
    },
    {
      "epoch": 0.0982,
      "grad_norm": 1.738289475440979,
      "learning_rate": 0.00018040008890864636,
      "loss": 2.2558,
      "step": 4419
    },
    {
      "epoch": 0.09822222222222222,
      "grad_norm": 1.4065693616867065,
      "learning_rate": 0.0001803956434763281,
      "loss": 1.4075,
      "step": 4420
    },
    {
      "epoch": 0.09824444444444444,
      "grad_norm": 0.897720992565155,
      "learning_rate": 0.00018039119804400978,
      "loss": 0.8285,
      "step": 4421
    },
    {
      "epoch": 0.09826666666666667,
      "grad_norm": 1.5050746202468872,
      "learning_rate": 0.0001803867526116915,
      "loss": 2.446,
      "step": 4422
    },
    {
      "epoch": 0.09828888888888888,
      "grad_norm": 1.2419902086257935,
      "learning_rate": 0.0001803823071793732,
      "loss": 1.8285,
      "step": 4423
    },
    {
      "epoch": 0.09831111111111111,
      "grad_norm": 1.4274375438690186,
      "learning_rate": 0.0001803778617470549,
      "loss": 2.3178,
      "step": 4424
    },
    {
      "epoch": 0.09833333333333333,
      "grad_norm": 1.6556620597839355,
      "learning_rate": 0.00018037341631473662,
      "loss": 2.4652,
      "step": 4425
    },
    {
      "epoch": 0.09835555555555556,
      "grad_norm": 1.3161110877990723,
      "learning_rate": 0.00018036897088241833,
      "loss": 2.5008,
      "step": 4426
    },
    {
      "epoch": 0.09837777777777777,
      "grad_norm": 1.4334475994110107,
      "learning_rate": 0.00018036452545010004,
      "loss": 2.134,
      "step": 4427
    },
    {
      "epoch": 0.0984,
      "grad_norm": 1.1863737106323242,
      "learning_rate": 0.00018036008001778172,
      "loss": 1.9887,
      "step": 4428
    },
    {
      "epoch": 0.09842222222222222,
      "grad_norm": 1.260151982307434,
      "learning_rate": 0.00018035563458546346,
      "loss": 1.888,
      "step": 4429
    },
    {
      "epoch": 0.09844444444444445,
      "grad_norm": 1.0401445627212524,
      "learning_rate": 0.00018035118915314514,
      "loss": 1.1331,
      "step": 4430
    },
    {
      "epoch": 0.09846666666666666,
      "grad_norm": 1.4833295345306396,
      "learning_rate": 0.00018034674372082685,
      "loss": 1.8414,
      "step": 4431
    },
    {
      "epoch": 0.09848888888888889,
      "grad_norm": 1.4104746580123901,
      "learning_rate": 0.00018034229828850856,
      "loss": 2.1685,
      "step": 4432
    },
    {
      "epoch": 0.0985111111111111,
      "grad_norm": 1.1910183429718018,
      "learning_rate": 0.00018033785285619027,
      "loss": 1.6557,
      "step": 4433
    },
    {
      "epoch": 0.09853333333333333,
      "grad_norm": 1.6644701957702637,
      "learning_rate": 0.00018033340742387198,
      "loss": 2.1799,
      "step": 4434
    },
    {
      "epoch": 0.09855555555555555,
      "grad_norm": 1.4257797002792358,
      "learning_rate": 0.0001803289619915537,
      "loss": 2.0706,
      "step": 4435
    },
    {
      "epoch": 0.09857777777777778,
      "grad_norm": 1.1833685636520386,
      "learning_rate": 0.0001803245165592354,
      "loss": 1.8003,
      "step": 4436
    },
    {
      "epoch": 0.0986,
      "grad_norm": 1.4477691650390625,
      "learning_rate": 0.0001803200711269171,
      "loss": 2.1154,
      "step": 4437
    },
    {
      "epoch": 0.09862222222222222,
      "grad_norm": 1.5556645393371582,
      "learning_rate": 0.00018031562569459882,
      "loss": 2.4443,
      "step": 4438
    },
    {
      "epoch": 0.09864444444444445,
      "grad_norm": 1.3518905639648438,
      "learning_rate": 0.0001803111802622805,
      "loss": 2.0318,
      "step": 4439
    },
    {
      "epoch": 0.09866666666666667,
      "grad_norm": 1.3766332864761353,
      "learning_rate": 0.00018030673482996224,
      "loss": 1.9228,
      "step": 4440
    },
    {
      "epoch": 0.0986888888888889,
      "grad_norm": 1.3773131370544434,
      "learning_rate": 0.00018030228939764392,
      "loss": 1.9193,
      "step": 4441
    },
    {
      "epoch": 0.09871111111111111,
      "grad_norm": 1.5432028770446777,
      "learning_rate": 0.00018029784396532563,
      "loss": 2.0612,
      "step": 4442
    },
    {
      "epoch": 0.09873333333333334,
      "grad_norm": 1.040864109992981,
      "learning_rate": 0.00018029339853300734,
      "loss": 1.34,
      "step": 4443
    },
    {
      "epoch": 0.09875555555555555,
      "grad_norm": 1.2923661470413208,
      "learning_rate": 0.00018028895310068905,
      "loss": 1.6208,
      "step": 4444
    },
    {
      "epoch": 0.09877777777777778,
      "grad_norm": 1.3355612754821777,
      "learning_rate": 0.00018028450766837076,
      "loss": 1.885,
      "step": 4445
    },
    {
      "epoch": 0.0988,
      "grad_norm": 1.5252952575683594,
      "learning_rate": 0.00018028006223605247,
      "loss": 1.9786,
      "step": 4446
    },
    {
      "epoch": 0.09882222222222223,
      "grad_norm": 1.568361759185791,
      "learning_rate": 0.00018027561680373418,
      "loss": 2.0919,
      "step": 4447
    },
    {
      "epoch": 0.09884444444444444,
      "grad_norm": 1.6935590505599976,
      "learning_rate": 0.00018027117137141586,
      "loss": 2.0133,
      "step": 4448
    },
    {
      "epoch": 0.09886666666666667,
      "grad_norm": 1.3074549436569214,
      "learning_rate": 0.0001802667259390976,
      "loss": 1.9556,
      "step": 4449
    },
    {
      "epoch": 0.09888888888888889,
      "grad_norm": 1.5643311738967896,
      "learning_rate": 0.00018026228050677928,
      "loss": 1.716,
      "step": 4450
    },
    {
      "epoch": 0.09891111111111112,
      "grad_norm": 1.19057297706604,
      "learning_rate": 0.000180257835074461,
      "loss": 2.6874,
      "step": 4451
    },
    {
      "epoch": 0.09893333333333333,
      "grad_norm": 1.175662875175476,
      "learning_rate": 0.0001802533896421427,
      "loss": 0.0533,
      "step": 4452
    },
    {
      "epoch": 0.09895555555555556,
      "grad_norm": 1.4417732954025269,
      "learning_rate": 0.0001802489442098244,
      "loss": 2.4653,
      "step": 4453
    },
    {
      "epoch": 0.09897777777777778,
      "grad_norm": 1.0468107461929321,
      "learning_rate": 0.00018024449877750612,
      "loss": 2.046,
      "step": 4454
    },
    {
      "epoch": 0.099,
      "grad_norm": 0.7389274835586548,
      "learning_rate": 0.00018024005334518783,
      "loss": 1.4057,
      "step": 4455
    },
    {
      "epoch": 0.09902222222222222,
      "grad_norm": 1.0182894468307495,
      "learning_rate": 0.00018023560791286954,
      "loss": 2.4539,
      "step": 4456
    },
    {
      "epoch": 0.09904444444444445,
      "grad_norm": 1.128106951713562,
      "learning_rate": 0.00018023116248055125,
      "loss": 2.1567,
      "step": 4457
    },
    {
      "epoch": 0.09906666666666666,
      "grad_norm": 1.0658607482910156,
      "learning_rate": 0.00018022671704823296,
      "loss": 1.5295,
      "step": 4458
    },
    {
      "epoch": 0.09908888888888889,
      "grad_norm": 1.5395396947860718,
      "learning_rate": 0.00018022227161591464,
      "loss": 2.7383,
      "step": 4459
    },
    {
      "epoch": 0.09911111111111111,
      "grad_norm": 1.2264471054077148,
      "learning_rate": 0.00018021782618359638,
      "loss": 2.149,
      "step": 4460
    },
    {
      "epoch": 0.09913333333333334,
      "grad_norm": 1.0935885906219482,
      "learning_rate": 0.00018021338075127806,
      "loss": 2.1916,
      "step": 4461
    },
    {
      "epoch": 0.09915555555555555,
      "grad_norm": 1.26873779296875,
      "learning_rate": 0.00018020893531895977,
      "loss": 2.1652,
      "step": 4462
    },
    {
      "epoch": 0.09917777777777778,
      "grad_norm": 1.4730082750320435,
      "learning_rate": 0.0001802044898866415,
      "loss": 2.5607,
      "step": 4463
    },
    {
      "epoch": 0.0992,
      "grad_norm": 1.0220870971679688,
      "learning_rate": 0.0001802000444543232,
      "loss": 1.1443,
      "step": 4464
    },
    {
      "epoch": 0.09922222222222223,
      "grad_norm": 1.0993688106536865,
      "learning_rate": 0.0001801955990220049,
      "loss": 1.8948,
      "step": 4465
    },
    {
      "epoch": 0.09924444444444444,
      "grad_norm": 1.2144601345062256,
      "learning_rate": 0.0001801911535896866,
      "loss": 1.9652,
      "step": 4466
    },
    {
      "epoch": 0.09926666666666667,
      "grad_norm": 1.220253348350525,
      "learning_rate": 0.00018018670815736832,
      "loss": 1.9683,
      "step": 4467
    },
    {
      "epoch": 0.09928888888888888,
      "grad_norm": 1.2824461460113525,
      "learning_rate": 0.00018018226272505,
      "loss": 2.415,
      "step": 4468
    },
    {
      "epoch": 0.09931111111111111,
      "grad_norm": 1.3988687992095947,
      "learning_rate": 0.00018017781729273173,
      "loss": 1.124,
      "step": 4469
    },
    {
      "epoch": 0.09933333333333333,
      "grad_norm": 0.8374323844909668,
      "learning_rate": 0.00018017337186041344,
      "loss": 1.2069,
      "step": 4470
    },
    {
      "epoch": 0.09935555555555556,
      "grad_norm": 1.3232494592666626,
      "learning_rate": 0.00018016892642809513,
      "loss": 1.9529,
      "step": 4471
    },
    {
      "epoch": 0.09937777777777777,
      "grad_norm": 1.1095073223114014,
      "learning_rate": 0.00018016448099577686,
      "loss": 1.7246,
      "step": 4472
    },
    {
      "epoch": 0.0994,
      "grad_norm": 1.3508285284042358,
      "learning_rate": 0.00018016003556345855,
      "loss": 2.137,
      "step": 4473
    },
    {
      "epoch": 0.09942222222222222,
      "grad_norm": 1.7036936283111572,
      "learning_rate": 0.00018015559013114028,
      "loss": 3.1291,
      "step": 4474
    },
    {
      "epoch": 0.09944444444444445,
      "grad_norm": 1.5720809698104858,
      "learning_rate": 0.00018015114469882197,
      "loss": 2.4024,
      "step": 4475
    },
    {
      "epoch": 0.09946666666666666,
      "grad_norm": 1.3260328769683838,
      "learning_rate": 0.00018014669926650368,
      "loss": 1.8592,
      "step": 4476
    },
    {
      "epoch": 0.09948888888888889,
      "grad_norm": 1.5580748319625854,
      "learning_rate": 0.00018014225383418538,
      "loss": 2.1636,
      "step": 4477
    },
    {
      "epoch": 0.0995111111111111,
      "grad_norm": 1.1836466789245605,
      "learning_rate": 0.0001801378084018671,
      "loss": 1.9728,
      "step": 4478
    },
    {
      "epoch": 0.09953333333333333,
      "grad_norm": 1.3697766065597534,
      "learning_rate": 0.0001801333629695488,
      "loss": 1.7712,
      "step": 4479
    },
    {
      "epoch": 0.09955555555555555,
      "grad_norm": 1.3192039728164673,
      "learning_rate": 0.00018012891753723051,
      "loss": 1.9998,
      "step": 4480
    },
    {
      "epoch": 0.09957777777777778,
      "grad_norm": 1.352051854133606,
      "learning_rate": 0.00018012447210491222,
      "loss": 2.3214,
      "step": 4481
    },
    {
      "epoch": 0.0996,
      "grad_norm": 1.3424073457717896,
      "learning_rate": 0.0001801200266725939,
      "loss": 2.1331,
      "step": 4482
    },
    {
      "epoch": 0.09962222222222222,
      "grad_norm": 1.4906132221221924,
      "learning_rate": 0.00018011558124027564,
      "loss": 1.9629,
      "step": 4483
    },
    {
      "epoch": 0.09964444444444444,
      "grad_norm": 1.441964864730835,
      "learning_rate": 0.00018011113580795733,
      "loss": 2.1286,
      "step": 4484
    },
    {
      "epoch": 0.09966666666666667,
      "grad_norm": 1.443705677986145,
      "learning_rate": 0.00018010669037563903,
      "loss": 1.7009,
      "step": 4485
    },
    {
      "epoch": 0.09968888888888888,
      "grad_norm": 1.3226597309112549,
      "learning_rate": 0.00018010224494332074,
      "loss": 1.8768,
      "step": 4486
    },
    {
      "epoch": 0.09971111111111111,
      "grad_norm": 1.454082727432251,
      "learning_rate": 0.00018009779951100245,
      "loss": 1.8601,
      "step": 4487
    },
    {
      "epoch": 0.09973333333333333,
      "grad_norm": 1.8369663953781128,
      "learning_rate": 0.00018009335407868416,
      "loss": 0.069,
      "step": 4488
    },
    {
      "epoch": 0.09975555555555556,
      "grad_norm": 1.2956428527832031,
      "learning_rate": 0.00018008890864636587,
      "loss": 1.868,
      "step": 4489
    },
    {
      "epoch": 0.09977777777777778,
      "grad_norm": 1.6002861261367798,
      "learning_rate": 0.00018008446321404758,
      "loss": 2.0486,
      "step": 4490
    },
    {
      "epoch": 0.0998,
      "grad_norm": 1.4827994108200073,
      "learning_rate": 0.00018008001778172927,
      "loss": 2.244,
      "step": 4491
    },
    {
      "epoch": 0.09982222222222223,
      "grad_norm": 1.3553178310394287,
      "learning_rate": 0.000180075572349411,
      "loss": 1.3299,
      "step": 4492
    },
    {
      "epoch": 0.09984444444444444,
      "grad_norm": 1.3971030712127686,
      "learning_rate": 0.00018007112691709268,
      "loss": 1.8899,
      "step": 4493
    },
    {
      "epoch": 0.09986666666666667,
      "grad_norm": 1.5578504800796509,
      "learning_rate": 0.00018006668148477442,
      "loss": 1.8414,
      "step": 4494
    },
    {
      "epoch": 0.09988888888888889,
      "grad_norm": 1.4631415605545044,
      "learning_rate": 0.0001800622360524561,
      "loss": 2.085,
      "step": 4495
    },
    {
      "epoch": 0.09991111111111112,
      "grad_norm": 1.4966238737106323,
      "learning_rate": 0.0001800577906201378,
      "loss": 1.8362,
      "step": 4496
    },
    {
      "epoch": 0.09993333333333333,
      "grad_norm": 1.7602430582046509,
      "learning_rate": 0.00018005334518781952,
      "loss": 1.965,
      "step": 4497
    },
    {
      "epoch": 0.09995555555555556,
      "grad_norm": 1.838391900062561,
      "learning_rate": 0.00018004889975550123,
      "loss": 2.0265,
      "step": 4498
    },
    {
      "epoch": 0.09997777777777778,
      "grad_norm": 1.3434847593307495,
      "learning_rate": 0.00018004445432318294,
      "loss": 0.638,
      "step": 4499
    },
    {
      "epoch": 0.1,
      "grad_norm": 1.3077208995819092,
      "learning_rate": 0.00018004000889086465,
      "loss": 1.1671,
      "step": 4500
    },
    {
      "epoch": 0.10002222222222222,
      "grad_norm": 1.0700474977493286,
      "learning_rate": 0.00018003556345854636,
      "loss": 2.6163,
      "step": 4501
    },
    {
      "epoch": 0.10004444444444445,
      "grad_norm": 1.1620192527770996,
      "learning_rate": 0.00018003111802622804,
      "loss": 2.5226,
      "step": 4502
    },
    {
      "epoch": 0.10006666666666666,
      "grad_norm": 1.1475083827972412,
      "learning_rate": 0.00018002667259390978,
      "loss": 2.5302,
      "step": 4503
    },
    {
      "epoch": 0.1000888888888889,
      "grad_norm": 1.1489850282669067,
      "learning_rate": 0.00018002222716159146,
      "loss": 2.1681,
      "step": 4504
    },
    {
      "epoch": 0.10011111111111111,
      "grad_norm": 1.1222330331802368,
      "learning_rate": 0.00018001778172927317,
      "loss": 1.8605,
      "step": 4505
    },
    {
      "epoch": 0.10013333333333334,
      "grad_norm": 1.1848361492156982,
      "learning_rate": 0.00018001333629695488,
      "loss": 2.4713,
      "step": 4506
    },
    {
      "epoch": 0.10015555555555555,
      "grad_norm": 1.3263381719589233,
      "learning_rate": 0.0001800088908646366,
      "loss": 1.9377,
      "step": 4507
    },
    {
      "epoch": 0.10017777777777778,
      "grad_norm": 1.302356243133545,
      "learning_rate": 0.0001800044454323183,
      "loss": 2.4729,
      "step": 4508
    },
    {
      "epoch": 0.1002,
      "grad_norm": 1.492964506149292,
      "learning_rate": 0.00018,
      "loss": 2.2221,
      "step": 4509
    },
    {
      "epoch": 0.10022222222222223,
      "grad_norm": 1.2655242681503296,
      "learning_rate": 0.00017999555456768172,
      "loss": 2.6287,
      "step": 4510
    },
    {
      "epoch": 0.10024444444444444,
      "grad_norm": 1.2084869146347046,
      "learning_rate": 0.00017999110913536343,
      "loss": 2.3839,
      "step": 4511
    },
    {
      "epoch": 0.10026666666666667,
      "grad_norm": 1.1417101621627808,
      "learning_rate": 0.00017998666370304514,
      "loss": 2.4502,
      "step": 4512
    },
    {
      "epoch": 0.10028888888888889,
      "grad_norm": 1.2735824584960938,
      "learning_rate": 0.00017998221827072682,
      "loss": 2.1662,
      "step": 4513
    },
    {
      "epoch": 0.10031111111111111,
      "grad_norm": 1.0747036933898926,
      "learning_rate": 0.00017997777283840856,
      "loss": 2.1198,
      "step": 4514
    },
    {
      "epoch": 0.10033333333333333,
      "grad_norm": 1.32513427734375,
      "learning_rate": 0.00017997332740609024,
      "loss": 2.1641,
      "step": 4515
    },
    {
      "epoch": 0.10035555555555556,
      "grad_norm": 1.254108190536499,
      "learning_rate": 0.00017996888197377195,
      "loss": 1.9495,
      "step": 4516
    },
    {
      "epoch": 0.10037777777777777,
      "grad_norm": 1.3607242107391357,
      "learning_rate": 0.00017996443654145366,
      "loss": 2.3084,
      "step": 4517
    },
    {
      "epoch": 0.1004,
      "grad_norm": 1.2414820194244385,
      "learning_rate": 0.00017995999110913537,
      "loss": 2.4332,
      "step": 4518
    },
    {
      "epoch": 0.10042222222222222,
      "grad_norm": 1.4720838069915771,
      "learning_rate": 0.00017995554567681708,
      "loss": 2.367,
      "step": 4519
    },
    {
      "epoch": 0.10044444444444445,
      "grad_norm": 1.3227603435516357,
      "learning_rate": 0.0001799511002444988,
      "loss": 1.8766,
      "step": 4520
    },
    {
      "epoch": 0.10046666666666666,
      "grad_norm": 1.5360599756240845,
      "learning_rate": 0.0001799466548121805,
      "loss": 2.4649,
      "step": 4521
    },
    {
      "epoch": 0.10048888888888889,
      "grad_norm": 1.2606695890426636,
      "learning_rate": 0.00017994220937986218,
      "loss": 1.9326,
      "step": 4522
    },
    {
      "epoch": 0.1005111111111111,
      "grad_norm": 1.1181033849716187,
      "learning_rate": 0.00017993776394754392,
      "loss": 1.8243,
      "step": 4523
    },
    {
      "epoch": 0.10053333333333334,
      "grad_norm": 1.4821643829345703,
      "learning_rate": 0.0001799333185152256,
      "loss": 2.1311,
      "step": 4524
    },
    {
      "epoch": 0.10055555555555555,
      "grad_norm": 1.2980374097824097,
      "learning_rate": 0.0001799288730829073,
      "loss": 1.6123,
      "step": 4525
    },
    {
      "epoch": 0.10057777777777778,
      "grad_norm": 1.3282278776168823,
      "learning_rate": 0.00017992442765058902,
      "loss": 2.2648,
      "step": 4526
    },
    {
      "epoch": 0.1006,
      "grad_norm": 1.2121895551681519,
      "learning_rate": 0.00017991998221827073,
      "loss": 2.1269,
      "step": 4527
    },
    {
      "epoch": 0.10062222222222222,
      "grad_norm": 1.2339322566986084,
      "learning_rate": 0.00017991553678595244,
      "loss": 1.7795,
      "step": 4528
    },
    {
      "epoch": 0.10064444444444444,
      "grad_norm": 0.8297223448753357,
      "learning_rate": 0.00017991109135363415,
      "loss": 0.7758,
      "step": 4529
    },
    {
      "epoch": 0.10066666666666667,
      "grad_norm": 1.205521583557129,
      "learning_rate": 0.00017990664592131586,
      "loss": 1.2347,
      "step": 4530
    },
    {
      "epoch": 0.10068888888888888,
      "grad_norm": 1.3334580659866333,
      "learning_rate": 0.00017990220048899757,
      "loss": 2.3322,
      "step": 4531
    },
    {
      "epoch": 0.10071111111111111,
      "grad_norm": 1.4802695512771606,
      "learning_rate": 0.00017989775505667928,
      "loss": 2.0938,
      "step": 4532
    },
    {
      "epoch": 0.10073333333333333,
      "grad_norm": 0.9862070679664612,
      "learning_rate": 0.00017989330962436096,
      "loss": 1.1852,
      "step": 4533
    },
    {
      "epoch": 0.10075555555555556,
      "grad_norm": 1.0659462213516235,
      "learning_rate": 0.0001798888641920427,
      "loss": 1.1631,
      "step": 4534
    },
    {
      "epoch": 0.10077777777777777,
      "grad_norm": 1.5292655229568481,
      "learning_rate": 0.00017988441875972438,
      "loss": 1.8282,
      "step": 4535
    },
    {
      "epoch": 0.1008,
      "grad_norm": 1.8752927780151367,
      "learning_rate": 0.0001798799733274061,
      "loss": 2.0466,
      "step": 4536
    },
    {
      "epoch": 0.10082222222222222,
      "grad_norm": 1.4686386585235596,
      "learning_rate": 0.00017987552789508783,
      "loss": 1.9048,
      "step": 4537
    },
    {
      "epoch": 0.10084444444444444,
      "grad_norm": 1.6862549781799316,
      "learning_rate": 0.0001798710824627695,
      "loss": 2.3511,
      "step": 4538
    },
    {
      "epoch": 0.10086666666666666,
      "grad_norm": 1.357166051864624,
      "learning_rate": 0.00017986663703045122,
      "loss": 1.9995,
      "step": 4539
    },
    {
      "epoch": 0.10088888888888889,
      "grad_norm": 1.4182924032211304,
      "learning_rate": 0.00017986219159813293,
      "loss": 2.1343,
      "step": 4540
    },
    {
      "epoch": 0.1009111111111111,
      "grad_norm": 1.322924017906189,
      "learning_rate": 0.00017985774616581464,
      "loss": 1.8664,
      "step": 4541
    },
    {
      "epoch": 0.10093333333333333,
      "grad_norm": 1.4450047016143799,
      "learning_rate": 0.00017985330073349632,
      "loss": 2.015,
      "step": 4542
    },
    {
      "epoch": 0.10095555555555556,
      "grad_norm": 1.5767916440963745,
      "learning_rate": 0.00017984885530117806,
      "loss": 1.063,
      "step": 4543
    },
    {
      "epoch": 0.10097777777777778,
      "grad_norm": 1.3766216039657593,
      "learning_rate": 0.00017984440986885977,
      "loss": 2.1104,
      "step": 4544
    },
    {
      "epoch": 0.101,
      "grad_norm": 1.4096211194992065,
      "learning_rate": 0.00017983996443654145,
      "loss": 1.8738,
      "step": 4545
    },
    {
      "epoch": 0.10102222222222222,
      "grad_norm": 1.9654799699783325,
      "learning_rate": 0.00017983551900422319,
      "loss": 2.059,
      "step": 4546
    },
    {
      "epoch": 0.10104444444444445,
      "grad_norm": 1.5229862928390503,
      "learning_rate": 0.00017983107357190487,
      "loss": 1.8899,
      "step": 4547
    },
    {
      "epoch": 0.10106666666666667,
      "grad_norm": 1.4340468645095825,
      "learning_rate": 0.00017982662813958658,
      "loss": 1.8753,
      "step": 4548
    },
    {
      "epoch": 0.1010888888888889,
      "grad_norm": 1.261633038520813,
      "learning_rate": 0.0001798221827072683,
      "loss": 1.6701,
      "step": 4549
    },
    {
      "epoch": 0.10111111111111111,
      "grad_norm": 1.3499265909194946,
      "learning_rate": 0.00017981773727495,
      "loss": 0.9082,
      "step": 4550
    },
    {
      "epoch": 0.10113333333333334,
      "grad_norm": 1.1998485326766968,
      "learning_rate": 0.0001798132918426317,
      "loss": 2.3424,
      "step": 4551
    },
    {
      "epoch": 0.10115555555555555,
      "grad_norm": 0.9679036736488342,
      "learning_rate": 0.00017980884641031342,
      "loss": 1.2857,
      "step": 4552
    },
    {
      "epoch": 0.10117777777777778,
      "grad_norm": 1.101314902305603,
      "learning_rate": 0.00017980440097799513,
      "loss": 2.3451,
      "step": 4553
    },
    {
      "epoch": 0.1012,
      "grad_norm": 1.2301385402679443,
      "learning_rate": 0.00017979995554567684,
      "loss": 2.5677,
      "step": 4554
    },
    {
      "epoch": 0.10122222222222223,
      "grad_norm": 1.1807093620300293,
      "learning_rate": 0.00017979551011335855,
      "loss": 2.5417,
      "step": 4555
    },
    {
      "epoch": 0.10124444444444444,
      "grad_norm": 1.1361746788024902,
      "learning_rate": 0.00017979106468104023,
      "loss": 2.1949,
      "step": 4556
    },
    {
      "epoch": 0.10126666666666667,
      "grad_norm": 1.1690309047698975,
      "learning_rate": 0.00017978661924872196,
      "loss": 1.9276,
      "step": 4557
    },
    {
      "epoch": 0.10128888888888889,
      "grad_norm": 1.13777756690979,
      "learning_rate": 0.00017978217381640365,
      "loss": 1.6578,
      "step": 4558
    },
    {
      "epoch": 0.10131111111111112,
      "grad_norm": 1.1411702632904053,
      "learning_rate": 0.00017977772838408536,
      "loss": 2.051,
      "step": 4559
    },
    {
      "epoch": 0.10133333333333333,
      "grad_norm": 1.2523962259292603,
      "learning_rate": 0.00017977328295176707,
      "loss": 1.6661,
      "step": 4560
    },
    {
      "epoch": 0.10135555555555556,
      "grad_norm": 1.1678746938705444,
      "learning_rate": 0.00017976883751944878,
      "loss": 2.2319,
      "step": 4561
    },
    {
      "epoch": 0.10137777777777777,
      "grad_norm": 1.5486644506454468,
      "learning_rate": 0.00017976439208713049,
      "loss": 2.0421,
      "step": 4562
    },
    {
      "epoch": 0.1014,
      "grad_norm": 1.5725224018096924,
      "learning_rate": 0.0001797599466548122,
      "loss": 2.5077,
      "step": 4563
    },
    {
      "epoch": 0.10142222222222222,
      "grad_norm": 1.2779611349105835,
      "learning_rate": 0.0001797555012224939,
      "loss": 2.0999,
      "step": 4564
    },
    {
      "epoch": 0.10144444444444445,
      "grad_norm": 1.263800024986267,
      "learning_rate": 0.0001797510557901756,
      "loss": 2.1752,
      "step": 4565
    },
    {
      "epoch": 0.10146666666666666,
      "grad_norm": 1.360589623451233,
      "learning_rate": 0.00017974661035785732,
      "loss": 2.27,
      "step": 4566
    },
    {
      "epoch": 0.10148888888888889,
      "grad_norm": 1.156154990196228,
      "learning_rate": 0.000179742164925539,
      "loss": 1.9843,
      "step": 4567
    },
    {
      "epoch": 0.10151111111111111,
      "grad_norm": 1.3196426630020142,
      "learning_rate": 0.00017973771949322074,
      "loss": 2.0636,
      "step": 4568
    },
    {
      "epoch": 0.10153333333333334,
      "grad_norm": 1.2223477363586426,
      "learning_rate": 0.00017973327406090243,
      "loss": 1.8422,
      "step": 4569
    },
    {
      "epoch": 0.10155555555555555,
      "grad_norm": 1.2372304201126099,
      "learning_rate": 0.00017972882862858414,
      "loss": 1.7804,
      "step": 4570
    },
    {
      "epoch": 0.10157777777777778,
      "grad_norm": 1.6939142942428589,
      "learning_rate": 0.00017972438319626585,
      "loss": 2.3238,
      "step": 4571
    },
    {
      "epoch": 0.1016,
      "grad_norm": 1.4249662160873413,
      "learning_rate": 0.00017971993776394755,
      "loss": 2.1564,
      "step": 4572
    },
    {
      "epoch": 0.10162222222222222,
      "grad_norm": 1.195669174194336,
      "learning_rate": 0.00017971549233162926,
      "loss": 1.8923,
      "step": 4573
    },
    {
      "epoch": 0.10164444444444444,
      "grad_norm": 1.3309195041656494,
      "learning_rate": 0.00017971104689931097,
      "loss": 1.7738,
      "step": 4574
    },
    {
      "epoch": 0.10166666666666667,
      "grad_norm": 1.5576967000961304,
      "learning_rate": 0.00017970660146699268,
      "loss": 2.1503,
      "step": 4575
    },
    {
      "epoch": 0.10168888888888888,
      "grad_norm": 1.6863161325454712,
      "learning_rate": 0.00017970215603467437,
      "loss": 2.2591,
      "step": 4576
    },
    {
      "epoch": 0.10171111111111111,
      "grad_norm": 1.847129464149475,
      "learning_rate": 0.0001796977106023561,
      "loss": 2.4507,
      "step": 4577
    },
    {
      "epoch": 0.10173333333333333,
      "grad_norm": 1.155192494392395,
      "learning_rate": 0.00017969326517003779,
      "loss": 1.6717,
      "step": 4578
    },
    {
      "epoch": 0.10175555555555556,
      "grad_norm": 1.3489474058151245,
      "learning_rate": 0.0001796888197377195,
      "loss": 2.1401,
      "step": 4579
    },
    {
      "epoch": 0.10177777777777777,
      "grad_norm": 1.4400485754013062,
      "learning_rate": 0.0001796843743054012,
      "loss": 2.3982,
      "step": 4580
    },
    {
      "epoch": 0.1018,
      "grad_norm": 1.5399576425552368,
      "learning_rate": 0.00017967992887308291,
      "loss": 1.8028,
      "step": 4581
    },
    {
      "epoch": 0.10182222222222222,
      "grad_norm": 1.1433242559432983,
      "learning_rate": 0.00017967548344076462,
      "loss": 1.2652,
      "step": 4582
    },
    {
      "epoch": 0.10184444444444445,
      "grad_norm": 2.25974702835083,
      "learning_rate": 0.00017967103800844633,
      "loss": 2.0798,
      "step": 4583
    },
    {
      "epoch": 0.10186666666666666,
      "grad_norm": 1.5146572589874268,
      "learning_rate": 0.00017966659257612804,
      "loss": 2.4189,
      "step": 4584
    },
    {
      "epoch": 0.10188888888888889,
      "grad_norm": 1.6665347814559937,
      "learning_rate": 0.00017966214714380973,
      "loss": 2.0715,
      "step": 4585
    },
    {
      "epoch": 0.1019111111111111,
      "grad_norm": 1.384492039680481,
      "learning_rate": 0.00017965770171149146,
      "loss": 2.2461,
      "step": 4586
    },
    {
      "epoch": 0.10193333333333333,
      "grad_norm": 1.2817753553390503,
      "learning_rate": 0.00017965325627917314,
      "loss": 1.5799,
      "step": 4587
    },
    {
      "epoch": 0.10195555555555555,
      "grad_norm": 1.52030611038208,
      "learning_rate": 0.00017964881084685488,
      "loss": 1.8372,
      "step": 4588
    },
    {
      "epoch": 0.10197777777777778,
      "grad_norm": 1.7442991733551025,
      "learning_rate": 0.00017964436541453656,
      "loss": 2.2178,
      "step": 4589
    },
    {
      "epoch": 0.102,
      "grad_norm": 1.4898406267166138,
      "learning_rate": 0.00017963991998221827,
      "loss": 1.6938,
      "step": 4590
    },
    {
      "epoch": 0.10202222222222222,
      "grad_norm": 1.504529356956482,
      "learning_rate": 0.00017963547454989998,
      "loss": 2.1715,
      "step": 4591
    },
    {
      "epoch": 0.10204444444444444,
      "grad_norm": 1.3955018520355225,
      "learning_rate": 0.0001796310291175817,
      "loss": 2.1935,
      "step": 4592
    },
    {
      "epoch": 0.10206666666666667,
      "grad_norm": 1.2676892280578613,
      "learning_rate": 0.0001796265836852634,
      "loss": 1.7474,
      "step": 4593
    },
    {
      "epoch": 0.1020888888888889,
      "grad_norm": 1.3315775394439697,
      "learning_rate": 0.0001796221382529451,
      "loss": 1.4655,
      "step": 4594
    },
    {
      "epoch": 0.10211111111111111,
      "grad_norm": 1.4957044124603271,
      "learning_rate": 0.00017961769282062682,
      "loss": 2.2472,
      "step": 4595
    },
    {
      "epoch": 0.10213333333333334,
      "grad_norm": 1.4856873750686646,
      "learning_rate": 0.0001796132473883085,
      "loss": 1.8713,
      "step": 4596
    },
    {
      "epoch": 0.10215555555555556,
      "grad_norm": 1.355457067489624,
      "learning_rate": 0.00017960880195599024,
      "loss": 1.4948,
      "step": 4597
    },
    {
      "epoch": 0.10217777777777778,
      "grad_norm": 1.5222852230072021,
      "learning_rate": 0.00017960435652367192,
      "loss": 1.8607,
      "step": 4598
    },
    {
      "epoch": 0.1022,
      "grad_norm": 1.9654401540756226,
      "learning_rate": 0.00017959991109135363,
      "loss": 1.5605,
      "step": 4599
    },
    {
      "epoch": 0.10222222222222223,
      "grad_norm": 1.3997873067855835,
      "learning_rate": 0.00017959546565903534,
      "loss": 1.0984,
      "step": 4600
    },
    {
      "epoch": 0.10224444444444444,
      "grad_norm": 1.0412570238113403,
      "learning_rate": 0.00017959102022671705,
      "loss": 2.5375,
      "step": 4601
    },
    {
      "epoch": 0.10226666666666667,
      "grad_norm": 1.3185845613479614,
      "learning_rate": 0.00017958657479439876,
      "loss": 2.5337,
      "step": 4602
    },
    {
      "epoch": 0.10228888888888889,
      "grad_norm": 1.1858352422714233,
      "learning_rate": 0.00017958212936208047,
      "loss": 2.4824,
      "step": 4603
    },
    {
      "epoch": 0.10231111111111112,
      "grad_norm": 1.074351191520691,
      "learning_rate": 0.00017957768392976218,
      "loss": 2.2161,
      "step": 4604
    },
    {
      "epoch": 0.10233333333333333,
      "grad_norm": 1.1715136766433716,
      "learning_rate": 0.00017957323849744386,
      "loss": 2.0258,
      "step": 4605
    },
    {
      "epoch": 0.10235555555555556,
      "grad_norm": 1.1067131757736206,
      "learning_rate": 0.0001795687930651256,
      "loss": 1.9996,
      "step": 4606
    },
    {
      "epoch": 0.10237777777777778,
      "grad_norm": 1.2037277221679688,
      "learning_rate": 0.00017956434763280728,
      "loss": 2.2758,
      "step": 4607
    },
    {
      "epoch": 0.1024,
      "grad_norm": 1.1180009841918945,
      "learning_rate": 0.00017955990220048902,
      "loss": 2.0901,
      "step": 4608
    },
    {
      "epoch": 0.10242222222222222,
      "grad_norm": 1.1651686429977417,
      "learning_rate": 0.0001795554567681707,
      "loss": 2.1304,
      "step": 4609
    },
    {
      "epoch": 0.10244444444444445,
      "grad_norm": 1.2160648107528687,
      "learning_rate": 0.0001795510113358524,
      "loss": 2.4842,
      "step": 4610
    },
    {
      "epoch": 0.10246666666666666,
      "grad_norm": 1.2420545816421509,
      "learning_rate": 0.00017954656590353415,
      "loss": 2.6068,
      "step": 4611
    },
    {
      "epoch": 0.1024888888888889,
      "grad_norm": 1.2576555013656616,
      "learning_rate": 0.00017954212047121583,
      "loss": 2.4677,
      "step": 4612
    },
    {
      "epoch": 0.10251111111111111,
      "grad_norm": 1.2574868202209473,
      "learning_rate": 0.00017953767503889754,
      "loss": 2.0982,
      "step": 4613
    },
    {
      "epoch": 0.10253333333333334,
      "grad_norm": 1.2017476558685303,
      "learning_rate": 0.00017953322960657925,
      "loss": 1.8347,
      "step": 4614
    },
    {
      "epoch": 0.10255555555555555,
      "grad_norm": 1.086390733718872,
      "learning_rate": 0.00017952878417426096,
      "loss": 1.2219,
      "step": 4615
    },
    {
      "epoch": 0.10257777777777778,
      "grad_norm": 1.362026572227478,
      "learning_rate": 0.00017952433874194264,
      "loss": 2.381,
      "step": 4616
    },
    {
      "epoch": 0.1026,
      "grad_norm": 1.6786465644836426,
      "learning_rate": 0.00017951989330962438,
      "loss": 1.6736,
      "step": 4617
    },
    {
      "epoch": 0.10262222222222223,
      "grad_norm": 1.2606959342956543,
      "learning_rate": 0.0001795154478773061,
      "loss": 1.7454,
      "step": 4618
    },
    {
      "epoch": 0.10264444444444444,
      "grad_norm": 1.5881798267364502,
      "learning_rate": 0.00017951100244498777,
      "loss": 2.7024,
      "step": 4619
    },
    {
      "epoch": 0.10266666666666667,
      "grad_norm": 1.2433445453643799,
      "learning_rate": 0.0001795065570126695,
      "loss": 1.7929,
      "step": 4620
    },
    {
      "epoch": 0.10268888888888889,
      "grad_norm": 1.2029064893722534,
      "learning_rate": 0.0001795021115803512,
      "loss": 2.0105,
      "step": 4621
    },
    {
      "epoch": 0.10271111111111111,
      "grad_norm": 1.5071628093719482,
      "learning_rate": 0.0001794976661480329,
      "loss": 1.9158,
      "step": 4622
    },
    {
      "epoch": 0.10273333333333333,
      "grad_norm": 1.4113117456436157,
      "learning_rate": 0.0001794932207157146,
      "loss": 2.107,
      "step": 4623
    },
    {
      "epoch": 0.10275555555555556,
      "grad_norm": 1.5553901195526123,
      "learning_rate": 0.00017948877528339632,
      "loss": 2.4155,
      "step": 4624
    },
    {
      "epoch": 0.10277777777777777,
      "grad_norm": 1.2681584358215332,
      "learning_rate": 0.00017948432985107803,
      "loss": 1.8085,
      "step": 4625
    },
    {
      "epoch": 0.1028,
      "grad_norm": 1.3174275159835815,
      "learning_rate": 0.00017947988441875974,
      "loss": 1.8957,
      "step": 4626
    },
    {
      "epoch": 0.10282222222222222,
      "grad_norm": 1.2613061666488647,
      "learning_rate": 0.00017947543898644145,
      "loss": 1.9034,
      "step": 4627
    },
    {
      "epoch": 0.10284444444444445,
      "grad_norm": 1.515085220336914,
      "learning_rate": 0.00017947099355412316,
      "loss": 2.2849,
      "step": 4628
    },
    {
      "epoch": 0.10286666666666666,
      "grad_norm": 1.2645028829574585,
      "learning_rate": 0.00017946654812180487,
      "loss": 2.1126,
      "step": 4629
    },
    {
      "epoch": 0.10288888888888889,
      "grad_norm": 1.3133676052093506,
      "learning_rate": 0.00017946210268948655,
      "loss": 2.2592,
      "step": 4630
    },
    {
      "epoch": 0.1029111111111111,
      "grad_norm": 1.1684843301773071,
      "learning_rate": 0.0001794576572571683,
      "loss": 1.6911,
      "step": 4631
    },
    {
      "epoch": 0.10293333333333334,
      "grad_norm": 1.3858537673950195,
      "learning_rate": 0.00017945321182484997,
      "loss": 1.8967,
      "step": 4632
    },
    {
      "epoch": 0.10295555555555555,
      "grad_norm": 1.3120898008346558,
      "learning_rate": 0.00017944876639253168,
      "loss": 2.1183,
      "step": 4633
    },
    {
      "epoch": 0.10297777777777778,
      "grad_norm": 1.8002424240112305,
      "learning_rate": 0.0001794443209602134,
      "loss": 2.2696,
      "step": 4634
    },
    {
      "epoch": 0.103,
      "grad_norm": 1.4287925958633423,
      "learning_rate": 0.0001794398755278951,
      "loss": 1.817,
      "step": 4635
    },
    {
      "epoch": 0.10302222222222222,
      "grad_norm": 1.5401346683502197,
      "learning_rate": 0.0001794354300955768,
      "loss": 1.5767,
      "step": 4636
    },
    {
      "epoch": 0.10304444444444444,
      "grad_norm": 1.336228370666504,
      "learning_rate": 0.00017943098466325852,
      "loss": 1.9442,
      "step": 4637
    },
    {
      "epoch": 0.10306666666666667,
      "grad_norm": 1.4568718671798706,
      "learning_rate": 0.00017942653923094023,
      "loss": 1.9845,
      "step": 4638
    },
    {
      "epoch": 0.10308888888888888,
      "grad_norm": 1.5085418224334717,
      "learning_rate": 0.0001794220937986219,
      "loss": 1.4438,
      "step": 4639
    },
    {
      "epoch": 0.10311111111111111,
      "grad_norm": 1.366981029510498,
      "learning_rate": 0.00017941764836630365,
      "loss": 1.8725,
      "step": 4640
    },
    {
      "epoch": 0.10313333333333333,
      "grad_norm": 1.7619227170944214,
      "learning_rate": 0.00017941320293398533,
      "loss": 2.3364,
      "step": 4641
    },
    {
      "epoch": 0.10315555555555556,
      "grad_norm": 1.5690550804138184,
      "learning_rate": 0.00017940875750166704,
      "loss": 1.8431,
      "step": 4642
    },
    {
      "epoch": 0.10317777777777777,
      "grad_norm": 1.686866044998169,
      "learning_rate": 0.00017940431206934875,
      "loss": 2.4302,
      "step": 4643
    },
    {
      "epoch": 0.1032,
      "grad_norm": 1.7820451259613037,
      "learning_rate": 0.00017939986663703046,
      "loss": 2.4202,
      "step": 4644
    },
    {
      "epoch": 0.10322222222222223,
      "grad_norm": 1.4131567478179932,
      "learning_rate": 0.00017939542120471217,
      "loss": 1.7421,
      "step": 4645
    },
    {
      "epoch": 0.10324444444444444,
      "grad_norm": 1.5755765438079834,
      "learning_rate": 0.00017939097577239388,
      "loss": 2.2758,
      "step": 4646
    },
    {
      "epoch": 0.10326666666666667,
      "grad_norm": 1.1355630159378052,
      "learning_rate": 0.00017938653034007559,
      "loss": 1.7723,
      "step": 4647
    },
    {
      "epoch": 0.10328888888888889,
      "grad_norm": 1.059228777885437,
      "learning_rate": 0.0001793820849077573,
      "loss": 0.9362,
      "step": 4648
    },
    {
      "epoch": 0.10331111111111112,
      "grad_norm": 1.6165074110031128,
      "learning_rate": 0.000179377639475439,
      "loss": 2.4257,
      "step": 4649
    },
    {
      "epoch": 0.10333333333333333,
      "grad_norm": 1.3630965948104858,
      "learning_rate": 0.0001793731940431207,
      "loss": 1.037,
      "step": 4650
    },
    {
      "epoch": 0.10335555555555556,
      "grad_norm": 0.8397119045257568,
      "learning_rate": 0.00017936874861080242,
      "loss": 1.2374,
      "step": 4651
    },
    {
      "epoch": 0.10337777777777778,
      "grad_norm": 1.1855571269989014,
      "learning_rate": 0.0001793643031784841,
      "loss": 2.1357,
      "step": 4652
    },
    {
      "epoch": 0.1034,
      "grad_norm": 1.1406707763671875,
      "learning_rate": 0.00017935985774616582,
      "loss": 2.4501,
      "step": 4653
    },
    {
      "epoch": 0.10342222222222222,
      "grad_norm": 1.0034575462341309,
      "learning_rate": 0.00017935541231384753,
      "loss": 2.0184,
      "step": 4654
    },
    {
      "epoch": 0.10344444444444445,
      "grad_norm": 1.1791536808013916,
      "learning_rate": 0.00017935096688152924,
      "loss": 2.3305,
      "step": 4655
    },
    {
      "epoch": 0.10346666666666667,
      "grad_norm": 1.5166912078857422,
      "learning_rate": 0.00017934652144921095,
      "loss": 2.536,
      "step": 4656
    },
    {
      "epoch": 0.1034888888888889,
      "grad_norm": 1.3112488985061646,
      "learning_rate": 0.00017934207601689266,
      "loss": 2.4141,
      "step": 4657
    },
    {
      "epoch": 0.10351111111111111,
      "grad_norm": 1.2915891408920288,
      "learning_rate": 0.00017933763058457437,
      "loss": 2.1156,
      "step": 4658
    },
    {
      "epoch": 0.10353333333333334,
      "grad_norm": 1.3239997625350952,
      "learning_rate": 0.00017933318515225605,
      "loss": 2.5297,
      "step": 4659
    },
    {
      "epoch": 0.10355555555555555,
      "grad_norm": 1.2447015047073364,
      "learning_rate": 0.00017932873971993778,
      "loss": 2.1459,
      "step": 4660
    },
    {
      "epoch": 0.10357777777777778,
      "grad_norm": 1.2146960496902466,
      "learning_rate": 0.00017932429428761947,
      "loss": 2.5321,
      "step": 4661
    },
    {
      "epoch": 0.1036,
      "grad_norm": 1.3347951173782349,
      "learning_rate": 0.00017931984885530118,
      "loss": 2.353,
      "step": 4662
    },
    {
      "epoch": 0.10362222222222223,
      "grad_norm": 1.039957880973816,
      "learning_rate": 0.00017931540342298289,
      "loss": 1.7461,
      "step": 4663
    },
    {
      "epoch": 0.10364444444444444,
      "grad_norm": 1.240303874015808,
      "learning_rate": 0.0001793109579906646,
      "loss": 2.2365,
      "step": 4664
    },
    {
      "epoch": 0.10366666666666667,
      "grad_norm": 1.6558023691177368,
      "learning_rate": 0.0001793065125583463,
      "loss": 2.2952,
      "step": 4665
    },
    {
      "epoch": 0.10368888888888889,
      "grad_norm": 1.3637255430221558,
      "learning_rate": 0.00017930206712602801,
      "loss": 2.4326,
      "step": 4666
    },
    {
      "epoch": 0.10371111111111112,
      "grad_norm": 1.1824246644973755,
      "learning_rate": 0.00017929762169370972,
      "loss": 2.1414,
      "step": 4667
    },
    {
      "epoch": 0.10373333333333333,
      "grad_norm": 1.566886067390442,
      "learning_rate": 0.00017929317626139143,
      "loss": 1.8825,
      "step": 4668
    },
    {
      "epoch": 0.10375555555555556,
      "grad_norm": 1.238523244857788,
      "learning_rate": 0.00017928873082907314,
      "loss": 1.7236,
      "step": 4669
    },
    {
      "epoch": 0.10377777777777777,
      "grad_norm": 1.2555123567581177,
      "learning_rate": 0.00017928428539675483,
      "loss": 2.3086,
      "step": 4670
    },
    {
      "epoch": 0.1038,
      "grad_norm": 1.174302101135254,
      "learning_rate": 0.00017927983996443656,
      "loss": 1.5017,
      "step": 4671
    },
    {
      "epoch": 0.10382222222222222,
      "grad_norm": 1.2573962211608887,
      "learning_rate": 0.00017927539453211825,
      "loss": 2.0492,
      "step": 4672
    },
    {
      "epoch": 0.10384444444444445,
      "grad_norm": 1.6517279148101807,
      "learning_rate": 0.00017927094909979996,
      "loss": 2.3336,
      "step": 4673
    },
    {
      "epoch": 0.10386666666666666,
      "grad_norm": 1.2209466695785522,
      "learning_rate": 0.00017926650366748166,
      "loss": 1.7249,
      "step": 4674
    },
    {
      "epoch": 0.10388888888888889,
      "grad_norm": 1.1546794176101685,
      "learning_rate": 0.00017926205823516337,
      "loss": 1.6352,
      "step": 4675
    },
    {
      "epoch": 0.1039111111111111,
      "grad_norm": 1.363912582397461,
      "learning_rate": 0.00017925761280284508,
      "loss": 2.3831,
      "step": 4676
    },
    {
      "epoch": 0.10393333333333334,
      "grad_norm": 1.3337188959121704,
      "learning_rate": 0.0001792531673705268,
      "loss": 1.7637,
      "step": 4677
    },
    {
      "epoch": 0.10395555555555555,
      "grad_norm": 1.9137290716171265,
      "learning_rate": 0.0001792487219382085,
      "loss": 2.044,
      "step": 4678
    },
    {
      "epoch": 0.10397777777777778,
      "grad_norm": 1.146369218826294,
      "learning_rate": 0.00017924427650589019,
      "loss": 1.8023,
      "step": 4679
    },
    {
      "epoch": 0.104,
      "grad_norm": 1.2753961086273193,
      "learning_rate": 0.00017923983107357192,
      "loss": 2.0125,
      "step": 4680
    },
    {
      "epoch": 0.10402222222222222,
      "grad_norm": 1.3141913414001465,
      "learning_rate": 0.0001792353856412536,
      "loss": 2.3434,
      "step": 4681
    },
    {
      "epoch": 0.10404444444444444,
      "grad_norm": 1.7478870153427124,
      "learning_rate": 0.00017923094020893534,
      "loss": 1.908,
      "step": 4682
    },
    {
      "epoch": 0.10406666666666667,
      "grad_norm": 1.4790189266204834,
      "learning_rate": 0.00017922649477661702,
      "loss": 1.8963,
      "step": 4683
    },
    {
      "epoch": 0.10408888888888888,
      "grad_norm": 0.8964288830757141,
      "learning_rate": 0.00017922204934429873,
      "loss": 0.8126,
      "step": 4684
    },
    {
      "epoch": 0.10411111111111111,
      "grad_norm": 1.1856062412261963,
      "learning_rate": 0.00017921760391198047,
      "loss": 1.2994,
      "step": 4685
    },
    {
      "epoch": 0.10413333333333333,
      "grad_norm": 1.4017351865768433,
      "learning_rate": 0.00017921315847966215,
      "loss": 1.9044,
      "step": 4686
    },
    {
      "epoch": 0.10415555555555556,
      "grad_norm": 1.7440826892852783,
      "learning_rate": 0.00017920871304734386,
      "loss": 2.5096,
      "step": 4687
    },
    {
      "epoch": 0.10417777777777777,
      "grad_norm": 1.5403646230697632,
      "learning_rate": 0.00017920426761502557,
      "loss": 1.9192,
      "step": 4688
    },
    {
      "epoch": 0.1042,
      "grad_norm": 1.7913638353347778,
      "learning_rate": 0.00017919982218270728,
      "loss": 2.1075,
      "step": 4689
    },
    {
      "epoch": 0.10422222222222222,
      "grad_norm": 1.7125804424285889,
      "learning_rate": 0.00017919537675038896,
      "loss": 1.8505,
      "step": 4690
    },
    {
      "epoch": 0.10424444444444445,
      "grad_norm": 1.6220624446868896,
      "learning_rate": 0.0001791909313180707,
      "loss": 2.1024,
      "step": 4691
    },
    {
      "epoch": 0.10426666666666666,
      "grad_norm": 1.75843346118927,
      "learning_rate": 0.0001791864858857524,
      "loss": 2.3189,
      "step": 4692
    },
    {
      "epoch": 0.10428888888888889,
      "grad_norm": 1.722414493560791,
      "learning_rate": 0.0001791820404534341,
      "loss": 1.8609,
      "step": 4693
    },
    {
      "epoch": 0.1043111111111111,
      "grad_norm": 1.6046638488769531,
      "learning_rate": 0.00017917759502111583,
      "loss": 1.8687,
      "step": 4694
    },
    {
      "epoch": 0.10433333333333333,
      "grad_norm": 1.341619610786438,
      "learning_rate": 0.0001791731495887975,
      "loss": 1.9194,
      "step": 4695
    },
    {
      "epoch": 0.10435555555555555,
      "grad_norm": 1.5972071886062622,
      "learning_rate": 0.00017916870415647922,
      "loss": 2.2778,
      "step": 4696
    },
    {
      "epoch": 0.10437777777777778,
      "grad_norm": 1.3288145065307617,
      "learning_rate": 0.00017916425872416093,
      "loss": 1.6617,
      "step": 4697
    },
    {
      "epoch": 0.1044,
      "grad_norm": 1.6051876544952393,
      "learning_rate": 0.00017915981329184264,
      "loss": 1.8437,
      "step": 4698
    },
    {
      "epoch": 0.10442222222222222,
      "grad_norm": 1.7933837175369263,
      "learning_rate": 0.00017915536785952432,
      "loss": 1.95,
      "step": 4699
    },
    {
      "epoch": 0.10444444444444445,
      "grad_norm": 1.4337576627731323,
      "learning_rate": 0.00017915092242720606,
      "loss": 1.7093,
      "step": 4700
    },
    {
      "epoch": 0.10446666666666667,
      "grad_norm": 1.213118314743042,
      "learning_rate": 0.00017914647699488777,
      "loss": 2.6718,
      "step": 4701
    },
    {
      "epoch": 0.1044888888888889,
      "grad_norm": 1.1741292476654053,
      "learning_rate": 0.00017914203156256948,
      "loss": 2.4319,
      "step": 4702
    },
    {
      "epoch": 0.10451111111111111,
      "grad_norm": 1.1501327753067017,
      "learning_rate": 0.0001791375861302512,
      "loss": 2.3273,
      "step": 4703
    },
    {
      "epoch": 0.10453333333333334,
      "grad_norm": 1.2908824682235718,
      "learning_rate": 0.00017913314069793287,
      "loss": 2.25,
      "step": 4704
    },
    {
      "epoch": 0.10455555555555555,
      "grad_norm": 1.2125142812728882,
      "learning_rate": 0.0001791286952656146,
      "loss": 2.3531,
      "step": 4705
    },
    {
      "epoch": 0.10457777777777778,
      "grad_norm": 1.2105412483215332,
      "learning_rate": 0.0001791242498332963,
      "loss": 2.1998,
      "step": 4706
    },
    {
      "epoch": 0.1046,
      "grad_norm": 1.067679762840271,
      "learning_rate": 0.000179119804400978,
      "loss": 1.9206,
      "step": 4707
    },
    {
      "epoch": 0.10462222222222223,
      "grad_norm": 1.1268724203109741,
      "learning_rate": 0.0001791153589686597,
      "loss": 2.1677,
      "step": 4708
    },
    {
      "epoch": 0.10464444444444444,
      "grad_norm": 1.1919324398040771,
      "learning_rate": 0.00017911091353634142,
      "loss": 2.4894,
      "step": 4709
    },
    {
      "epoch": 0.10466666666666667,
      "grad_norm": 1.278702974319458,
      "learning_rate": 0.00017910646810402313,
      "loss": 0.8101,
      "step": 4710
    },
    {
      "epoch": 0.10468888888888889,
      "grad_norm": 1.2591575384140015,
      "learning_rate": 0.00017910202267170484,
      "loss": 2.6963,
      "step": 4711
    },
    {
      "epoch": 0.10471111111111112,
      "grad_norm": 1.5875438451766968,
      "learning_rate": 0.00017909757723938655,
      "loss": 2.4404,
      "step": 4712
    },
    {
      "epoch": 0.10473333333333333,
      "grad_norm": 1.4721304178237915,
      "learning_rate": 0.00017909313180706823,
      "loss": 2.2582,
      "step": 4713
    },
    {
      "epoch": 0.10475555555555556,
      "grad_norm": 1.1468361616134644,
      "learning_rate": 0.00017908868637474997,
      "loss": 1.5026,
      "step": 4714
    },
    {
      "epoch": 0.10477777777777778,
      "grad_norm": 1.3252166509628296,
      "learning_rate": 0.00017908424094243165,
      "loss": 2.0172,
      "step": 4715
    },
    {
      "epoch": 0.1048,
      "grad_norm": 1.3450089693069458,
      "learning_rate": 0.00017907979551011336,
      "loss": 2.2964,
      "step": 4716
    },
    {
      "epoch": 0.10482222222222222,
      "grad_norm": 1.4002469778060913,
      "learning_rate": 0.00017907535007779507,
      "loss": 2.3678,
      "step": 4717
    },
    {
      "epoch": 0.10484444444444445,
      "grad_norm": 1.2362087965011597,
      "learning_rate": 0.00017907090464547678,
      "loss": 1.9837,
      "step": 4718
    },
    {
      "epoch": 0.10486666666666666,
      "grad_norm": 1.0984290838241577,
      "learning_rate": 0.0001790664592131585,
      "loss": 1.7908,
      "step": 4719
    },
    {
      "epoch": 0.10488888888888889,
      "grad_norm": 1.2312449216842651,
      "learning_rate": 0.0001790620137808402,
      "loss": 2.3593,
      "step": 4720
    },
    {
      "epoch": 0.10491111111111111,
      "grad_norm": 1.186219334602356,
      "learning_rate": 0.0001790575683485219,
      "loss": 2.3052,
      "step": 4721
    },
    {
      "epoch": 0.10493333333333334,
      "grad_norm": 1.9416412115097046,
      "learning_rate": 0.00017905312291620362,
      "loss": 2.1005,
      "step": 4722
    },
    {
      "epoch": 0.10495555555555555,
      "grad_norm": 1.5877373218536377,
      "learning_rate": 0.00017904867748388533,
      "loss": 2.1296,
      "step": 4723
    },
    {
      "epoch": 0.10497777777777778,
      "grad_norm": 1.4939285516738892,
      "learning_rate": 0.000179044232051567,
      "loss": 2.2017,
      "step": 4724
    },
    {
      "epoch": 0.105,
      "grad_norm": 1.6222294569015503,
      "learning_rate": 0.00017903978661924875,
      "loss": 2.1711,
      "step": 4725
    },
    {
      "epoch": 0.10502222222222223,
      "grad_norm": 1.5012242794036865,
      "learning_rate": 0.00017903534118693043,
      "loss": 2.3452,
      "step": 4726
    },
    {
      "epoch": 0.10504444444444444,
      "grad_norm": 1.6099516153335571,
      "learning_rate": 0.00017903089575461214,
      "loss": 2.2325,
      "step": 4727
    },
    {
      "epoch": 0.10506666666666667,
      "grad_norm": 1.3687937259674072,
      "learning_rate": 0.00017902645032229385,
      "loss": 2.1793,
      "step": 4728
    },
    {
      "epoch": 0.10508888888888888,
      "grad_norm": 1.3842027187347412,
      "learning_rate": 0.00017902200488997556,
      "loss": 1.632,
      "step": 4729
    },
    {
      "epoch": 0.10511111111111111,
      "grad_norm": 1.439971923828125,
      "learning_rate": 0.00017901755945765727,
      "loss": 2.2228,
      "step": 4730
    },
    {
      "epoch": 0.10513333333333333,
      "grad_norm": 1.350061058998108,
      "learning_rate": 0.00017901311402533898,
      "loss": 1.861,
      "step": 4731
    },
    {
      "epoch": 0.10515555555555556,
      "grad_norm": 1.3200052976608276,
      "learning_rate": 0.0001790086685930207,
      "loss": 2.1378,
      "step": 4732
    },
    {
      "epoch": 0.10517777777777777,
      "grad_norm": 1.5480362176895142,
      "learning_rate": 0.00017900422316070237,
      "loss": 1.9267,
      "step": 4733
    },
    {
      "epoch": 0.1052,
      "grad_norm": 1.4195936918258667,
      "learning_rate": 0.0001789997777283841,
      "loss": 1.5747,
      "step": 4734
    },
    {
      "epoch": 0.10522222222222222,
      "grad_norm": 1.2044605016708374,
      "learning_rate": 0.0001789953322960658,
      "loss": 1.9024,
      "step": 4735
    },
    {
      "epoch": 0.10524444444444445,
      "grad_norm": 1.2100012302398682,
      "learning_rate": 0.0001789908868637475,
      "loss": 1.7301,
      "step": 4736
    },
    {
      "epoch": 0.10526666666666666,
      "grad_norm": 1.2560068368911743,
      "learning_rate": 0.0001789864414314292,
      "loss": 1.7934,
      "step": 4737
    },
    {
      "epoch": 0.10528888888888889,
      "grad_norm": 1.6757310628890991,
      "learning_rate": 0.00017898199599911092,
      "loss": 2.1064,
      "step": 4738
    },
    {
      "epoch": 0.1053111111111111,
      "grad_norm": 1.3027863502502441,
      "learning_rate": 0.00017897755056679263,
      "loss": 1.7545,
      "step": 4739
    },
    {
      "epoch": 0.10533333333333333,
      "grad_norm": 1.9690635204315186,
      "learning_rate": 0.00017897310513447434,
      "loss": 1.8703,
      "step": 4740
    },
    {
      "epoch": 0.10535555555555555,
      "grad_norm": 1.5110101699829102,
      "learning_rate": 0.00017896865970215605,
      "loss": 1.8594,
      "step": 4741
    },
    {
      "epoch": 0.10537777777777778,
      "grad_norm": 1.3774563074111938,
      "learning_rate": 0.00017896421426983776,
      "loss": 1.9482,
      "step": 4742
    },
    {
      "epoch": 0.1054,
      "grad_norm": 1.1434893608093262,
      "learning_rate": 0.00017895976883751947,
      "loss": 1.4703,
      "step": 4743
    },
    {
      "epoch": 0.10542222222222222,
      "grad_norm": 1.6772842407226562,
      "learning_rate": 0.00017895532340520115,
      "loss": 2.4015,
      "step": 4744
    },
    {
      "epoch": 0.10544444444444444,
      "grad_norm": 1.4966915845870972,
      "learning_rate": 0.00017895087797288289,
      "loss": 2.1092,
      "step": 4745
    },
    {
      "epoch": 0.10546666666666667,
      "grad_norm": 1.4620712995529175,
      "learning_rate": 0.00017894643254056457,
      "loss": 1.8991,
      "step": 4746
    },
    {
      "epoch": 0.10548888888888888,
      "grad_norm": 1.4245212078094482,
      "learning_rate": 0.00017894198710824628,
      "loss": 1.6592,
      "step": 4747
    },
    {
      "epoch": 0.10551111111111111,
      "grad_norm": 1.5226815938949585,
      "learning_rate": 0.000178937541675928,
      "loss": 1.7001,
      "step": 4748
    },
    {
      "epoch": 0.10553333333333334,
      "grad_norm": 1.407592535018921,
      "learning_rate": 0.0001789330962436097,
      "loss": 1.525,
      "step": 4749
    },
    {
      "epoch": 0.10555555555555556,
      "grad_norm": 1.8174995183944702,
      "learning_rate": 0.0001789286508112914,
      "loss": 1.8836,
      "step": 4750
    },
    {
      "epoch": 0.10557777777777778,
      "grad_norm": 1.2203701734542847,
      "learning_rate": 0.00017892420537897312,
      "loss": 2.3811,
      "step": 4751
    },
    {
      "epoch": 0.1056,
      "grad_norm": 1.1053575277328491,
      "learning_rate": 0.00017891975994665483,
      "loss": 2.0804,
      "step": 4752
    },
    {
      "epoch": 0.10562222222222223,
      "grad_norm": 1.281872034072876,
      "learning_rate": 0.0001789153145143365,
      "loss": 2.5541,
      "step": 4753
    },
    {
      "epoch": 0.10564444444444444,
      "grad_norm": 1.1466424465179443,
      "learning_rate": 0.00017891086908201824,
      "loss": 2.3009,
      "step": 4754
    },
    {
      "epoch": 0.10566666666666667,
      "grad_norm": 2.035588502883911,
      "learning_rate": 0.00017890642364969993,
      "loss": 2.1204,
      "step": 4755
    },
    {
      "epoch": 0.10568888888888889,
      "grad_norm": 1.331515908241272,
      "learning_rate": 0.00017890197821738164,
      "loss": 2.4788,
      "step": 4756
    },
    {
      "epoch": 0.10571111111111112,
      "grad_norm": 1.2990413904190063,
      "learning_rate": 0.00017889753278506335,
      "loss": 2.3972,
      "step": 4757
    },
    {
      "epoch": 0.10573333333333333,
      "grad_norm": 1.1266638040542603,
      "learning_rate": 0.00017889308735274506,
      "loss": 2.3233,
      "step": 4758
    },
    {
      "epoch": 0.10575555555555556,
      "grad_norm": 1.1677242517471313,
      "learning_rate": 0.0001788886419204268,
      "loss": 1.0468,
      "step": 4759
    },
    {
      "epoch": 0.10577777777777778,
      "grad_norm": 1.148490071296692,
      "learning_rate": 0.00017888419648810848,
      "loss": 2.4618,
      "step": 4760
    },
    {
      "epoch": 0.1058,
      "grad_norm": 1.2375208139419556,
      "learning_rate": 0.00017887975105579018,
      "loss": 2.0278,
      "step": 4761
    },
    {
      "epoch": 0.10582222222222222,
      "grad_norm": 1.6354830265045166,
      "learning_rate": 0.0001788753056234719,
      "loss": 3.0135,
      "step": 4762
    },
    {
      "epoch": 0.10584444444444445,
      "grad_norm": 1.2000577449798584,
      "learning_rate": 0.0001788708601911536,
      "loss": 1.9629,
      "step": 4763
    },
    {
      "epoch": 0.10586666666666666,
      "grad_norm": 1.2368160486221313,
      "learning_rate": 0.0001788664147588353,
      "loss": 2.2188,
      "step": 4764
    },
    {
      "epoch": 0.1058888888888889,
      "grad_norm": 1.275530219078064,
      "learning_rate": 0.00017886196932651702,
      "loss": 1.9226,
      "step": 4765
    },
    {
      "epoch": 0.10591111111111111,
      "grad_norm": 1.4124844074249268,
      "learning_rate": 0.00017885752389419873,
      "loss": 1.7367,
      "step": 4766
    },
    {
      "epoch": 0.10593333333333334,
      "grad_norm": 1.3520641326904297,
      "learning_rate": 0.00017885307846188042,
      "loss": 1.6431,
      "step": 4767
    },
    {
      "epoch": 0.10595555555555555,
      "grad_norm": 1.2531776428222656,
      "learning_rate": 0.00017884863302956215,
      "loss": 1.7625,
      "step": 4768
    },
    {
      "epoch": 0.10597777777777778,
      "grad_norm": 1.1857998371124268,
      "learning_rate": 0.00017884418759724383,
      "loss": 1.8581,
      "step": 4769
    },
    {
      "epoch": 0.106,
      "grad_norm": 1.1404083967208862,
      "learning_rate": 0.00017883974216492554,
      "loss": 1.9312,
      "step": 4770
    },
    {
      "epoch": 0.10602222222222223,
      "grad_norm": 1.3994954824447632,
      "learning_rate": 0.00017883529673260725,
      "loss": 2.177,
      "step": 4771
    },
    {
      "epoch": 0.10604444444444444,
      "grad_norm": 1.3618932962417603,
      "learning_rate": 0.00017883085130028896,
      "loss": 1.8714,
      "step": 4772
    },
    {
      "epoch": 0.10606666666666667,
      "grad_norm": 1.509718656539917,
      "learning_rate": 0.00017882640586797065,
      "loss": 2.6175,
      "step": 4773
    },
    {
      "epoch": 0.10608888888888889,
      "grad_norm": 1.5017961263656616,
      "learning_rate": 0.00017882196043565238,
      "loss": 1.9237,
      "step": 4774
    },
    {
      "epoch": 0.10611111111111111,
      "grad_norm": 1.3233697414398193,
      "learning_rate": 0.0001788175150033341,
      "loss": 2.0806,
      "step": 4775
    },
    {
      "epoch": 0.10613333333333333,
      "grad_norm": 1.19089674949646,
      "learning_rate": 0.00017881306957101577,
      "loss": 1.3739,
      "step": 4776
    },
    {
      "epoch": 0.10615555555555556,
      "grad_norm": 1.4545414447784424,
      "learning_rate": 0.0001788086241386975,
      "loss": 2.0857,
      "step": 4777
    },
    {
      "epoch": 0.10617777777777777,
      "grad_norm": 1.4069355726242065,
      "learning_rate": 0.0001788041787063792,
      "loss": 1.9801,
      "step": 4778
    },
    {
      "epoch": 0.1062,
      "grad_norm": 1.385577917098999,
      "learning_rate": 0.00017879973327406093,
      "loss": 1.9267,
      "step": 4779
    },
    {
      "epoch": 0.10622222222222222,
      "grad_norm": 1.0476232767105103,
      "learning_rate": 0.0001787952878417426,
      "loss": 1.1107,
      "step": 4780
    },
    {
      "epoch": 0.10624444444444445,
      "grad_norm": 1.624247670173645,
      "learning_rate": 0.00017879084240942432,
      "loss": 1.8352,
      "step": 4781
    },
    {
      "epoch": 0.10626666666666666,
      "grad_norm": 1.4389219284057617,
      "learning_rate": 0.00017878639697710603,
      "loss": 2.073,
      "step": 4782
    },
    {
      "epoch": 0.10628888888888889,
      "grad_norm": 1.6805499792099,
      "learning_rate": 0.00017878195154478774,
      "loss": 1.6638,
      "step": 4783
    },
    {
      "epoch": 0.1063111111111111,
      "grad_norm": 1.327546238899231,
      "learning_rate": 0.00017877750611246945,
      "loss": 1.851,
      "step": 4784
    },
    {
      "epoch": 0.10633333333333334,
      "grad_norm": 1.2685459852218628,
      "learning_rate": 0.00017877306068015116,
      "loss": 1.7745,
      "step": 4785
    },
    {
      "epoch": 0.10635555555555555,
      "grad_norm": 1.380784034729004,
      "learning_rate": 0.00017876861524783287,
      "loss": 1.9107,
      "step": 4786
    },
    {
      "epoch": 0.10637777777777778,
      "grad_norm": 1.4243820905685425,
      "learning_rate": 0.00017876416981551455,
      "loss": 1.5676,
      "step": 4787
    },
    {
      "epoch": 0.1064,
      "grad_norm": 1.5323160886764526,
      "learning_rate": 0.0001787597243831963,
      "loss": 2.1893,
      "step": 4788
    },
    {
      "epoch": 0.10642222222222222,
      "grad_norm": 1.447121500968933,
      "learning_rate": 0.00017875527895087797,
      "loss": 2.2089,
      "step": 4789
    },
    {
      "epoch": 0.10644444444444444,
      "grad_norm": 1.1103867292404175,
      "learning_rate": 0.00017875083351855968,
      "loss": 1.6697,
      "step": 4790
    },
    {
      "epoch": 0.10646666666666667,
      "grad_norm": 1.676403522491455,
      "learning_rate": 0.0001787463880862414,
      "loss": 1.8635,
      "step": 4791
    },
    {
      "epoch": 0.10648888888888888,
      "grad_norm": 1.495719075202942,
      "learning_rate": 0.0001787419426539231,
      "loss": 2.0954,
      "step": 4792
    },
    {
      "epoch": 0.10651111111111111,
      "grad_norm": 1.6013007164001465,
      "learning_rate": 0.0001787374972216048,
      "loss": 1.8357,
      "step": 4793
    },
    {
      "epoch": 0.10653333333333333,
      "grad_norm": 1.310623049736023,
      "learning_rate": 0.00017873305178928652,
      "loss": 1.3455,
      "step": 4794
    },
    {
      "epoch": 0.10655555555555556,
      "grad_norm": 1.3772886991500854,
      "learning_rate": 0.00017872860635696823,
      "loss": 1.5966,
      "step": 4795
    },
    {
      "epoch": 0.10657777777777777,
      "grad_norm": 1.4872381687164307,
      "learning_rate": 0.00017872416092464994,
      "loss": 1.9453,
      "step": 4796
    },
    {
      "epoch": 0.1066,
      "grad_norm": 1.821520209312439,
      "learning_rate": 0.00017871971549233165,
      "loss": 2.0848,
      "step": 4797
    },
    {
      "epoch": 0.10662222222222222,
      "grad_norm": 1.5731239318847656,
      "learning_rate": 0.00017871527006001333,
      "loss": 1.3454,
      "step": 4798
    },
    {
      "epoch": 0.10664444444444444,
      "grad_norm": 1.2627689838409424,
      "learning_rate": 0.00017871082462769507,
      "loss": 0.9885,
      "step": 4799
    },
    {
      "epoch": 0.10666666666666667,
      "grad_norm": 1.0051491260528564,
      "learning_rate": 0.00017870637919537675,
      "loss": 0.7215,
      "step": 4800
    },
    {
      "epoch": 0.10668888888888889,
      "grad_norm": 1.0902740955352783,
      "learning_rate": 0.00017870193376305846,
      "loss": 2.5814,
      "step": 4801
    },
    {
      "epoch": 0.10671111111111112,
      "grad_norm": 1.281722903251648,
      "learning_rate": 0.00017869748833074017,
      "loss": 2.689,
      "step": 4802
    },
    {
      "epoch": 0.10673333333333333,
      "grad_norm": 0.7057554721832275,
      "learning_rate": 0.00017869304289842188,
      "loss": 0.9449,
      "step": 4803
    },
    {
      "epoch": 0.10675555555555556,
      "grad_norm": 1.2787814140319824,
      "learning_rate": 0.0001786885974661036,
      "loss": 1.2284,
      "step": 4804
    },
    {
      "epoch": 0.10677777777777778,
      "grad_norm": 1.2882000207901,
      "learning_rate": 0.0001786841520337853,
      "loss": 1.8383,
      "step": 4805
    },
    {
      "epoch": 0.1068,
      "grad_norm": 1.1241916418075562,
      "learning_rate": 0.000178679706601467,
      "loss": 2.1864,
      "step": 4806
    },
    {
      "epoch": 0.10682222222222222,
      "grad_norm": 1.198936939239502,
      "learning_rate": 0.0001786752611691487,
      "loss": 2.4488,
      "step": 4807
    },
    {
      "epoch": 0.10684444444444445,
      "grad_norm": 1.236473560333252,
      "learning_rate": 0.00017867081573683043,
      "loss": 2.0607,
      "step": 4808
    },
    {
      "epoch": 0.10686666666666667,
      "grad_norm": 1.1822491884231567,
      "learning_rate": 0.0001786663703045121,
      "loss": 1.833,
      "step": 4809
    },
    {
      "epoch": 0.1068888888888889,
      "grad_norm": 1.7205073833465576,
      "learning_rate": 0.00017866192487219382,
      "loss": 2.3711,
      "step": 4810
    },
    {
      "epoch": 0.10691111111111111,
      "grad_norm": 1.1875735521316528,
      "learning_rate": 0.00017865747943987553,
      "loss": 1.7567,
      "step": 4811
    },
    {
      "epoch": 0.10693333333333334,
      "grad_norm": 1.2851990461349487,
      "learning_rate": 0.00017865303400755724,
      "loss": 2.2358,
      "step": 4812
    },
    {
      "epoch": 0.10695555555555555,
      "grad_norm": 0.8558325171470642,
      "learning_rate": 0.00017864858857523895,
      "loss": 1.0373,
      "step": 4813
    },
    {
      "epoch": 0.10697777777777778,
      "grad_norm": 1.146108627319336,
      "learning_rate": 0.00017864414314292066,
      "loss": 1.6266,
      "step": 4814
    },
    {
      "epoch": 0.107,
      "grad_norm": 1.458898901939392,
      "learning_rate": 0.00017863969771060237,
      "loss": 1.9737,
      "step": 4815
    },
    {
      "epoch": 0.10702222222222223,
      "grad_norm": 1.3957576751708984,
      "learning_rate": 0.00017863525227828408,
      "loss": 2.3041,
      "step": 4816
    },
    {
      "epoch": 0.10704444444444444,
      "grad_norm": 1.4162242412567139,
      "learning_rate": 0.0001786308068459658,
      "loss": 1.5047,
      "step": 4817
    },
    {
      "epoch": 0.10706666666666667,
      "grad_norm": 1.3430386781692505,
      "learning_rate": 0.00017862636141364747,
      "loss": 1.7485,
      "step": 4818
    },
    {
      "epoch": 0.10708888888888889,
      "grad_norm": 1.3710466623306274,
      "learning_rate": 0.0001786219159813292,
      "loss": 2.2305,
      "step": 4819
    },
    {
      "epoch": 0.10711111111111112,
      "grad_norm": 1.6137245893478394,
      "learning_rate": 0.0001786174705490109,
      "loss": 1.8626,
      "step": 4820
    },
    {
      "epoch": 0.10713333333333333,
      "grad_norm": 1.2521051168441772,
      "learning_rate": 0.0001786130251166926,
      "loss": 1.6502,
      "step": 4821
    },
    {
      "epoch": 0.10715555555555556,
      "grad_norm": 1.2675551176071167,
      "learning_rate": 0.0001786085796843743,
      "loss": 1.9744,
      "step": 4822
    },
    {
      "epoch": 0.10717777777777777,
      "grad_norm": 1.7004122734069824,
      "learning_rate": 0.00017860413425205602,
      "loss": 2.2287,
      "step": 4823
    },
    {
      "epoch": 0.1072,
      "grad_norm": 1.5085628032684326,
      "learning_rate": 0.00017859968881973773,
      "loss": 1.9892,
      "step": 4824
    },
    {
      "epoch": 0.10722222222222222,
      "grad_norm": 1.344618320465088,
      "learning_rate": 0.00017859524338741944,
      "loss": 1.7773,
      "step": 4825
    },
    {
      "epoch": 0.10724444444444445,
      "grad_norm": 1.485036015510559,
      "learning_rate": 0.00017859079795510115,
      "loss": 2.3897,
      "step": 4826
    },
    {
      "epoch": 0.10726666666666666,
      "grad_norm": 1.508232593536377,
      "learning_rate": 0.00017858635252278283,
      "loss": 2.5241,
      "step": 4827
    },
    {
      "epoch": 0.10728888888888889,
      "grad_norm": 1.3245428800582886,
      "learning_rate": 0.00017858190709046457,
      "loss": 1.5729,
      "step": 4828
    },
    {
      "epoch": 0.10731111111111111,
      "grad_norm": 1.2436652183532715,
      "learning_rate": 0.00017857746165814625,
      "loss": 1.8424,
      "step": 4829
    },
    {
      "epoch": 0.10733333333333334,
      "grad_norm": 1.1924527883529663,
      "learning_rate": 0.00017857301622582796,
      "loss": 1.5195,
      "step": 4830
    },
    {
      "epoch": 0.10735555555555555,
      "grad_norm": 1.6256686449050903,
      "learning_rate": 0.00017856857079350967,
      "loss": 2.0897,
      "step": 4831
    },
    {
      "epoch": 0.10737777777777778,
      "grad_norm": 1.4407004117965698,
      "learning_rate": 0.00017856412536119138,
      "loss": 1.9401,
      "step": 4832
    },
    {
      "epoch": 0.1074,
      "grad_norm": 1.6473324298858643,
      "learning_rate": 0.0001785596799288731,
      "loss": 1.8209,
      "step": 4833
    },
    {
      "epoch": 0.10742222222222222,
      "grad_norm": 1.5636391639709473,
      "learning_rate": 0.0001785552344965548,
      "loss": 1.8687,
      "step": 4834
    },
    {
      "epoch": 0.10744444444444444,
      "grad_norm": 1.5384244918823242,
      "learning_rate": 0.0001785507890642365,
      "loss": 1.8711,
      "step": 4835
    },
    {
      "epoch": 0.10746666666666667,
      "grad_norm": 1.4427685737609863,
      "learning_rate": 0.00017854634363191822,
      "loss": 1.6654,
      "step": 4836
    },
    {
      "epoch": 0.10748888888888888,
      "grad_norm": 1.6583229303359985,
      "learning_rate": 0.00017854189819959993,
      "loss": 1.801,
      "step": 4837
    },
    {
      "epoch": 0.10751111111111111,
      "grad_norm": 1.4824061393737793,
      "learning_rate": 0.0001785374527672816,
      "loss": 2.0656,
      "step": 4838
    },
    {
      "epoch": 0.10753333333333333,
      "grad_norm": 1.9851138591766357,
      "learning_rate": 0.00017853300733496335,
      "loss": 2.6776,
      "step": 4839
    },
    {
      "epoch": 0.10755555555555556,
      "grad_norm": 1.6271814107894897,
      "learning_rate": 0.00017852856190264505,
      "loss": 1.5037,
      "step": 4840
    },
    {
      "epoch": 0.10757777777777777,
      "grad_norm": 1.7235820293426514,
      "learning_rate": 0.00017852411647032674,
      "loss": 2.0508,
      "step": 4841
    },
    {
      "epoch": 0.1076,
      "grad_norm": 1.6878529787063599,
      "learning_rate": 0.00017851967103800847,
      "loss": 1.9263,
      "step": 4842
    },
    {
      "epoch": 0.10762222222222222,
      "grad_norm": 1.3455007076263428,
      "learning_rate": 0.00017851522560569016,
      "loss": 1.8635,
      "step": 4843
    },
    {
      "epoch": 0.10764444444444445,
      "grad_norm": 1.4259041547775269,
      "learning_rate": 0.00017851078017337187,
      "loss": 1.5115,
      "step": 4844
    },
    {
      "epoch": 0.10766666666666666,
      "grad_norm": 1.975699543952942,
      "learning_rate": 0.00017850633474105358,
      "loss": 2.2073,
      "step": 4845
    },
    {
      "epoch": 0.10768888888888889,
      "grad_norm": 1.9313888549804688,
      "learning_rate": 0.00017850188930873529,
      "loss": 1.9747,
      "step": 4846
    },
    {
      "epoch": 0.1077111111111111,
      "grad_norm": 1.72438645362854,
      "learning_rate": 0.00017849744387641697,
      "loss": 2.3328,
      "step": 4847
    },
    {
      "epoch": 0.10773333333333333,
      "grad_norm": 1.9362549781799316,
      "learning_rate": 0.0001784929984440987,
      "loss": 2.2887,
      "step": 4848
    },
    {
      "epoch": 0.10775555555555555,
      "grad_norm": 1.6018445491790771,
      "learning_rate": 0.00017848855301178041,
      "loss": 1.5289,
      "step": 4849
    },
    {
      "epoch": 0.10777777777777778,
      "grad_norm": 1.141117811203003,
      "learning_rate": 0.0001784841075794621,
      "loss": 0.7504,
      "step": 4850
    },
    {
      "epoch": 0.1078,
      "grad_norm": 1.1608731746673584,
      "learning_rate": 0.00017847966214714383,
      "loss": 1.8391,
      "step": 4851
    },
    {
      "epoch": 0.10782222222222222,
      "grad_norm": 0.7492461204528809,
      "learning_rate": 0.00017847521671482552,
      "loss": 1.148,
      "step": 4852
    },
    {
      "epoch": 0.10784444444444445,
      "grad_norm": 1.2936536073684692,
      "learning_rate": 0.00017847077128250725,
      "loss": 2.5965,
      "step": 4853
    },
    {
      "epoch": 0.10786666666666667,
      "grad_norm": 1.4905349016189575,
      "learning_rate": 0.00017846632585018894,
      "loss": 2.1515,
      "step": 4854
    },
    {
      "epoch": 0.1078888888888889,
      "grad_norm": 1.23819899559021,
      "learning_rate": 0.00017846188041787065,
      "loss": 2.2115,
      "step": 4855
    },
    {
      "epoch": 0.10791111111111111,
      "grad_norm": 1.4479632377624512,
      "learning_rate": 0.00017845743498555235,
      "loss": 2.641,
      "step": 4856
    },
    {
      "epoch": 0.10793333333333334,
      "grad_norm": 1.1513296365737915,
      "learning_rate": 0.00017845298955323406,
      "loss": 2.1495,
      "step": 4857
    },
    {
      "epoch": 0.10795555555555555,
      "grad_norm": 1.3184159994125366,
      "learning_rate": 0.00017844854412091577,
      "loss": 2.0914,
      "step": 4858
    },
    {
      "epoch": 0.10797777777777778,
      "grad_norm": 1.2866036891937256,
      "learning_rate": 0.00017844409868859748,
      "loss": 1.5749,
      "step": 4859
    },
    {
      "epoch": 0.108,
      "grad_norm": 1.1014026403427124,
      "learning_rate": 0.0001784396532562792,
      "loss": 2.0802,
      "step": 4860
    },
    {
      "epoch": 0.10802222222222223,
      "grad_norm": 1.5733935832977295,
      "learning_rate": 0.00017843520782396088,
      "loss": 2.6836,
      "step": 4861
    },
    {
      "epoch": 0.10804444444444444,
      "grad_norm": 1.2848235368728638,
      "learning_rate": 0.0001784307623916426,
      "loss": 2.3255,
      "step": 4862
    },
    {
      "epoch": 0.10806666666666667,
      "grad_norm": 1.2833555936813354,
      "learning_rate": 0.0001784263169593243,
      "loss": 0.9655,
      "step": 4863
    },
    {
      "epoch": 0.10808888888888889,
      "grad_norm": 1.536370873451233,
      "learning_rate": 0.000178421871527006,
      "loss": 1.7931,
      "step": 4864
    },
    {
      "epoch": 0.10811111111111112,
      "grad_norm": 1.3962472677230835,
      "learning_rate": 0.00017841742609468771,
      "loss": 2.1334,
      "step": 4865
    },
    {
      "epoch": 0.10813333333333333,
      "grad_norm": 1.568142294883728,
      "learning_rate": 0.00017841298066236942,
      "loss": 2.354,
      "step": 4866
    },
    {
      "epoch": 0.10815555555555556,
      "grad_norm": 1.3509085178375244,
      "learning_rate": 0.00017840853523005113,
      "loss": 2.1654,
      "step": 4867
    },
    {
      "epoch": 0.10817777777777778,
      "grad_norm": 1.3805365562438965,
      "learning_rate": 0.00017840408979773284,
      "loss": 2.1351,
      "step": 4868
    },
    {
      "epoch": 0.1082,
      "grad_norm": 1.3206920623779297,
      "learning_rate": 0.00017839964436541455,
      "loss": 1.9483,
      "step": 4869
    },
    {
      "epoch": 0.10822222222222222,
      "grad_norm": 1.3076742887496948,
      "learning_rate": 0.00017839519893309624,
      "loss": 1.877,
      "step": 4870
    },
    {
      "epoch": 0.10824444444444445,
      "grad_norm": 1.265954613685608,
      "learning_rate": 0.00017839075350077797,
      "loss": 1.9334,
      "step": 4871
    },
    {
      "epoch": 0.10826666666666666,
      "grad_norm": 1.1229366064071655,
      "learning_rate": 0.00017838630806845965,
      "loss": 2.0534,
      "step": 4872
    },
    {
      "epoch": 0.10828888888888889,
      "grad_norm": 1.210316777229309,
      "learning_rate": 0.0001783818626361414,
      "loss": 1.5617,
      "step": 4873
    },
    {
      "epoch": 0.10831111111111111,
      "grad_norm": 1.445582389831543,
      "learning_rate": 0.00017837741720382307,
      "loss": 2.0075,
      "step": 4874
    },
    {
      "epoch": 0.10833333333333334,
      "grad_norm": 1.116840124130249,
      "learning_rate": 0.00017837297177150478,
      "loss": 1.5076,
      "step": 4875
    },
    {
      "epoch": 0.10835555555555555,
      "grad_norm": 1.5497595071792603,
      "learning_rate": 0.0001783685263391865,
      "loss": 1.759,
      "step": 4876
    },
    {
      "epoch": 0.10837777777777778,
      "grad_norm": 1.470854640007019,
      "learning_rate": 0.0001783640809068682,
      "loss": 1.9371,
      "step": 4877
    },
    {
      "epoch": 0.1084,
      "grad_norm": 1.361628532409668,
      "learning_rate": 0.0001783596354745499,
      "loss": 1.9077,
      "step": 4878
    },
    {
      "epoch": 0.10842222222222223,
      "grad_norm": 1.4020766019821167,
      "learning_rate": 0.00017835519004223162,
      "loss": 2.2299,
      "step": 4879
    },
    {
      "epoch": 0.10844444444444444,
      "grad_norm": 1.097943902015686,
      "learning_rate": 0.00017835074460991333,
      "loss": 0.7599,
      "step": 4880
    },
    {
      "epoch": 0.10846666666666667,
      "grad_norm": 1.819696307182312,
      "learning_rate": 0.00017834629917759501,
      "loss": 1.8885,
      "step": 4881
    },
    {
      "epoch": 0.10848888888888888,
      "grad_norm": 1.4998507499694824,
      "learning_rate": 0.00017834185374527675,
      "loss": 2.2118,
      "step": 4882
    },
    {
      "epoch": 0.10851111111111111,
      "grad_norm": 1.3697640895843506,
      "learning_rate": 0.00017833740831295843,
      "loss": 1.6194,
      "step": 4883
    },
    {
      "epoch": 0.10853333333333333,
      "grad_norm": 1.3775430917739868,
      "learning_rate": 0.00017833296288064014,
      "loss": 1.9667,
      "step": 4884
    },
    {
      "epoch": 0.10855555555555556,
      "grad_norm": 1.5209304094314575,
      "learning_rate": 0.00017832851744832185,
      "loss": 2.084,
      "step": 4885
    },
    {
      "epoch": 0.10857777777777777,
      "grad_norm": 1.9952448606491089,
      "learning_rate": 0.00017832407201600356,
      "loss": 1.863,
      "step": 4886
    },
    {
      "epoch": 0.1086,
      "grad_norm": 1.7274080514907837,
      "learning_rate": 0.00017831962658368527,
      "loss": 2.3409,
      "step": 4887
    },
    {
      "epoch": 0.10862222222222222,
      "grad_norm": 1.2222557067871094,
      "learning_rate": 0.00017831518115136698,
      "loss": 0.8603,
      "step": 4888
    },
    {
      "epoch": 0.10864444444444445,
      "grad_norm": 1.3831441402435303,
      "learning_rate": 0.0001783107357190487,
      "loss": 2.0508,
      "step": 4889
    },
    {
      "epoch": 0.10866666666666666,
      "grad_norm": 1.679049015045166,
      "learning_rate": 0.0001783062902867304,
      "loss": 1.7804,
      "step": 4890
    },
    {
      "epoch": 0.10868888888888889,
      "grad_norm": 1.5535331964492798,
      "learning_rate": 0.0001783018448544121,
      "loss": 2.0566,
      "step": 4891
    },
    {
      "epoch": 0.1087111111111111,
      "grad_norm": 1.339060664176941,
      "learning_rate": 0.0001782973994220938,
      "loss": 1.3368,
      "step": 4892
    },
    {
      "epoch": 0.10873333333333333,
      "grad_norm": 1.4295165538787842,
      "learning_rate": 0.00017829295398977553,
      "loss": 1.6355,
      "step": 4893
    },
    {
      "epoch": 0.10875555555555555,
      "grad_norm": 1.288623332977295,
      "learning_rate": 0.0001782885085574572,
      "loss": 1.6462,
      "step": 4894
    },
    {
      "epoch": 0.10877777777777778,
      "grad_norm": 1.2904632091522217,
      "learning_rate": 0.00017828406312513892,
      "loss": 1.8499,
      "step": 4895
    },
    {
      "epoch": 0.1088,
      "grad_norm": 1.1083375215530396,
      "learning_rate": 0.00017827961769282063,
      "loss": 1.0046,
      "step": 4896
    },
    {
      "epoch": 0.10882222222222222,
      "grad_norm": 1.6553095579147339,
      "learning_rate": 0.00017827517226050234,
      "loss": 2.0296,
      "step": 4897
    },
    {
      "epoch": 0.10884444444444444,
      "grad_norm": 1.8628255128860474,
      "learning_rate": 0.00017827072682818405,
      "loss": 2.0301,
      "step": 4898
    },
    {
      "epoch": 0.10886666666666667,
      "grad_norm": 1.0950030088424683,
      "learning_rate": 0.00017826628139586576,
      "loss": 0.9646,
      "step": 4899
    },
    {
      "epoch": 0.10888888888888888,
      "grad_norm": 1.362380027770996,
      "learning_rate": 0.00017826183596354747,
      "loss": 0.9393,
      "step": 4900
    },
    {
      "epoch": 0.10891111111111111,
      "grad_norm": 1.2046605348587036,
      "learning_rate": 0.00017825739053122915,
      "loss": 2.5841,
      "step": 4901
    },
    {
      "epoch": 0.10893333333333333,
      "grad_norm": 1.240393877029419,
      "learning_rate": 0.0001782529450989109,
      "loss": 2.2994,
      "step": 4902
    },
    {
      "epoch": 0.10895555555555556,
      "grad_norm": 1.2417223453521729,
      "learning_rate": 0.00017824849966659257,
      "loss": 2.3333,
      "step": 4903
    },
    {
      "epoch": 0.10897777777777778,
      "grad_norm": 1.2935045957565308,
      "learning_rate": 0.00017824405423427428,
      "loss": 2.4592,
      "step": 4904
    },
    {
      "epoch": 0.109,
      "grad_norm": 1.198891520500183,
      "learning_rate": 0.000178239608801956,
      "loss": 2.2766,
      "step": 4905
    },
    {
      "epoch": 0.10902222222222223,
      "grad_norm": 1.267836570739746,
      "learning_rate": 0.0001782351633696377,
      "loss": 2.327,
      "step": 4906
    },
    {
      "epoch": 0.10904444444444444,
      "grad_norm": 1.1461093425750732,
      "learning_rate": 0.0001782307179373194,
      "loss": 2.1304,
      "step": 4907
    },
    {
      "epoch": 0.10906666666666667,
      "grad_norm": 1.1516743898391724,
      "learning_rate": 0.00017822627250500112,
      "loss": 1.8076,
      "step": 4908
    },
    {
      "epoch": 0.10908888888888889,
      "grad_norm": 1.1365642547607422,
      "learning_rate": 0.00017822182707268283,
      "loss": 1.9656,
      "step": 4909
    },
    {
      "epoch": 0.10911111111111112,
      "grad_norm": 1.3225398063659668,
      "learning_rate": 0.00017821738164036454,
      "loss": 2.2263,
      "step": 4910
    },
    {
      "epoch": 0.10913333333333333,
      "grad_norm": 1.1225049495697021,
      "learning_rate": 0.00017821293620804625,
      "loss": 2.1251,
      "step": 4911
    },
    {
      "epoch": 0.10915555555555556,
      "grad_norm": 1.3000221252441406,
      "learning_rate": 0.00017820849077572793,
      "loss": 1.6102,
      "step": 4912
    },
    {
      "epoch": 0.10917777777777778,
      "grad_norm": 1.3952467441558838,
      "learning_rate": 0.00017820404534340967,
      "loss": 2.2641,
      "step": 4913
    },
    {
      "epoch": 0.1092,
      "grad_norm": 1.2409698963165283,
      "learning_rate": 0.00017819959991109138,
      "loss": 2.2962,
      "step": 4914
    },
    {
      "epoch": 0.10922222222222222,
      "grad_norm": 1.2674980163574219,
      "learning_rate": 0.00017819515447877306,
      "loss": 2.182,
      "step": 4915
    },
    {
      "epoch": 0.10924444444444445,
      "grad_norm": 1.1855359077453613,
      "learning_rate": 0.0001781907090464548,
      "loss": 2.0495,
      "step": 4916
    },
    {
      "epoch": 0.10926666666666666,
      "grad_norm": 1.5238451957702637,
      "learning_rate": 0.00017818626361413648,
      "loss": 2.3102,
      "step": 4917
    },
    {
      "epoch": 0.1092888888888889,
      "grad_norm": 1.4892759323120117,
      "learning_rate": 0.0001781818181818182,
      "loss": 2.2334,
      "step": 4918
    },
    {
      "epoch": 0.10931111111111111,
      "grad_norm": 1.322411298751831,
      "learning_rate": 0.0001781773727494999,
      "loss": 1.8538,
      "step": 4919
    },
    {
      "epoch": 0.10933333333333334,
      "grad_norm": 1.4651658535003662,
      "learning_rate": 0.0001781729273171816,
      "loss": 2.2097,
      "step": 4920
    },
    {
      "epoch": 0.10935555555555555,
      "grad_norm": 1.3706555366516113,
      "learning_rate": 0.0001781684818848633,
      "loss": 2.2071,
      "step": 4921
    },
    {
      "epoch": 0.10937777777777778,
      "grad_norm": 1.6024689674377441,
      "learning_rate": 0.00017816403645254503,
      "loss": 2.5414,
      "step": 4922
    },
    {
      "epoch": 0.1094,
      "grad_norm": 1.3139142990112305,
      "learning_rate": 0.00017815959102022674,
      "loss": 1.8648,
      "step": 4923
    },
    {
      "epoch": 0.10942222222222223,
      "grad_norm": 1.3900974988937378,
      "learning_rate": 0.00017815514558790842,
      "loss": 2.267,
      "step": 4924
    },
    {
      "epoch": 0.10944444444444444,
      "grad_norm": 1.4711378812789917,
      "learning_rate": 0.00017815070015559016,
      "loss": 2.6183,
      "step": 4925
    },
    {
      "epoch": 0.10946666666666667,
      "grad_norm": 1.3628692626953125,
      "learning_rate": 0.00017814625472327184,
      "loss": 2.119,
      "step": 4926
    },
    {
      "epoch": 0.10948888888888889,
      "grad_norm": 1.5487639904022217,
      "learning_rate": 0.00017814180929095355,
      "loss": 1.9755,
      "step": 4927
    },
    {
      "epoch": 0.10951111111111111,
      "grad_norm": 1.4975794553756714,
      "learning_rate": 0.00017813736385863526,
      "loss": 1.8296,
      "step": 4928
    },
    {
      "epoch": 0.10953333333333333,
      "grad_norm": 1.407785177230835,
      "learning_rate": 0.00017813291842631697,
      "loss": 1.9145,
      "step": 4929
    },
    {
      "epoch": 0.10955555555555556,
      "grad_norm": 1.6278789043426514,
      "learning_rate": 0.00017812847299399868,
      "loss": 2.4235,
      "step": 4930
    },
    {
      "epoch": 0.10957777777777777,
      "grad_norm": 0.8241516351699829,
      "learning_rate": 0.00017812402756168039,
      "loss": 0.8306,
      "step": 4931
    },
    {
      "epoch": 0.1096,
      "grad_norm": 0.8477980494499207,
      "learning_rate": 0.0001781195821293621,
      "loss": 1.043,
      "step": 4932
    },
    {
      "epoch": 0.10962222222222222,
      "grad_norm": 1.435505986213684,
      "learning_rate": 0.0001781151366970438,
      "loss": 1.9168,
      "step": 4933
    },
    {
      "epoch": 0.10964444444444445,
      "grad_norm": 1.3857914209365845,
      "learning_rate": 0.00017811069126472552,
      "loss": 1.8039,
      "step": 4934
    },
    {
      "epoch": 0.10966666666666666,
      "grad_norm": 1.3236032724380493,
      "learning_rate": 0.0001781062458324072,
      "loss": 1.911,
      "step": 4935
    },
    {
      "epoch": 0.10968888888888889,
      "grad_norm": 1.2719550132751465,
      "learning_rate": 0.00017810180040008893,
      "loss": 1.9364,
      "step": 4936
    },
    {
      "epoch": 0.1097111111111111,
      "grad_norm": 1.5228955745697021,
      "learning_rate": 0.00017809735496777062,
      "loss": 2.2249,
      "step": 4937
    },
    {
      "epoch": 0.10973333333333334,
      "grad_norm": 1.7752206325531006,
      "learning_rate": 0.00017809290953545233,
      "loss": 2.1801,
      "step": 4938
    },
    {
      "epoch": 0.10975555555555555,
      "grad_norm": 1.5022207498550415,
      "learning_rate": 0.00017808846410313404,
      "loss": 2.0358,
      "step": 4939
    },
    {
      "epoch": 0.10977777777777778,
      "grad_norm": 1.2860084772109985,
      "learning_rate": 0.00017808401867081575,
      "loss": 2.0872,
      "step": 4940
    },
    {
      "epoch": 0.1098,
      "grad_norm": 1.8445580005645752,
      "learning_rate": 0.00017807957323849746,
      "loss": 2.161,
      "step": 4941
    },
    {
      "epoch": 0.10982222222222222,
      "grad_norm": 1.8703105449676514,
      "learning_rate": 0.00017807512780617917,
      "loss": 2.2376,
      "step": 4942
    },
    {
      "epoch": 0.10984444444444444,
      "grad_norm": 1.394773244857788,
      "learning_rate": 0.00017807068237386087,
      "loss": 1.8604,
      "step": 4943
    },
    {
      "epoch": 0.10986666666666667,
      "grad_norm": 1.3939281702041626,
      "learning_rate": 0.00017806623694154256,
      "loss": 1.9885,
      "step": 4944
    },
    {
      "epoch": 0.10988888888888888,
      "grad_norm": 1.4619903564453125,
      "learning_rate": 0.0001780617915092243,
      "loss": 2.0994,
      "step": 4945
    },
    {
      "epoch": 0.10991111111111111,
      "grad_norm": 1.3319731950759888,
      "learning_rate": 0.00017805734607690598,
      "loss": 1.8153,
      "step": 4946
    },
    {
      "epoch": 0.10993333333333333,
      "grad_norm": 1.2182470560073853,
      "learning_rate": 0.0001780529006445877,
      "loss": 1.5511,
      "step": 4947
    },
    {
      "epoch": 0.10995555555555556,
      "grad_norm": 1.3883278369903564,
      "learning_rate": 0.0001780484552122694,
      "loss": 1.6702,
      "step": 4948
    },
    {
      "epoch": 0.10997777777777777,
      "grad_norm": 1.6375178098678589,
      "learning_rate": 0.0001780440097799511,
      "loss": 1.9152,
      "step": 4949
    },
    {
      "epoch": 0.11,
      "grad_norm": 1.1389442682266235,
      "learning_rate": 0.00017803956434763281,
      "loss": 0.9172,
      "step": 4950
    },
    {
      "epoch": 0.11002222222222222,
      "grad_norm": 0.12997838854789734,
      "learning_rate": 0.00017803511891531452,
      "loss": 0.0177,
      "step": 4951
    },
    {
      "epoch": 0.11004444444444444,
      "grad_norm": 1.1792343854904175,
      "learning_rate": 0.00017803067348299623,
      "loss": 2.3594,
      "step": 4952
    },
    {
      "epoch": 0.11006666666666666,
      "grad_norm": 1.1777515411376953,
      "learning_rate": 0.00017802622805067794,
      "loss": 2.3509,
      "step": 4953
    },
    {
      "epoch": 0.11008888888888889,
      "grad_norm": 1.1146148443222046,
      "learning_rate": 0.00017802178261835965,
      "loss": 2.4819,
      "step": 4954
    },
    {
      "epoch": 0.11011111111111112,
      "grad_norm": 1.207305908203125,
      "learning_rate": 0.00017801733718604134,
      "loss": 2.2144,
      "step": 4955
    },
    {
      "epoch": 0.11013333333333333,
      "grad_norm": 1.1073167324066162,
      "learning_rate": 0.00017801289175372307,
      "loss": 2.1333,
      "step": 4956
    },
    {
      "epoch": 0.11015555555555556,
      "grad_norm": 1.449088454246521,
      "learning_rate": 0.00017800844632140476,
      "loss": 1.8638,
      "step": 4957
    },
    {
      "epoch": 0.11017777777777778,
      "grad_norm": 1.4596796035766602,
      "learning_rate": 0.00017800400088908646,
      "loss": 1.7366,
      "step": 4958
    },
    {
      "epoch": 0.1102,
      "grad_norm": 0.9645782709121704,
      "learning_rate": 0.00017799955545676817,
      "loss": 0.7482,
      "step": 4959
    },
    {
      "epoch": 0.11022222222222222,
      "grad_norm": 1.3452082872390747,
      "learning_rate": 0.00017799511002444988,
      "loss": 2.503,
      "step": 4960
    },
    {
      "epoch": 0.11024444444444445,
      "grad_norm": 1.2432230710983276,
      "learning_rate": 0.0001779906645921316,
      "loss": 2.2808,
      "step": 4961
    },
    {
      "epoch": 0.11026666666666667,
      "grad_norm": 1.3141149282455444,
      "learning_rate": 0.0001779862191598133,
      "loss": 1.7479,
      "step": 4962
    },
    {
      "epoch": 0.1102888888888889,
      "grad_norm": 1.176876425743103,
      "learning_rate": 0.000177981773727495,
      "loss": 2.1083,
      "step": 4963
    },
    {
      "epoch": 0.11031111111111111,
      "grad_norm": 1.2352588176727295,
      "learning_rate": 0.0001779773282951767,
      "loss": 1.6807,
      "step": 4964
    },
    {
      "epoch": 0.11033333333333334,
      "grad_norm": 1.4506590366363525,
      "learning_rate": 0.00017797288286285843,
      "loss": 2.1653,
      "step": 4965
    },
    {
      "epoch": 0.11035555555555555,
      "grad_norm": 1.2555843591690063,
      "learning_rate": 0.00017796843743054011,
      "loss": 1.7592,
      "step": 4966
    },
    {
      "epoch": 0.11037777777777778,
      "grad_norm": 1.2213855981826782,
      "learning_rate": 0.00017796399199822185,
      "loss": 2.0853,
      "step": 4967
    },
    {
      "epoch": 0.1104,
      "grad_norm": 1.7171430587768555,
      "learning_rate": 0.00017795954656590353,
      "loss": 2.107,
      "step": 4968
    },
    {
      "epoch": 0.11042222222222223,
      "grad_norm": 1.5660433769226074,
      "learning_rate": 0.00017795510113358524,
      "loss": 1.9708,
      "step": 4969
    },
    {
      "epoch": 0.11044444444444444,
      "grad_norm": 1.2019463777542114,
      "learning_rate": 0.00017795065570126695,
      "loss": 2.2367,
      "step": 4970
    },
    {
      "epoch": 0.11046666666666667,
      "grad_norm": 1.367891550064087,
      "learning_rate": 0.00017794621026894866,
      "loss": 1.7857,
      "step": 4971
    },
    {
      "epoch": 0.11048888888888889,
      "grad_norm": 1.2923423051834106,
      "learning_rate": 0.00017794176483663037,
      "loss": 1.9825,
      "step": 4972
    },
    {
      "epoch": 0.11051111111111112,
      "grad_norm": 1.4158298969268799,
      "learning_rate": 0.00017793731940431208,
      "loss": 2.176,
      "step": 4973
    },
    {
      "epoch": 0.11053333333333333,
      "grad_norm": 1.428587555885315,
      "learning_rate": 0.0001779328739719938,
      "loss": 2.1497,
      "step": 4974
    },
    {
      "epoch": 0.11055555555555556,
      "grad_norm": 1.3398618698120117,
      "learning_rate": 0.00017792842853967547,
      "loss": 2.0232,
      "step": 4975
    },
    {
      "epoch": 0.11057777777777777,
      "grad_norm": 1.2881113290786743,
      "learning_rate": 0.0001779239831073572,
      "loss": 2.2488,
      "step": 4976
    },
    {
      "epoch": 0.1106,
      "grad_norm": 1.1857106685638428,
      "learning_rate": 0.0001779195376750389,
      "loss": 1.4271,
      "step": 4977
    },
    {
      "epoch": 0.11062222222222222,
      "grad_norm": 1.5726913213729858,
      "learning_rate": 0.0001779150922427206,
      "loss": 1.9038,
      "step": 4978
    },
    {
      "epoch": 0.11064444444444445,
      "grad_norm": 1.5969356298446655,
      "learning_rate": 0.00017791064681040234,
      "loss": 1.9209,
      "step": 4979
    },
    {
      "epoch": 0.11066666666666666,
      "grad_norm": 1.407378077507019,
      "learning_rate": 0.00017790620137808402,
      "loss": 1.408,
      "step": 4980
    },
    {
      "epoch": 0.11068888888888889,
      "grad_norm": 1.4328492879867554,
      "learning_rate": 0.00017790175594576573,
      "loss": 2.2418,
      "step": 4981
    },
    {
      "epoch": 0.11071111111111111,
      "grad_norm": 1.4168318510055542,
      "learning_rate": 0.00017789731051344744,
      "loss": 1.9438,
      "step": 4982
    },
    {
      "epoch": 0.11073333333333334,
      "grad_norm": 1.2629501819610596,
      "learning_rate": 0.00017789286508112915,
      "loss": 1.973,
      "step": 4983
    },
    {
      "epoch": 0.11075555555555555,
      "grad_norm": 1.528676152229309,
      "learning_rate": 0.00017788841964881083,
      "loss": 1.9864,
      "step": 4984
    },
    {
      "epoch": 0.11077777777777778,
      "grad_norm": 1.5707221031188965,
      "learning_rate": 0.00017788397421649257,
      "loss": 2.4735,
      "step": 4985
    },
    {
      "epoch": 0.1108,
      "grad_norm": 1.2189866304397583,
      "learning_rate": 0.00017787952878417425,
      "loss": 1.4992,
      "step": 4986
    },
    {
      "epoch": 0.11082222222222222,
      "grad_norm": 1.1503536701202393,
      "learning_rate": 0.000177875083351856,
      "loss": 1.4935,
      "step": 4987
    },
    {
      "epoch": 0.11084444444444444,
      "grad_norm": 1.5683157444000244,
      "learning_rate": 0.0001778706379195377,
      "loss": 1.7106,
      "step": 4988
    },
    {
      "epoch": 0.11086666666666667,
      "grad_norm": 1.5320016145706177,
      "learning_rate": 0.00017786619248721938,
      "loss": 1.669,
      "step": 4989
    },
    {
      "epoch": 0.11088888888888888,
      "grad_norm": 1.1583964824676514,
      "learning_rate": 0.00017786174705490112,
      "loss": 0.9219,
      "step": 4990
    },
    {
      "epoch": 0.11091111111111111,
      "grad_norm": 1.0285687446594238,
      "learning_rate": 0.0001778573016225828,
      "loss": 0.9763,
      "step": 4991
    },
    {
      "epoch": 0.11093333333333333,
      "grad_norm": 1.4588276147842407,
      "learning_rate": 0.0001778528561902645,
      "loss": 1.9239,
      "step": 4992
    },
    {
      "epoch": 0.11095555555555556,
      "grad_norm": 1.398634433746338,
      "learning_rate": 0.00017784841075794622,
      "loss": 1.6122,
      "step": 4993
    },
    {
      "epoch": 0.11097777777777777,
      "grad_norm": 1.389514684677124,
      "learning_rate": 0.00017784396532562793,
      "loss": 1.7873,
      "step": 4994
    },
    {
      "epoch": 0.111,
      "grad_norm": 1.3286993503570557,
      "learning_rate": 0.0001778395198933096,
      "loss": 1.5322,
      "step": 4995
    },
    {
      "epoch": 0.11102222222222222,
      "grad_norm": 1.3495367765426636,
      "learning_rate": 0.00017783507446099135,
      "loss": 1.7065,
      "step": 4996
    },
    {
      "epoch": 0.11104444444444445,
      "grad_norm": 1.3817431926727295,
      "learning_rate": 0.00017783062902867306,
      "loss": 1.8559,
      "step": 4997
    },
    {
      "epoch": 0.11106666666666666,
      "grad_norm": 1.6605621576309204,
      "learning_rate": 0.00017782618359635474,
      "loss": 2.1082,
      "step": 4998
    },
    {
      "epoch": 0.11108888888888889,
      "grad_norm": 1.6809682846069336,
      "learning_rate": 0.00017782173816403648,
      "loss": 1.3724,
      "step": 4999
    },
    {
      "epoch": 0.1111111111111111,
      "grad_norm": 2.218095541000366,
      "learning_rate": 0.00017781729273171816,
      "loss": 1.8033,
      "step": 5000
    }
  ],
  "logging_steps": 1,
  "max_steps": 45000,
  "num_input_tokens_seen": 0,
  "num_train_epochs": 1,
  "save_steps": 5000,
  "stateful_callbacks": {
    "TrainerControl": {
      "args": {
        "should_epoch_stop": false,
        "should_evaluate": false,
        "should_log": false,
        "should_save": true,
        "should_training_stop": false
      },
      "attributes": {}
    }
  },
  "total_flos": 4.949362506397286e+16,
  "train_batch_size": 1,
  "trial_name": null,
  "trial_params": null
}