End of training

57177f9 verified about 2 months ago

No virus

68.9 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.9992793658419409,
	"eval_steps": 500,
	"global_step": 780,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.0025622547842101048,
	"grad_norm": 4.871487140655518,
	"learning_rate": 5.128205128205128e-07,
	"loss": 0.7593,
	"step": 2
	},
	{
	"epoch": 0.0051245095684202095,
	"grad_norm": 4.878956317901611,
	"learning_rate": 1.0256410256410257e-06,
	"loss": 0.8076,
	"step": 4
	},
	{
	"epoch": 0.007686764352630314,
	"grad_norm": 4.183067321777344,
	"learning_rate": 1.5384615384615387e-06,
	"loss": 0.7059,
	"step": 6
	},
	{
	"epoch": 0.010249019136840419,
	"grad_norm": 4.679640769958496,
	"learning_rate": 2.0512820512820513e-06,
	"loss": 0.715,
	"step": 8
	},
	{
	"epoch": 0.012811273921050524,
	"grad_norm": 4.590462684631348,
	"learning_rate": 2.564102564102564e-06,
	"loss": 0.7175,
	"step": 10
	},
	{
	"epoch": 0.015373528705260629,
	"grad_norm": 4.5435638427734375,
	"learning_rate": 3.0769230769230774e-06,
	"loss": 0.6976,
	"step": 12
	},
	{
	"epoch": 0.017935783489470735,
	"grad_norm": 4.649476051330566,
	"learning_rate": 3.58974358974359e-06,
	"loss": 0.7615,
	"step": 14
	},
	{
	"epoch": 0.020498038273680838,
	"grad_norm": 3.847956418991089,
	"learning_rate": 4.102564102564103e-06,
	"loss": 0.6735,
	"step": 16
	},
	{
	"epoch": 0.023060293057890945,
	"grad_norm": 4.92044734954834,
	"learning_rate": 4.615384615384616e-06,
	"loss": 0.6885,
	"step": 18
	},
	{
	"epoch": 0.025622547842101048,
	"grad_norm": 4.817592620849609,
	"learning_rate": 5.128205128205128e-06,
	"loss": 0.768,
	"step": 20
	},
	{
	"epoch": 0.028184802626311154,
	"grad_norm": 3.8268470764160156,
	"learning_rate": 5.641025641025641e-06,
	"loss": 0.7092,
	"step": 22
	},
	{
	"epoch": 0.030747057410521257,
	"grad_norm": 4.103015899658203,
	"learning_rate": 6.153846153846155e-06,
	"loss": 0.6764,
	"step": 24
	},
	{
	"epoch": 0.033309312194731364,
	"grad_norm": 4.125541687011719,
	"learning_rate": 6.666666666666667e-06,
	"loss": 0.6386,
	"step": 26
	},
	{
	"epoch": 0.03587156697894147,
	"grad_norm": 4.19417142868042,
	"learning_rate": 7.17948717948718e-06,
	"loss": 0.6218,
	"step": 28
	},
	{
	"epoch": 0.03843382176315158,
	"grad_norm": 3.5323216915130615,
	"learning_rate": 7.692307692307694e-06,
	"loss": 0.5853,
	"step": 30
	},
	{
	"epoch": 0.040996076547361676,
	"grad_norm": 3.1467161178588867,
	"learning_rate": 8.205128205128205e-06,
	"loss": 0.5441,
	"step": 32
	},
	{
	"epoch": 0.04355833133157178,
	"grad_norm": 3.0700371265411377,
	"learning_rate": 8.717948717948719e-06,
	"loss": 0.5458,
	"step": 34
	},
	{
	"epoch": 0.04612058611578189,
	"grad_norm": 2.553177833557129,
	"learning_rate": 9.230769230769232e-06,
	"loss": 0.4589,
	"step": 36
	},
	{
	"epoch": 0.048682840899991996,
	"grad_norm": 2.5199780464172363,
	"learning_rate": 9.743589743589744e-06,
	"loss": 0.4386,
	"step": 38
	},
	{
	"epoch": 0.051245095684202095,
	"grad_norm": 1.7382951974868774,
	"learning_rate": 9.99995506314361e-06,
	"loss": 0.4215,
	"step": 40
	},
	{
	"epoch": 0.0538073504684122,
	"grad_norm": 0.9749733209609985,
	"learning_rate": 9.999595573138845e-06,
	"loss": 0.3888,
	"step": 42
	},
	{
	"epoch": 0.05636960525262231,
	"grad_norm": 0.9746177196502686,
	"learning_rate": 9.99887661897616e-06,
	"loss": 0.3749,
	"step": 44
	},
	{
	"epoch": 0.058931860036832415,
	"grad_norm": 0.7504925727844238,
	"learning_rate": 9.997798252347382e-06,
	"loss": 0.3543,
	"step": 46
	},
	{
	"epoch": 0.061494114821042514,
	"grad_norm": 0.7129773497581482,
	"learning_rate": 9.996360550785619e-06,
	"loss": 0.3565,
	"step": 48
	},
	{
	"epoch": 0.06405636960525263,
	"grad_norm": 0.6482123732566833,
	"learning_rate": 9.994563617659665e-06,
	"loss": 0.3242,
	"step": 50
	},
	{
	"epoch": 0.06661862438946273,
	"grad_norm": 0.5225902199745178,
	"learning_rate": 9.992407582166582e-06,
	"loss": 0.3334,
	"step": 52
	},
	{
	"epoch": 0.06918087917367283,
	"grad_norm": 0.5128389596939087,
	"learning_rate": 9.989892599322404e-06,
	"loss": 0.3741,
	"step": 54
	},
	{
	"epoch": 0.07174313395788294,
	"grad_norm": 0.3568147122859955,
	"learning_rate": 9.987018849950996e-06,
	"loss": 0.3331,
	"step": 56
	},
	{
	"epoch": 0.07430538874209304,
	"grad_norm": 0.5258967280387878,
	"learning_rate": 9.983786540671052e-06,
	"loss": 0.3335,
	"step": 58
	},
	{
	"epoch": 0.07686764352630315,
	"grad_norm": 0.5380641222000122,
	"learning_rate": 9.980195903881231e-06,
	"loss": 0.3344,
	"step": 60
	},
	{
	"epoch": 0.07942989831051325,
	"grad_norm": 0.3320980668067932,
	"learning_rate": 9.976247197743465e-06,
	"loss": 0.3055,
	"step": 62
	},
	{
	"epoch": 0.08199215309472335,
	"grad_norm": 0.3006751835346222,
	"learning_rate": 9.97194070616438e-06,
	"loss": 0.3187,
	"step": 64
	},
	{
	"epoch": 0.08455440787893347,
	"grad_norm": 0.26902303099632263,
	"learning_rate": 9.967276738774897e-06,
	"loss": 0.2998,
	"step": 66
	},
	{
	"epoch": 0.08711666266314357,
	"grad_norm": 0.2527882158756256,
	"learning_rate": 9.962255630907964e-06,
	"loss": 0.3251,
	"step": 68
	},
	{
	"epoch": 0.08967891744735366,
	"grad_norm": 0.24817310273647308,
	"learning_rate": 9.956877743574437e-06,
	"loss": 0.317,
	"step": 70
	},
	{
	"epoch": 0.09224117223156378,
	"grad_norm": 0.25589698553085327,
	"learning_rate": 9.951143463437145e-06,
	"loss": 0.31,
	"step": 72
	},
	{
	"epoch": 0.09480342701577388,
	"grad_norm": 0.23160037398338318,
	"learning_rate": 9.94505320278307e-06,
	"loss": 0.3158,
	"step": 74
	},
	{
	"epoch": 0.09736568179998399,
	"grad_norm": 0.26378345489501953,
	"learning_rate": 9.938607399493714e-06,
	"loss": 0.3163,
	"step": 76
	},
	{
	"epoch": 0.09992793658419409,
	"grad_norm": 0.21700599789619446,
	"learning_rate": 9.931806517013612e-06,
	"loss": 0.3132,
	"step": 78
	},
	{
	"epoch": 0.10249019136840419,
	"grad_norm": 0.29619359970092773,
	"learning_rate": 9.924651044317017e-06,
	"loss": 0.315,
	"step": 80
	},
	{
	"epoch": 0.1050524461526143,
	"grad_norm": 0.33124956488609314,
	"learning_rate": 9.917141495872733e-06,
	"loss": 0.2851,
	"step": 82
	},
	{
	"epoch": 0.1076147009368244,
	"grad_norm": 0.202985018491745,
	"learning_rate": 9.909278411607134e-06,
	"loss": 0.3036,
	"step": 84
	},
	{
	"epoch": 0.11017695572103452,
	"grad_norm": 0.24660180509090424,
	"learning_rate": 9.90106235686534e-06,
	"loss": 0.3374,
	"step": 86
	},
	{
	"epoch": 0.11273921050524462,
	"grad_norm": 0.2552855312824249,
	"learning_rate": 9.892493922370575e-06,
	"loss": 0.316,
	"step": 88
	},
	{
	"epoch": 0.11530146528945472,
	"grad_norm": 0.29509437084198,
	"learning_rate": 9.883573724181683e-06,
	"loss": 0.3284,
	"step": 90
	},
	{
	"epoch": 0.11786372007366483,
	"grad_norm": 0.4660441279411316,
	"learning_rate": 9.87430240364885e-06,
	"loss": 0.3266,
	"step": 92
	},
	{
	"epoch": 0.12042597485787493,
	"grad_norm": 0.31215617060661316,
	"learning_rate": 9.864680627367476e-06,
	"loss": 0.3104,
	"step": 94
	},
	{
	"epoch": 0.12298822964208503,
	"grad_norm": 0.6009628176689148,
	"learning_rate": 9.854709087130261e-06,
	"loss": 0.3221,
	"step": 96
	},
	{
	"epoch": 0.12555048442629513,
	"grad_norm": 0.30782508850097656,
	"learning_rate": 9.844388499877457e-06,
	"loss": 0.2913,
	"step": 98
	},
	{
	"epoch": 0.12811273921050526,
	"grad_norm": 0.3109281659126282,
	"learning_rate": 9.833719607645325e-06,
	"loss": 0.2974,
	"step": 100
	},
	{
	"epoch": 0.13067499399471535,
	"grad_norm": 0.2832891345024109,
	"learning_rate": 9.822703177512783e-06,
	"loss": 0.3698,
	"step": 102
	},
	{
	"epoch": 0.13323724877892545,
	"grad_norm": 0.2483058124780655,
	"learning_rate": 9.811340001546252e-06,
	"loss": 0.2995,
	"step": 104
	},
	{
	"epoch": 0.13579950356313555,
	"grad_norm": 0.2657499611377716,
	"learning_rate": 9.799630896742716e-06,
	"loss": 0.304,
	"step": 106
	},
	{
	"epoch": 0.13836175834734565,
	"grad_norm": 0.4393406808376312,
	"learning_rate": 9.787576704970965e-06,
	"loss": 0.3032,
	"step": 108
	},
	{
	"epoch": 0.14092401313155578,
	"grad_norm": 0.3503418266773224,
	"learning_rate": 9.77517829291108e-06,
	"loss": 0.2915,
	"step": 110
	},
	{
	"epoch": 0.14348626791576588,
	"grad_norm": 0.28331002593040466,
	"learning_rate": 9.762436551992117e-06,
	"loss": 0.3192,
	"step": 112
	},
	{
	"epoch": 0.14604852269997598,
	"grad_norm": 0.28841540217399597,
	"learning_rate": 9.74935239832801e-06,
	"loss": 0.2999,
	"step": 114
	},
	{
	"epoch": 0.14861077748418608,
	"grad_norm": 0.3377619683742523,
	"learning_rate": 9.735926772651703e-06,
	"loss": 0.31,
	"step": 116
	},
	{
	"epoch": 0.15117303226839618,
	"grad_norm": 0.358359158039093,
	"learning_rate": 9.722160640247523e-06,
	"loss": 0.292,
	"step": 118
	},
	{
	"epoch": 0.1537352870526063,
	"grad_norm": 0.24913446605205536,
	"learning_rate": 9.708054990881763e-06,
	"loss": 0.3077,
	"step": 120
	},
	{
	"epoch": 0.1562975418368164,
	"grad_norm": 0.34343913197517395,
	"learning_rate": 9.693610838731532e-06,
	"loss": 0.3132,
	"step": 122
	},
	{
	"epoch": 0.1588597966210265,
	"grad_norm": 0.2604675590991974,
	"learning_rate": 9.678829222311827e-06,
	"loss": 0.3139,
	"step": 124
	},
	{
	"epoch": 0.1614220514052366,
	"grad_norm": 0.30086928606033325,
	"learning_rate": 9.663711204400872e-06,
	"loss": 0.2992,
	"step": 126
	},
	{
	"epoch": 0.1639843061894467,
	"grad_norm": 0.3241061270236969,
	"learning_rate": 9.6482578719637e-06,
	"loss": 0.3066,
	"step": 128
	},
	{
	"epoch": 0.1665465609736568,
	"grad_norm": 0.26830941438674927,
	"learning_rate": 9.632470336074009e-06,
	"loss": 0.3121,
	"step": 130
	},
	{
	"epoch": 0.16910881575786693,
	"grad_norm": 0.203893780708313,
	"learning_rate": 9.616349731834271e-06,
	"loss": 0.2991,
	"step": 132
	},
	{
	"epoch": 0.17167107054207703,
	"grad_norm": 0.3675401210784912,
	"learning_rate": 9.599897218294122e-06,
	"loss": 0.3227,
	"step": 134
	},
	{
	"epoch": 0.17423332532628713,
	"grad_norm": 0.21370336413383484,
	"learning_rate": 9.583113978367026e-06,
	"loss": 0.3025,
	"step": 136
	},
	{
	"epoch": 0.17679558011049723,
	"grad_norm": 0.25403013825416565,
	"learning_rate": 9.56600121874523e-06,
	"loss": 0.3179,
	"step": 138
	},
	{
	"epoch": 0.17935783489470733,
	"grad_norm": 0.3012063503265381,
	"learning_rate": 9.548560169812997e-06,
	"loss": 0.2906,
	"step": 140
	},
	{
	"epoch": 0.18192008967891746,
	"grad_norm": 0.24593935906887054,
	"learning_rate": 9.530792085558151e-06,
	"loss": 0.2968,
	"step": 142
	},
	{
	"epoch": 0.18448234446312756,
	"grad_norm": 0.267528235912323,
	"learning_rate": 9.512698243481914e-06,
	"loss": 0.3076,
	"step": 144
	},
	{
	"epoch": 0.18704459924733766,
	"grad_norm": 0.4075755774974823,
	"learning_rate": 9.49427994450705e-06,
	"loss": 0.292,
	"step": 146
	},
	{
	"epoch": 0.18960685403154776,
	"grad_norm": 0.37276849150657654,
	"learning_rate": 9.47553851288434e-06,
	"loss": 0.3337,
	"step": 148
	},
	{
	"epoch": 0.19216910881575786,
	"grad_norm": 0.34166908264160156,
	"learning_rate": 9.45647529609736e-06,
	"loss": 0.2854,
	"step": 150
	},
	{
	"epoch": 0.19473136359996798,
	"grad_norm": 0.3679031431674957,
	"learning_rate": 9.437091664765611e-06,
	"loss": 0.328,
	"step": 152
	},
	{
	"epoch": 0.19729361838417808,
	"grad_norm": 0.2564798891544342,
	"learning_rate": 9.41738901254596e-06,
	"loss": 0.2831,
	"step": 154
	},
	{
	"epoch": 0.19985587316838818,
	"grad_norm": 0.39898496866226196,
	"learning_rate": 9.397368756032445e-06,
	"loss": 0.2899,
	"step": 156
	},
	{
	"epoch": 0.20241812795259828,
	"grad_norm": 0.2926347255706787,
	"learning_rate": 9.37703233465443e-06,
	"loss": 0.2796,
	"step": 158
	},
	{
	"epoch": 0.20498038273680838,
	"grad_norm": 0.3333691656589508,
	"learning_rate": 9.356381210573092e-06,
	"loss": 0.2965,
	"step": 160
	},
	{
	"epoch": 0.2075426375210185,
	"grad_norm": 0.2890892028808594,
	"learning_rate": 9.33541686857632e-06,
	"loss": 0.2884,
	"step": 162
	},
	{
	"epoch": 0.2101048923052286,
	"grad_norm": 0.27766191959381104,
	"learning_rate": 9.31414081597194e-06,
	"loss": 0.297,
	"step": 164
	},
	{
	"epoch": 0.2126671470894387,
	"grad_norm": 0.3218678832054138,
	"learning_rate": 9.292554582479349e-06,
	"loss": 0.2862,
	"step": 166
	},
	{
	"epoch": 0.2152294018736488,
	"grad_norm": 0.3139230012893677,
	"learning_rate": 9.270659720119533e-06,
	"loss": 0.2958,
	"step": 168
	},
	{
	"epoch": 0.2177916566578589,
	"grad_norm": 0.2383907586336136,
	"learning_rate": 9.248457803103476e-06,
	"loss": 0.2988,
	"step": 170
	},
	{
	"epoch": 0.22035391144206903,
	"grad_norm": 0.32504117488861084,
	"learning_rate": 9.225950427718974e-06,
	"loss": 0.2803,
	"step": 172
	},
	{
	"epoch": 0.22291616622627913,
	"grad_norm": 0.2564990818500519,
	"learning_rate": 9.203139212215868e-06,
	"loss": 0.2957,
	"step": 174
	},
	{
	"epoch": 0.22547842101048923,
	"grad_norm": 0.282103568315506,
	"learning_rate": 9.180025796689692e-06,
	"loss": 0.2933,
	"step": 176
	},
	{
	"epoch": 0.22804067579469933,
	"grad_norm": 0.3701488971710205,
	"learning_rate": 9.156611842963753e-06,
	"loss": 0.2926,
	"step": 178
	},
	{
	"epoch": 0.23060293057890943,
	"grad_norm": 0.3153334856033325,
	"learning_rate": 9.132899034469648e-06,
	"loss": 0.3111,
	"step": 180
	},
	{
	"epoch": 0.23316518536311953,
	"grad_norm": 0.31320127844810486,
	"learning_rate": 9.108889076126226e-06,
	"loss": 0.2948,
	"step": 182
	},
	{
	"epoch": 0.23572744014732966,
	"grad_norm": 0.3407798409461975,
	"learning_rate": 9.084583694217012e-06,
	"loss": 0.2872,
	"step": 184
	},
	{
	"epoch": 0.23828969493153976,
	"grad_norm": 0.5061964988708496,
	"learning_rate": 9.059984636266082e-06,
	"loss": 0.3073,
	"step": 186
	},
	{
	"epoch": 0.24085194971574986,
	"grad_norm": 0.342929482460022,
	"learning_rate": 9.035093670912424e-06,
	"loss": 0.2866,
	"step": 188
	},
	{
	"epoch": 0.24341420449995996,
	"grad_norm": 0.38549765944480896,
	"learning_rate": 9.009912587782772e-06,
	"loss": 0.298,
	"step": 190
	},
	{
	"epoch": 0.24597645928417006,
	"grad_norm": 0.339372843503952,
	"learning_rate": 8.984443197362938e-06,
	"loss": 0.2644,
	"step": 192
	},
	{
	"epoch": 0.24853871406838018,
	"grad_norm": 0.26157572865486145,
	"learning_rate": 8.958687330867634e-06,
	"loss": 0.2986,
	"step": 194
	},
	{
	"epoch": 0.25110096885259026,
	"grad_norm": 0.307921826839447,
	"learning_rate": 8.932646840108818e-06,
	"loss": 0.2826,
	"step": 196
	},
	{
	"epoch": 0.2536632236368004,
	"grad_norm": 0.48844948410987854,
	"learning_rate": 8.906323597362547e-06,
	"loss": 0.2824,
	"step": 198
	},
	{
	"epoch": 0.2562254784210105,
	"grad_norm": 0.3046979308128357,
	"learning_rate": 8.879719495234363e-06,
	"loss": 0.2836,
	"step": 200
	},
	{
	"epoch": 0.2587877332052206,
	"grad_norm": 0.37873372435569763,
	"learning_rate": 8.852836446523213e-06,
	"loss": 0.2799,
	"step": 202
	},
	{
	"epoch": 0.2613499879894307,
	"grad_norm": 0.5752015709877014,
	"learning_rate": 8.825676384083936e-06,
	"loss": 0.3027,
	"step": 204
	},
	{
	"epoch": 0.2639122427736408,
	"grad_norm": 0.403952956199646,
	"learning_rate": 8.798241260688273e-06,
	"loss": 0.3032,
	"step": 206
	},
	{
	"epoch": 0.2664744975578509,
	"grad_norm": 0.36202457547187805,
	"learning_rate": 8.770533048884483e-06,
	"loss": 0.3044,
	"step": 208
	},
	{
	"epoch": 0.26903675234206104,
	"grad_norm": 0.34956708550453186,
	"learning_rate": 8.742553740855507e-06,
	"loss": 0.2784,
	"step": 210
	},
	{
	"epoch": 0.2715990071262711,
	"grad_norm": 0.44058695435523987,
	"learning_rate": 8.71430534827574e-06,
	"loss": 0.3142,
	"step": 212
	},
	{
	"epoch": 0.27416126191048124,
	"grad_norm": 0.3903171420097351,
	"learning_rate": 8.685789902166395e-06,
	"loss": 0.2592,
	"step": 214
	},
	{
	"epoch": 0.2767235166946913,
	"grad_norm": 0.34790173172950745,
	"learning_rate": 8.657009452749466e-06,
	"loss": 0.2881,
	"step": 216
	},
	{
	"epoch": 0.27928577147890143,
	"grad_norm": 0.3779347240924835,
	"learning_rate": 8.627966069300332e-06,
	"loss": 0.3017,
	"step": 218
	},
	{
	"epoch": 0.28184802626311156,
	"grad_norm": 0.40141528844833374,
	"learning_rate": 8.598661839998972e-06,
	"loss": 0.2781,
	"step": 220
	},
	{
	"epoch": 0.28441028104732163,
	"grad_norm": 0.30786147713661194,
	"learning_rate": 8.569098871779828e-06,
	"loss": 0.296,
	"step": 222
	},
	{
	"epoch": 0.28697253583153176,
	"grad_norm": 0.2742227017879486,
	"learning_rate": 8.539279290180315e-06,
	"loss": 0.3161,
	"step": 224
	},
	{
	"epoch": 0.28953479061574183,
	"grad_norm": 0.5068826675415039,
	"learning_rate": 8.509205239188017e-06,
	"loss": 0.2948,
	"step": 226
	},
	{
	"epoch": 0.29209704539995196,
	"grad_norm": 0.3508552610874176,
	"learning_rate": 8.478878881086505e-06,
	"loss": 0.2736,
	"step": 228
	},
	{
	"epoch": 0.2946593001841621,
	"grad_norm": 0.47813767194747925,
	"learning_rate": 8.448302396299906e-06,
	"loss": 0.2954,
	"step": 230
	},
	{
	"epoch": 0.29722155496837216,
	"grad_norm": 0.29084405303001404,
	"learning_rate": 8.417477983236107e-06,
	"loss": 0.3134,
	"step": 232
	},
	{
	"epoch": 0.2997838097525823,
	"grad_norm": 0.41805362701416016,
	"learning_rate": 8.386407858128707e-06,
	"loss": 0.2767,
	"step": 234
	},
	{
	"epoch": 0.30234606453679236,
	"grad_norm": 0.32367441058158875,
	"learning_rate": 8.355094254877665e-06,
	"loss": 0.2783,
	"step": 236
	},
	{
	"epoch": 0.3049083193210025,
	"grad_norm": 0.31607088446617126,
	"learning_rate": 8.323539424888695e-06,
	"loss": 0.2871,
	"step": 238
	},
	{
	"epoch": 0.3074705741052126,
	"grad_norm": 0.3964040279388428,
	"learning_rate": 8.291745636911382e-06,
	"loss": 0.2747,
	"step": 240
	},
	{
	"epoch": 0.3100328288894227,
	"grad_norm": 0.3582654595375061,
	"learning_rate": 8.259715176876069e-06,
	"loss": 0.2737,
	"step": 242
	},
	{
	"epoch": 0.3125950836736328,
	"grad_norm": 0.38515010476112366,
	"learning_rate": 8.2274503477295e-06,
	"loss": 0.2889,
	"step": 244
	},
	{
	"epoch": 0.3151573384578429,
	"grad_norm": 0.3744358718395233,
	"learning_rate": 8.19495346926924e-06,
	"loss": 0.2822,
	"step": 246
	},
	{
	"epoch": 0.317719593242053,
	"grad_norm": 0.3402256369590759,
	"learning_rate": 8.162226877976886e-06,
	"loss": 0.284,
	"step": 248
	},
	{
	"epoch": 0.32028184802626314,
	"grad_norm": 0.4301615059375763,
	"learning_rate": 8.129272926850079e-06,
	"loss": 0.2915,
	"step": 250
	},
	{
	"epoch": 0.3228441028104732,
	"grad_norm": 0.3376031816005707,
	"learning_rate": 8.096093985233323e-06,
	"loss": 0.2842,
	"step": 252
	},
	{
	"epoch": 0.32540635759468334,
	"grad_norm": 0.546100378036499,
	"learning_rate": 8.062692438647628e-06,
	"loss": 0.3203,
	"step": 254
	},
	{
	"epoch": 0.3279686123788934,
	"grad_norm": 0.37469664216041565,
	"learning_rate": 8.029070688619013e-06,
	"loss": 0.2828,
	"step": 256
	},
	{
	"epoch": 0.33053086716310354,
	"grad_norm": 0.31530773639678955,
	"learning_rate": 7.995231152505815e-06,
	"loss": 0.2672,
	"step": 258
	},
	{
	"epoch": 0.3330931219473136,
	"grad_norm": 0.47679194808006287,
	"learning_rate": 7.961176263324902e-06,
	"loss": 0.292,
	"step": 260
	},
	{
	"epoch": 0.33565537673152374,
	"grad_norm": 0.7583074569702148,
	"learning_rate": 7.92690846957673e-06,
	"loss": 0.2987,
	"step": 262
	},
	{
	"epoch": 0.33821763151573386,
	"grad_norm": 0.4478585124015808,
	"learning_rate": 7.892430235069317e-06,
	"loss": 0.2881,
	"step": 264
	},
	{
	"epoch": 0.34077988629994393,
	"grad_norm": 0.49820685386657715,
	"learning_rate": 7.857744038741076e-06,
	"loss": 0.2912,
	"step": 266
	},
	{
	"epoch": 0.34334214108415406,
	"grad_norm": 0.42809927463531494,
	"learning_rate": 7.822852374482597e-06,
	"loss": 0.2672,
	"step": 268
	},
	{
	"epoch": 0.34590439586836413,
	"grad_norm": 0.3707646131515503,
	"learning_rate": 7.787757750957335e-06,
	"loss": 0.2921,
	"step": 270
	},
	{
	"epoch": 0.34846665065257426,
	"grad_norm": 0.3849372863769531,
	"learning_rate": 7.752462691421245e-06,
	"loss": 0.2676,
	"step": 272
	},
	{
	"epoch": 0.3510289054367844,
	"grad_norm": 0.34830930829048157,
	"learning_rate": 7.716969733541357e-06,
	"loss": 0.2576,
	"step": 274
	},
	{
	"epoch": 0.35359116022099446,
	"grad_norm": 0.4144101142883301,
	"learning_rate": 7.681281429213328e-06,
	"loss": 0.2686,
	"step": 276
	},
	{
	"epoch": 0.3561534150052046,
	"grad_norm": 0.30803945660591125,
	"learning_rate": 7.645400344377953e-06,
	"loss": 0.2678,
	"step": 278
	},
	{
	"epoch": 0.35871566978941466,
	"grad_norm": 0.40825673937797546,
	"learning_rate": 7.609329058836694e-06,
	"loss": 0.2907,
	"step": 280
	},
	{
	"epoch": 0.3612779245736248,
	"grad_norm": 0.38340067863464355,
	"learning_rate": 7.5730701660661795e-06,
	"loss": 0.298,
	"step": 282
	},
	{
	"epoch": 0.3638401793578349,
	"grad_norm": 0.3731997013092041,
	"learning_rate": 7.536626273031747e-06,
	"loss": 0.263,
	"step": 284
	},
	{
	"epoch": 0.366402434142045,
	"grad_norm": 0.3588733375072479,
	"learning_rate": 7.500000000000001e-06,
	"loss": 0.2733,
	"step": 286
	},
	{
	"epoch": 0.3689646889262551,
	"grad_norm": 0.4146881699562073,
	"learning_rate": 7.4631939803504215e-06,
	"loss": 0.3159,
	"step": 288
	},
	{
	"epoch": 0.3715269437104652,
	"grad_norm": 0.4735972285270691,
	"learning_rate": 7.426210860386032e-06,
	"loss": 0.2878,
	"step": 290
	},
	{
	"epoch": 0.3740891984946753,
	"grad_norm": 0.5484066009521484,
	"learning_rate": 7.3890532991431174e-06,
	"loss": 0.2829,
	"step": 292
	},
	{
	"epoch": 0.37665145327888544,
	"grad_norm": 0.3961395025253296,
	"learning_rate": 7.3517239682000675e-06,
	"loss": 0.2646,
	"step": 294
	},
	{
	"epoch": 0.3792137080630955,
	"grad_norm": 0.43453872203826904,
	"learning_rate": 7.314225551485273e-06,
	"loss": 0.301,
	"step": 296
	},
	{
	"epoch": 0.38177596284730564,
	"grad_norm": 0.45246270298957825,
	"learning_rate": 7.276560745084167e-06,
	"loss": 0.2622,
	"step": 298
	},
	{
	"epoch": 0.3843382176315157,
	"grad_norm": 0.4539019763469696,
	"learning_rate": 7.2387322570453724e-06,
	"loss": 0.2901,
	"step": 300
	},
	{
	"epoch": 0.38690047241572584,
	"grad_norm": 0.4333208203315735,
	"learning_rate": 7.2007428071860045e-06,
	"loss": 0.2576,
	"step": 302
	},
	{
	"epoch": 0.38946272719993597,
	"grad_norm": 0.3936616778373718,
	"learning_rate": 7.162595126896111e-06,
	"loss": 0.2716,
	"step": 304
	},
	{
	"epoch": 0.39202498198414604,
	"grad_norm": 0.40865668654441833,
	"learning_rate": 7.1242919589422974e-06,
	"loss": 0.2716,
	"step": 306
	},
	{
	"epoch": 0.39458723676835616,
	"grad_norm": 0.5468711256980896,
	"learning_rate": 7.085836057270521e-06,
	"loss": 0.2978,
	"step": 308
	},
	{
	"epoch": 0.39714949155256624,
	"grad_norm": 0.469566285610199,
	"learning_rate": 7.047230186808085e-06,
	"loss": 0.2499,
	"step": 310
	},
	{
	"epoch": 0.39971174633677636,
	"grad_norm": 0.5449560880661011,
	"learning_rate": 7.008477123264849e-06,
	"loss": 0.3018,
	"step": 312
	},
	{
	"epoch": 0.4022740011209865,
	"grad_norm": 0.48154890537261963,
	"learning_rate": 6.96957965293365e-06,
	"loss": 0.2834,
	"step": 314
	},
	{
	"epoch": 0.40483625590519656,
	"grad_norm": 0.3875851035118103,
	"learning_rate": 6.9305405724899876e-06,
	"loss": 0.3008,
	"step": 316
	},
	{
	"epoch": 0.4073985106894067,
	"grad_norm": 0.5583494305610657,
	"learning_rate": 6.891362688790925e-06,
	"loss": 0.2753,
	"step": 318
	},
	{
	"epoch": 0.40996076547361676,
	"grad_norm": 0.47610044479370117,
	"learning_rate": 6.8520488186733e-06,
	"loss": 0.2943,
	"step": 320
	},
	{
	"epoch": 0.4125230202578269,
	"grad_norm": 0.33989906311035156,
	"learning_rate": 6.812601788751192e-06,
	"loss": 0.2692,
	"step": 322
	},
	{
	"epoch": 0.415085275042037,
	"grad_norm": 0.4737338125705719,
	"learning_rate": 6.773024435212678e-06,
	"loss": 0.2961,
	"step": 324
	},
	{
	"epoch": 0.4176475298262471,
	"grad_norm": 0.538935124874115,
	"learning_rate": 6.733319603615941e-06,
	"loss": 0.2898,
	"step": 326
	},
	{
	"epoch": 0.4202097846104572,
	"grad_norm": 0.4021223187446594,
	"learning_rate": 6.693490148684654e-06,
	"loss": 0.2555,
	"step": 328
	},
	{
	"epoch": 0.4227720393946673,
	"grad_norm": 0.330159991979599,
	"learning_rate": 6.653538934102743e-06,
	"loss": 0.3043,
	"step": 330
	},
	{
	"epoch": 0.4253342941788774,
	"grad_norm": 0.39451590180397034,
	"learning_rate": 6.6134688323084884e-06,
	"loss": 0.3098,
	"step": 332
	},
	{
	"epoch": 0.42789654896308754,
	"grad_norm": 0.3512692451477051,
	"learning_rate": 6.573282724288001e-06,
	"loss": 0.276,
	"step": 334
	},
	{
	"epoch": 0.4304588037472976,
	"grad_norm": 0.3749544322490692,
	"learning_rate": 6.532983499368078e-06,
	"loss": 0.2893,
	"step": 336
	},
	{
	"epoch": 0.43302105853150774,
	"grad_norm": 0.35993286967277527,
	"learning_rate": 6.492574055008474e-06,
	"loss": 0.2522,
	"step": 338
	},
	{
	"epoch": 0.4355833133157178,
	"grad_norm": 0.3857017457485199,
	"learning_rate": 6.452057296593568e-06,
	"loss": 0.2556,
	"step": 340
	},
	{
	"epoch": 0.43814556809992794,
	"grad_norm": 0.36345577239990234,
	"learning_rate": 6.411436137223479e-06,
	"loss": 0.2795,
	"step": 342
	},
	{
	"epoch": 0.44070782288413807,
	"grad_norm": 0.40086713433265686,
	"learning_rate": 6.370713497504607e-06,
	"loss": 0.2619,
	"step": 344
	},
	{
	"epoch": 0.44327007766834814,
	"grad_norm": 0.4900248944759369,
	"learning_rate": 6.329892305339659e-06,
	"loss": 0.2748,
	"step": 346
	},
	{
	"epoch": 0.44583233245255827,
	"grad_norm": 0.6341924071311951,
	"learning_rate": 6.288975495717124e-06,
	"loss": 0.2731,
	"step": 348
	},
	{
	"epoch": 0.44839458723676834,
	"grad_norm": 0.5340880751609802,
	"learning_rate": 6.247966010500258e-06,
	"loss": 0.2797,
	"step": 350
	},
	{
	"epoch": 0.45095684202097847,
	"grad_norm": 0.37570691108703613,
	"learning_rate": 6.206866798215571e-06,
	"loss": 0.2724,
	"step": 352
	},
	{
	"epoch": 0.4535190968051886,
	"grad_norm": 0.4172237515449524,
	"learning_rate": 6.165680813840822e-06,
	"loss": 0.2728,
	"step": 354
	},
	{
	"epoch": 0.45608135158939866,
	"grad_norm": 0.36990782618522644,
	"learning_rate": 6.124411018592568e-06,
	"loss": 0.2733,
	"step": 356
	},
	{
	"epoch": 0.4586436063736088,
	"grad_norm": 0.35491085052490234,
	"learning_rate": 6.0830603797132574e-06,
	"loss": 0.2688,
	"step": 358
	},
	{
	"epoch": 0.46120586115781886,
	"grad_norm": 0.36608174443244934,
	"learning_rate": 6.041631870257882e-06,
	"loss": 0.2505,
	"step": 360
	},
	{
	"epoch": 0.463768115942029,
	"grad_norm": 0.3670680820941925,
	"learning_rate": 6.000128468880223e-06,
	"loss": 0.2749,
	"step": 362
	},
	{
	"epoch": 0.46633037072623906,
	"grad_norm": 0.40972089767456055,
	"learning_rate": 5.958553159618693e-06,
	"loss": 0.2541,
	"step": 364
	},
	{
	"epoch": 0.4688926255104492,
	"grad_norm": 0.40942203998565674,
	"learning_rate": 5.916908931681781e-06,
	"loss": 0.2721,
	"step": 366
	},
	{
	"epoch": 0.4714548802946593,
	"grad_norm": 0.508773922920227,
	"learning_rate": 5.8751987792331365e-06,
	"loss": 0.2774,
	"step": 368
	},
	{
	"epoch": 0.4740171350788694,
	"grad_norm": 0.38248467445373535,
	"learning_rate": 5.833425701176294e-06,
	"loss": 0.2497,
	"step": 370
	},
	{
	"epoch": 0.4765793898630795,
	"grad_norm": 0.42881184816360474,
	"learning_rate": 5.79159270093905e-06,
	"loss": 0.2686,
	"step": 372
	},
	{
	"epoch": 0.4791416446472896,
	"grad_norm": 0.4207112491130829,
	"learning_rate": 5.749702786257529e-06,
	"loss": 0.2797,
	"step": 374
	},
	{
	"epoch": 0.4817038994314997,
	"grad_norm": 0.4612100124359131,
	"learning_rate": 5.707758968959923e-06,
	"loss": 0.2665,
	"step": 376
	},
	{
	"epoch": 0.48426615421570984,
	"grad_norm": 0.471349835395813,
	"learning_rate": 5.6657642647499545e-06,
	"loss": 0.2753,
	"step": 378
	},
	{
	"epoch": 0.4868284089999199,
	"grad_norm": 0.4658471643924713,
	"learning_rate": 5.62372169299004e-06,
	"loss": 0.2445,
	"step": 380
	},
	{
	"epoch": 0.48939066378413004,
	"grad_norm": 0.48692232370376587,
	"learning_rate": 5.581634276484211e-06,
	"loss": 0.2933,
	"step": 382
	},
	{
	"epoch": 0.4919529185683401,
	"grad_norm": 0.44437411427497864,
	"learning_rate": 5.539505041260779e-06,
	"loss": 0.2502,
	"step": 384
	},
	{
	"epoch": 0.49451517335255024,
	"grad_norm": 0.4907655119895935,
	"learning_rate": 5.497337016354757e-06,
	"loss": 0.263,
	"step": 386
	},
	{
	"epoch": 0.49707742813676037,
	"grad_norm": 0.4633347690105438,
	"learning_rate": 5.45513323359009e-06,
	"loss": 0.2494,
	"step": 388
	},
	{
	"epoch": 0.49963968292097044,
	"grad_norm": 0.5105425715446472,
	"learning_rate": 5.412896727361663e-06,
	"loss": 0.2431,
	"step": 390
	},
	{
	"epoch": 0.5022019377051805,
	"grad_norm": 0.43711456656455994,
	"learning_rate": 5.370630534417133e-06,
	"loss": 0.248,
	"step": 392
	},
	{
	"epoch": 0.5047641924893906,
	"grad_norm": 0.44248372316360474,
	"learning_rate": 5.328337693638591e-06,
	"loss": 0.2522,
	"step": 394
	},
	{
	"epoch": 0.5073264472736008,
	"grad_norm": 0.41455918550491333,
	"learning_rate": 5.286021245824075e-06,
	"loss": 0.2856,
	"step": 396
	},
	{
	"epoch": 0.5098887020578109,
	"grad_norm": 0.36339160799980164,
	"learning_rate": 5.243684233468933e-06,
	"loss": 0.2626,
	"step": 398
	},
	{
	"epoch": 0.512450956842021,
	"grad_norm": 0.4179689288139343,
	"learning_rate": 5.201329700547077e-06,
	"loss": 0.2738,
	"step": 400
	},
	{
	"epoch": 0.515013211626231,
	"grad_norm": 0.3756559193134308,
	"learning_rate": 5.158960692292122e-06,
	"loss": 0.2511,
	"step": 402
	},
	{
	"epoch": 0.5175754664104412,
	"grad_norm": 0.5741788148880005,
	"learning_rate": 5.116580254978447e-06,
	"loss": 0.2957,
	"step": 404
	},
	{
	"epoch": 0.5201377211946513,
	"grad_norm": 0.4136016070842743,
	"learning_rate": 5.074191435702155e-06,
	"loss": 0.2704,
	"step": 406
	},
	{
	"epoch": 0.5226999759788614,
	"grad_norm": 0.5152673125267029,
	"learning_rate": 5.031797282162007e-06,
	"loss": 0.3206,
	"step": 408
	},
	{
	"epoch": 0.5252622307630715,
	"grad_norm": 0.4879305958747864,
	"learning_rate": 4.98940084244029e-06,
	"loss": 0.2536,
	"step": 410
	},
	{
	"epoch": 0.5278244855472816,
	"grad_norm": 0.36677488684654236,
	"learning_rate": 4.947005164783661e-06,
	"loss": 0.2517,
	"step": 412
	},
	{
	"epoch": 0.5303867403314917,
	"grad_norm": 0.4830959141254425,
	"learning_rate": 4.9046132973839895e-06,
	"loss": 0.2751,
	"step": 414
	},
	{
	"epoch": 0.5329489951157018,
	"grad_norm": 0.39130493998527527,
	"learning_rate": 4.862228288159191e-06,
	"loss": 0.2583,
	"step": 416
	},
	{
	"epoch": 0.535511249899912,
	"grad_norm": 0.45581528544425964,
	"learning_rate": 4.819853184534085e-06,
	"loss": 0.3033,
	"step": 418
	},
	{
	"epoch": 0.5380735046841221,
	"grad_norm": 0.552720308303833,
	"learning_rate": 4.7774910332213005e-06,
	"loss": 0.2679,
	"step": 420
	},
	{
	"epoch": 0.5406357594683321,
	"grad_norm": 0.5465298295021057,
	"learning_rate": 4.735144880002199e-06,
	"loss": 0.2765,
	"step": 422
	},
	{
	"epoch": 0.5431980142525422,
	"grad_norm": 0.452952116727829,
	"learning_rate": 4.692817769507912e-06,
	"loss": 0.2629,
	"step": 424
	},
	{
	"epoch": 0.5457602690367523,
	"grad_norm": 0.5454785227775574,
	"learning_rate": 4.6505127450004216e-06,
	"loss": 0.292,
	"step": 426
	},
	{
	"epoch": 0.5483225238209625,
	"grad_norm": 0.36023062467575073,
	"learning_rate": 4.608232848153757e-06,
	"loss": 0.2388,
	"step": 428
	},
	{
	"epoch": 0.5508847786051726,
	"grad_norm": 0.3965865969657898,
	"learning_rate": 4.565981118835299e-06,
	"loss": 0.2683,
	"step": 430
	},
	{
	"epoch": 0.5534470333893826,
	"grad_norm": 0.47152435779571533,
	"learning_rate": 4.523760594887228e-06,
	"loss": 0.265,
	"step": 432
	},
	{
	"epoch": 0.5560092881735927,
	"grad_norm": 0.5159929394721985,
	"learning_rate": 4.481574311908096e-06,
	"loss": 0.2823,
	"step": 434
	},
	{
	"epoch": 0.5585715429578029,
	"grad_norm": 0.371762752532959,
	"learning_rate": 4.439425303034576e-06,
	"loss": 0.2942,
	"step": 436
	},
	{
	"epoch": 0.561133797742013,
	"grad_norm": 0.4925728440284729,
	"learning_rate": 4.397316598723385e-06,
	"loss": 0.2983,
	"step": 438
	},
	{
	"epoch": 0.5636960525262231,
	"grad_norm": 0.3970510959625244,
	"learning_rate": 4.355251226533396e-06,
	"loss": 0.2435,
	"step": 440
	},
	{
	"epoch": 0.5662583073104331,
	"grad_norm": 0.4432925283908844,
	"learning_rate": 4.313232210907959e-06,
	"loss": 0.2615,
	"step": 442
	},
	{
	"epoch": 0.5688205620946433,
	"grad_norm": 0.39295539259910583,
	"learning_rate": 4.271262572957453e-06,
	"loss": 0.2603,
	"step": 444
	},
	{
	"epoch": 0.5713828168788534,
	"grad_norm": 0.3533722460269928,
	"learning_rate": 4.229345330242067e-06,
	"loss": 0.246,
	"step": 446
	},
	{
	"epoch": 0.5739450716630635,
	"grad_norm": 0.4501621127128601,
	"learning_rate": 4.187483496554844e-06,
	"loss": 0.2679,
	"step": 448
	},
	{
	"epoch": 0.5765073264472736,
	"grad_norm": 0.4579297602176666,
	"learning_rate": 4.145680081704989e-06,
	"loss": 0.2616,
	"step": 450
	},
	{
	"epoch": 0.5790695812314837,
	"grad_norm": 0.43312978744506836,
	"learning_rate": 4.103938091301479e-06,
	"loss": 0.2534,
	"step": 452
	},
	{
	"epoch": 0.5816318360156938,
	"grad_norm": 0.45154210925102234,
	"learning_rate": 4.062260526536955e-06,
	"loss": 0.2909,
	"step": 454
	},
	{
	"epoch": 0.5841940907999039,
	"grad_norm": 0.34377482533454895,
	"learning_rate": 4.0206503839719335e-06,
	"loss": 0.261,
	"step": 456
	},
	{
	"epoch": 0.586756345584114,
	"grad_norm": 0.4153713881969452,
	"learning_rate": 3.9791106553193746e-06,
	"loss": 0.2669,
	"step": 458
	},
	{
	"epoch": 0.5893186003683242,
	"grad_norm": 0.5368139743804932,
	"learning_rate": 3.937644327229572e-06,
	"loss": 0.251,
	"step": 460
	},
	{
	"epoch": 0.5918808551525342,
	"grad_norm": 0.4761441946029663,
	"learning_rate": 3.896254381075416e-06,
	"loss": 0.2595,
	"step": 462
	},
	{
	"epoch": 0.5944431099367443,
	"grad_norm": 0.597135603427887,
	"learning_rate": 3.854943792738037e-06,
	"loss": 0.2866,
	"step": 464
	},
	{
	"epoch": 0.5970053647209544,
	"grad_norm": 0.6271767616271973,
	"learning_rate": 3.8137155323928526e-06,
	"loss": 0.2832,
	"step": 466
	},
	{
	"epoch": 0.5995676195051646,
	"grad_norm": 0.3820246458053589,
	"learning_rate": 3.7725725642960047e-06,
	"loss": 0.2548,
	"step": 468
	},
	{
	"epoch": 0.6021298742893747,
	"grad_norm": 0.5720183849334717,
	"learning_rate": 3.7315178465712364e-06,
	"loss": 0.2603,
	"step": 470
	},
	{
	"epoch": 0.6046921290735847,
	"grad_norm": 0.4225583076477051,
	"learning_rate": 3.690554330997215e-06,
	"loss": 0.2685,
	"step": 472
	},
	{
	"epoch": 0.6072543838577948,
	"grad_norm": 0.3530130386352539,
	"learning_rate": 3.6496849627952875e-06,
	"loss": 0.2723,
	"step": 474
	},
	{
	"epoch": 0.609816638642005,
	"grad_norm": 0.3795667290687561,
	"learning_rate": 3.6089126804177373e-06,
	"loss": 0.2691,
	"step": 476
	},
	{
	"epoch": 0.6123788934262151,
	"grad_norm": 0.43652230501174927,
	"learning_rate": 3.568240415336509e-06,
	"loss": 0.2838,
	"step": 478
	},
	{
	"epoch": 0.6149411482104252,
	"grad_norm": 0.4311392903327942,
	"learning_rate": 3.52767109183244e-06,
	"loss": 0.2847,
	"step": 480
	},
	{
	"epoch": 0.6175034029946352,
	"grad_norm": 0.42163416743278503,
	"learning_rate": 3.4872076267850015e-06,
	"loss": 0.2488,
	"step": 482
	},
	{
	"epoch": 0.6200656577788454,
	"grad_norm": 0.4223015308380127,
	"learning_rate": 3.4468529294625895e-06,
	"loss": 0.2621,
	"step": 484
	},
	{
	"epoch": 0.6226279125630555,
	"grad_norm": 0.4520999491214752,
	"learning_rate": 3.406609901313349e-06,
	"loss": 0.2543,
	"step": 486
	},
	{
	"epoch": 0.6251901673472656,
	"grad_norm": 0.5905027985572815,
	"learning_rate": 3.36648143575656e-06,
	"loss": 0.271,
	"step": 488
	},
	{
	"epoch": 0.6277524221314758,
	"grad_norm": 0.5310239195823669,
	"learning_rate": 3.326470417974604e-06,
	"loss": 0.2794,
	"step": 490
	},
	{
	"epoch": 0.6303146769156858,
	"grad_norm": 0.43746617436408997,
	"learning_rate": 3.2865797247055354e-06,
	"loss": 0.2716,
	"step": 492
	},
	{
	"epoch": 0.6328769316998959,
	"grad_norm": 0.4661629796028137,
	"learning_rate": 3.2468122240362287e-06,
	"loss": 0.243,
	"step": 494
	},
	{
	"epoch": 0.635439186484106,
	"grad_norm": 0.44793224334716797,
	"learning_rate": 3.2071707751961838e-06,
	"loss": 0.2808,
	"step": 496
	},
	{
	"epoch": 0.6380014412683161,
	"grad_norm": 0.5625908970832825,
	"learning_rate": 3.1676582283519454e-06,
	"loss": 0.265,
	"step": 498
	},
	{
	"epoch": 0.6405636960525263,
	"grad_norm": 0.44215095043182373,
	"learning_rate": 3.1282774244021717e-06,
	"loss": 0.2858,
	"step": 500
	},
	{
	"epoch": 0.6405636960525263,
	"eval_loss": 0.2639869451522827,
	"eval_runtime": 270.7894,
	"eval_samples_per_second": 19.421,
	"eval_steps_per_second": 2.43,
	"step": 500
	},
	{
	"epoch": 0.6431259508367363,
	"grad_norm": 0.47866004705429077,
	"learning_rate": 3.089031194773392e-06,
	"loss": 0.2879,
	"step": 502
	},
	{
	"epoch": 0.6456882056209464,
	"grad_norm": 0.5291287302970886,
	"learning_rate": 3.049922361216422e-06,
	"loss": 0.2501,
	"step": 504
	},
	{
	"epoch": 0.6482504604051565,
	"grad_norm": 0.4798702895641327,
	"learning_rate": 3.0109537356034856e-06,
	"loss": 0.2691,
	"step": 506
	},
	{
	"epoch": 0.6508127151893667,
	"grad_norm": 0.7165606617927551,
	"learning_rate": 2.9721281197260427e-06,
	"loss": 0.3519,
	"step": 508
	},
	{
	"epoch": 0.6533749699735768,
	"grad_norm": 0.6769598126411438,
	"learning_rate": 2.9334483050933506e-06,
	"loss": 0.281,
	"step": 510
	},
	{
	"epoch": 0.6559372247577868,
	"grad_norm": 0.47096380591392517,
	"learning_rate": 2.894917072731753e-06,
	"loss": 0.2677,
	"step": 512
	},
	{
	"epoch": 0.658499479541997,
	"grad_norm": 0.6711763739585876,
	"learning_rate": 2.8565371929847286e-06,
	"loss": 0.2707,
	"step": 514
	},
	{
	"epoch": 0.6610617343262071,
	"grad_norm": 0.44064444303512573,
	"learning_rate": 2.81831142531371e-06,
	"loss": 0.2654,
	"step": 516
	},
	{
	"epoch": 0.6636239891104172,
	"grad_norm": 0.42236313223838806,
	"learning_rate": 2.780242518099675e-06,
	"loss": 0.2601,
	"step": 518
	},
	{
	"epoch": 0.6661862438946272,
	"grad_norm": 0.4029591381549835,
	"learning_rate": 2.7423332084455543e-06,
	"loss": 0.2648,
	"step": 520
	},
	{
	"epoch": 0.6687484986788373,
	"grad_norm": 0.47852271795272827,
	"learning_rate": 2.704586221979422e-06,
	"loss": 0.2744,
	"step": 522
	},
	{
	"epoch": 0.6713107534630475,
	"grad_norm": 0.44856366515159607,
	"learning_rate": 2.667004272658541e-06,
	"loss": 0.2499,
	"step": 524
	},
	{
	"epoch": 0.6738730082472576,
	"grad_norm": 0.4645158648490906,
	"learning_rate": 2.629590062574221e-06,
	"loss": 0.2716,
	"step": 526
	},
	{
	"epoch": 0.6764352630314677,
	"grad_norm": 0.5160189867019653,
	"learning_rate": 2.592346281757552e-06,
	"loss": 0.2361,
	"step": 528
	},
	{
	"epoch": 0.6789975178156777,
	"grad_norm": 0.3944529891014099,
	"learning_rate": 2.5552756079859904e-06,
	"loss": 0.2476,
	"step": 530
	},
	{
	"epoch": 0.6815597725998879,
	"grad_norm": 0.5633410811424255,
	"learning_rate": 2.5183807065908296e-06,
	"loss": 0.2287,
	"step": 532
	},
	{
	"epoch": 0.684122027384098,
	"grad_norm": 0.3865067958831787,
	"learning_rate": 2.4816642302655634e-06,
	"loss": 0.2644,
	"step": 534
	},
	{
	"epoch": 0.6866842821683081,
	"grad_norm": 0.5245662331581116,
	"learning_rate": 2.445128818875166e-06,
	"loss": 0.2354,
	"step": 536
	},
	{
	"epoch": 0.6892465369525183,
	"grad_norm": 0.4881504774093628,
	"learning_rate": 2.408777099266291e-06,
	"loss": 0.2779,
	"step": 538
	},
	{
	"epoch": 0.6918087917367283,
	"grad_norm": 0.5840505957603455,
	"learning_rate": 2.3726116850783987e-06,
	"loss": 0.2742,
	"step": 540
	},
	{
	"epoch": 0.6943710465209384,
	"grad_norm": 0.4902634918689728,
	"learning_rate": 2.3366351765558437e-06,
	"loss": 0.2818,
	"step": 542
	},
	{
	"epoch": 0.6969333013051485,
	"grad_norm": 0.4141348600387573,
	"learning_rate": 2.3008501603609147e-06,
	"loss": 0.2542,
	"step": 544
	},
	{
	"epoch": 0.6994955560893586,
	"grad_norm": 0.3754000663757324,
	"learning_rate": 2.265259209387867e-06,
	"loss": 0.2664,
	"step": 546
	},
	{
	"epoch": 0.7020578108735688,
	"grad_norm": 0.6529264450073242,
	"learning_rate": 2.229864882577921e-06,
	"loss": 0.2678,
	"step": 548
	},
	{
	"epoch": 0.7046200656577788,
	"grad_norm": 0.3764033615589142,
	"learning_rate": 2.194669724735296e-06,
	"loss": 0.2668,
	"step": 550
	},
	{
	"epoch": 0.7071823204419889,
	"grad_norm": 0.3769323229789734,
	"learning_rate": 2.159676266344222e-06,
	"loss": 0.2663,
	"step": 552
	},
	{
	"epoch": 0.709744575226199,
	"grad_norm": 0.3979746103286743,
	"learning_rate": 2.124887023387017e-06,
	"loss": 0.2666,
	"step": 554
	},
	{
	"epoch": 0.7123068300104092,
	"grad_norm": 0.4987868070602417,
	"learning_rate": 2.0903044971631854e-06,
	"loss": 0.2292,
	"step": 556
	},
	{
	"epoch": 0.7148690847946193,
	"grad_norm": 0.6058522462844849,
	"learning_rate": 2.055931174109579e-06,
	"loss": 0.2354,
	"step": 558
	},
	{
	"epoch": 0.7174313395788293,
	"grad_norm": 0.5615466237068176,
	"learning_rate": 2.02176952562162e-06,
	"loss": 0.2557,
	"step": 560
	},
	{
	"epoch": 0.7199935943630394,
	"grad_norm": 0.5051982998847961,
	"learning_rate": 1.987822007875617e-06,
	"loss": 0.2706,
	"step": 562
	},
	{
	"epoch": 0.7225558491472496,
	"grad_norm": 0.571441650390625,
	"learning_rate": 1.954091061652172e-06,
	"loss": 0.2815,
	"step": 564
	},
	{
	"epoch": 0.7251181039314597,
	"grad_norm": 0.5101485252380371,
	"learning_rate": 1.920579112160685e-06,
	"loss": 0.2314,
	"step": 566
	},
	{
	"epoch": 0.7276803587156698,
	"grad_norm": 0.4810335040092468,
	"learning_rate": 1.8872885688649879e-06,
	"loss": 0.2812,
	"step": 568
	},
	{
	"epoch": 0.7302426134998798,
	"grad_norm": 0.49377724528312683,
	"learning_rate": 1.854221825310103e-06,
	"loss": 0.2656,
	"step": 570
	},
	{
	"epoch": 0.73280486828409,
	"grad_norm": 0.5363904237747192,
	"learning_rate": 1.8213812589501611e-06,
	"loss": 0.265,
	"step": 572
	},
	{
	"epoch": 0.7353671230683001,
	"grad_norm": 0.5577176213264465,
	"learning_rate": 1.78876923097745e-06,
	"loss": 0.2652,
	"step": 574
	},
	{
	"epoch": 0.7379293778525102,
	"grad_norm": 0.44135797023773193,
	"learning_rate": 1.7563880861526656e-06,
	"loss": 0.2748,
	"step": 576
	},
	{
	"epoch": 0.7404916326367204,
	"grad_norm": 0.41491812467575073,
	"learning_rate": 1.7242401526363095e-06,
	"loss": 0.2847,
	"step": 578
	},
	{
	"epoch": 0.7430538874209304,
	"grad_norm": 0.4843028783798218,
	"learning_rate": 1.692327741821312e-06,
	"loss": 0.2792,
	"step": 580
	},
	{
	"epoch": 0.7456161422051405,
	"grad_norm": 0.5842957496643066,
	"learning_rate": 1.6606531481668364e-06,
	"loss": 0.2784,
	"step": 582
	},
	{
	"epoch": 0.7481783969893506,
	"grad_norm": 0.572831928730011,
	"learning_rate": 1.6292186490333172e-06,
	"loss": 0.2862,
	"step": 584
	},
	{
	"epoch": 0.7507406517735608,
	"grad_norm": 0.5212300419807434,
	"learning_rate": 1.5980265045187139e-06,
	"loss": 0.2637,
	"step": 586
	},
	{
	"epoch": 0.7533029065577709,
	"grad_norm": 0.5278065800666809,
	"learning_rate": 1.567078957296016e-06,
	"loss": 0.2617,
	"step": 588
	},
	{
	"epoch": 0.7558651613419809,
	"grad_norm": 0.5063283443450928,
	"learning_rate": 1.5363782324520033e-06,
	"loss": 0.2569,
	"step": 590
	},
	{
	"epoch": 0.758427416126191,
	"grad_norm": 0.40898391604423523,
	"learning_rate": 1.5059265373272574e-06,
	"loss": 0.2558,
	"step": 592
	},
	{
	"epoch": 0.7609896709104012,
	"grad_norm": 0.5030636191368103,
	"learning_rate": 1.475726061357463e-06,
	"loss": 0.2547,
	"step": 594
	},
	{
	"epoch": 0.7635519256946113,
	"grad_norm": 0.5822692513465881,
	"learning_rate": 1.4457789759159813e-06,
	"loss": 0.2266,
	"step": 596
	},
	{
	"epoch": 0.7661141804788214,
	"grad_norm": 0.5503767132759094,
	"learning_rate": 1.4160874341577447e-06,
	"loss": 0.269,
	"step": 598
	},
	{
	"epoch": 0.7686764352630314,
	"grad_norm": 0.4649931788444519,
	"learning_rate": 1.3866535708644335e-06,
	"loss": 0.2536,
	"step": 600
	},
	{
	"epoch": 0.7712386900472415,
	"grad_norm": 0.6687978506088257,
	"learning_rate": 1.3574795022910014e-06,
	"loss": 0.3012,
	"step": 602
	},
	{
	"epoch": 0.7738009448314517,
	"grad_norm": 0.5331063866615295,
	"learning_rate": 1.3285673260135073e-06,
	"loss": 0.2453,
	"step": 604
	},
	{
	"epoch": 0.7763631996156618,
	"grad_norm": 0.46101680397987366,
	"learning_rate": 1.2999191207783129e-06,
	"loss": 0.2308,
	"step": 606
	},
	{
	"epoch": 0.7789254543998719,
	"grad_norm": 0.4032719135284424,
	"learning_rate": 1.2715369463526173e-06,
	"loss": 0.2534,
	"step": 608
	},
	{
	"epoch": 0.781487709184082,
	"grad_norm": 0.7435618042945862,
	"learning_rate": 1.2434228433763657e-06,
	"loss": 0.2331,
	"step": 610
	},
	{
	"epoch": 0.7840499639682921,
	"grad_norm": 0.6071492433547974,
	"learning_rate": 1.215578833215526e-06,
	"loss": 0.2695,
	"step": 612
	},
	{
	"epoch": 0.7866122187525022,
	"grad_norm": 0.4534173011779785,
	"learning_rate": 1.1880069178167586e-06,
	"loss": 0.2654,
	"step": 614
	},
	{
	"epoch": 0.7891744735367123,
	"grad_norm": 0.48930707573890686,
	"learning_rate": 1.1607090795634802e-06,
	"loss": 0.2597,
	"step": 616
	},
	{
	"epoch": 0.7917367283209225,
	"grad_norm": 0.43963509798049927,
	"learning_rate": 1.133687281133331e-06,
	"loss": 0.2454,
	"step": 618
	},
	{
	"epoch": 0.7942989831051325,
	"grad_norm": 0.45418596267700195,
	"learning_rate": 1.1069434653570633e-06,
	"loss": 0.2541,
	"step": 620
	},
	{
	"epoch": 0.7968612378893426,
	"grad_norm": 0.41048523783683777,
	"learning_rate": 1.0804795550788473e-06,
	"loss": 0.2743,
	"step": 622
	},
	{
	"epoch": 0.7994234926735527,
	"grad_norm": 0.516132116317749,
	"learning_rate": 1.0542974530180327e-06,
	"loss": 0.2736,
	"step": 624
	},
	{
	"epoch": 0.8019857474577629,
	"grad_norm": 0.412601113319397,
	"learning_rate": 1.0283990416323336e-06,
	"loss": 0.2503,
	"step": 626
	},
	{
	"epoch": 0.804548002241973,
	"grad_norm": 0.5029380917549133,
	"learning_rate": 1.0027861829824953e-06,
	"loss": 0.232,
	"step": 628
	},
	{
	"epoch": 0.807110257026183,
	"grad_norm": 0.4999438226222992,
	"learning_rate": 9.774607185984004e-07,
	"loss": 0.2549,
	"step": 630
	},
	{
	"epoch": 0.8096725118103931,
	"grad_norm": 0.44878801703453064,
	"learning_rate": 9.524244693466773e-07,
	"loss": 0.2355,
	"step": 632
	},
	{
	"epoch": 0.8122347665946033,
	"grad_norm": 0.4290701150894165,
	"learning_rate": 9.276792352997782e-07,
	"loss": 0.2579,
	"step": 634
	},
	{
	"epoch": 0.8147970213788134,
	"grad_norm": 0.5716743469238281,
	"learning_rate": 9.032267956065516e-07,
	"loss": 0.2833,
	"step": 636
	},
	{
	"epoch": 0.8173592761630235,
	"grad_norm": 0.4765143394470215,
	"learning_rate": 8.790689083643328e-07,
	"loss": 0.2473,
	"step": 638
	},
	{
	"epoch": 0.8199215309472335,
	"grad_norm": 0.4390144646167755,
	"learning_rate": 8.552073104925296e-07,
	"loss": 0.2711,
	"step": 640
	},
	{
	"epoch": 0.8224837857314437,
	"grad_norm": 0.5272576808929443,
	"learning_rate": 8.316437176077491e-07,
	"loss": 0.2749,
	"step": 642
	},
	{
	"epoch": 0.8250460405156538,
	"grad_norm": 0.44547039270401,
	"learning_rate": 8.083798239004408e-07,
	"loss": 0.259,
	"step": 644
	},
	{
	"epoch": 0.8276082952998639,
	"grad_norm": 0.578179121017456,
	"learning_rate": 7.854173020130906e-07,
	"loss": 0.2946,
	"step": 646
	},
	{
	"epoch": 0.830170550084074,
	"grad_norm": 0.4996013641357422,
	"learning_rate": 7.627578029199562e-07,
	"loss": 0.2573,
	"step": 648
	},
	{
	"epoch": 0.832732804868284,
	"grad_norm": 0.5044499039649963,
	"learning_rate": 7.404029558083653e-07,
	"loss": 0.2461,
	"step": 650
	},
	{
	"epoch": 0.8352950596524942,
	"grad_norm": 0.42843055725097656,
	"learning_rate": 7.183543679615834e-07,
	"loss": 0.2578,
	"step": 652
	},
	{
	"epoch": 0.8378573144367043,
	"grad_norm": 0.5041942596435547,
	"learning_rate": 6.966136246432492e-07,
	"loss": 0.2412,
	"step": 654
	},
	{
	"epoch": 0.8404195692209144,
	"grad_norm": 0.454973042011261,
	"learning_rate": 6.751822889833926e-07,
	"loss": 0.265,
	"step": 656
	},
	{
	"epoch": 0.8429818240051246,
	"grad_norm": 0.4820737838745117,
	"learning_rate": 6.540619018660555e-07,
	"loss": 0.226,
	"step": 658
	},
	{
	"epoch": 0.8455440787893346,
	"grad_norm": 0.5445938110351562,
	"learning_rate": 6.332539818184985e-07,
	"loss": 0.2501,
	"step": 660
	},
	{
	"epoch": 0.8481063335735447,
	"grad_norm": 0.5699609518051147,
	"learning_rate": 6.127600249020216e-07,
	"loss": 0.2747,
	"step": 662
	},
	{
	"epoch": 0.8506685883577548,
	"grad_norm": 0.46571552753448486,
	"learning_rate": 5.925815046044026e-07,
	"loss": 0.2612,
	"step": 664
	},
	{
	"epoch": 0.853230843141965,
	"grad_norm": 0.47914472222328186,
	"learning_rate": 5.727198717339511e-07,
	"loss": 0.2574,
	"step": 666
	},
	{
	"epoch": 0.8557930979261751,
	"grad_norm": 0.40852856636047363,
	"learning_rate": 5.531765543152002e-07,
	"loss": 0.2734,
	"step": 668
	},
	{
	"epoch": 0.8583553527103851,
	"grad_norm": 0.3702560067176819,
	"learning_rate": 5.33952957486234e-07,
	"loss": 0.2539,
	"step": 670
	},
	{
	"epoch": 0.8609176074945952,
	"grad_norm": 0.5180298686027527,
	"learning_rate": 5.150504633976572e-07,
	"loss": 0.3682,
	"step": 672
	},
	{
	"epoch": 0.8634798622788054,
	"grad_norm": 0.7016831040382385,
	"learning_rate": 4.964704311132224e-07,
	"loss": 0.2265,
	"step": 674
	},
	{
	"epoch": 0.8660421170630155,
	"grad_norm": 0.5376434922218323,
	"learning_rate": 4.782141965121129e-07,
	"loss": 0.2676,
	"step": 676
	},
	{
	"epoch": 0.8686043718472256,
	"grad_norm": 0.47063949704170227,
	"learning_rate": 4.602830721928997e-07,
	"loss": 0.2606,
	"step": 678
	},
	{
	"epoch": 0.8711666266314356,
	"grad_norm": 0.4991367757320404,
	"learning_rate": 4.4267834737916295e-07,
	"loss": 0.2414,
	"step": 680
	},
	{
	"epoch": 0.8737288814156458,
	"grad_norm": 0.4373914301395416,
	"learning_rate": 4.2540128782679934e-07,
	"loss": 0.2287,
	"step": 682
	},
	{
	"epoch": 0.8762911361998559,
	"grad_norm": 0.39528214931488037,
	"learning_rate": 4.0845313573301736e-07,
	"loss": 0.2404,
	"step": 684
	},
	{
	"epoch": 0.878853390984066,
	"grad_norm": 0.5945621132850647,
	"learning_rate": 3.9183510964702463e-07,
	"loss": 0.2719,
	"step": 686
	},
	{
	"epoch": 0.8814156457682761,
	"grad_norm": 0.6032932996749878,
	"learning_rate": 3.755484043824131e-07,
	"loss": 0.2608,
	"step": 688
	},
	{
	"epoch": 0.8839779005524862,
	"grad_norm": 0.49754688143730164,
	"learning_rate": 3.595941909312595e-07,
	"loss": 0.2852,
	"step": 690
	},
	{
	"epoch": 0.8865401553366963,
	"grad_norm": 0.49544405937194824,
	"learning_rate": 3.439736163799251e-07,
	"loss": 0.2693,
	"step": 692
	},
	{
	"epoch": 0.8891024101209064,
	"grad_norm": 0.4462824761867523,
	"learning_rate": 3.2868780382658895e-07,
	"loss": 0.2443,
	"step": 694
	},
	{
	"epoch": 0.8916646649051165,
	"grad_norm": 0.4302297532558441,
	"learning_rate": 3.1373785230049356e-07,
	"loss": 0.2515,
	"step": 696
	},
	{
	"epoch": 0.8942269196893267,
	"grad_norm": 0.4883180856704712,
	"learning_rate": 2.991248366829291e-07,
	"loss": 0.2757,
	"step": 698
	},
	{
	"epoch": 0.8967891744735367,
	"grad_norm": 0.7474163174629211,
	"learning_rate": 2.848498076299483e-07,
	"loss": 0.2963,
	"step": 700
	},
	{
	"epoch": 0.8993514292577468,
	"grad_norm": 0.4648323059082031,
	"learning_rate": 2.7091379149682683e-07,
	"loss": 0.2361,
	"step": 702
	},
	{
	"epoch": 0.9019136840419569,
	"grad_norm": 0.4341067373752594,
	"learning_rate": 2.573177902642726e-07,
	"loss": 0.2555,
	"step": 704
	},
	{
	"epoch": 0.9044759388261671,
	"grad_norm": 0.47577670216560364,
	"learning_rate": 2.440627814663804e-07,
	"loss": 0.2772,
	"step": 706
	},
	{
	"epoch": 0.9070381936103772,
	"grad_norm": 0.47802722454071045,
	"learning_rate": 2.3114971812034981e-07,
	"loss": 0.2544,
	"step": 708
	},
	{
	"epoch": 0.9096004483945872,
	"grad_norm": 0.4585348665714264,
	"learning_rate": 2.1857952865796616e-07,
	"loss": 0.2424,
	"step": 710
	},
	{
	"epoch": 0.9121627031787973,
	"grad_norm": 0.4453139305114746,
	"learning_rate": 2.0635311685884675e-07,
	"loss": 0.2424,
	"step": 712
	},
	{
	"epoch": 0.9147249579630075,
	"grad_norm": 0.4780106544494629,
	"learning_rate": 1.9447136178545766e-07,
	"loss": 0.2475,
	"step": 714
	},
	{
	"epoch": 0.9172872127472176,
	"grad_norm": 0.47332102060317993,
	"learning_rate": 1.8293511771991624e-07,
	"loss": 0.2414,
	"step": 716
	},
	{
	"epoch": 0.9198494675314277,
	"grad_norm": 0.5608975887298584,
	"learning_rate": 1.7174521410256162e-07,
	"loss": 0.2733,
	"step": 718
	},
	{
	"epoch": 0.9224117223156377,
	"grad_norm": 0.611322283744812,
	"learning_rate": 1.6090245547232707e-07,
	"loss": 0.2195,
	"step": 720
	},
	{
	"epoch": 0.9249739770998479,
	"grad_norm": 0.37321174144744873,
	"learning_rate": 1.5040762140888843e-07,
	"loss": 0.2496,
	"step": 722
	},
	{
	"epoch": 0.927536231884058,
	"grad_norm": 0.394593745470047,
	"learning_rate": 1.402614664766172e-07,
	"loss": 0.2521,
	"step": 724
	},
	{
	"epoch": 0.9300984866682681,
	"grad_norm": 0.5954830646514893,
	"learning_rate": 1.3046472017032685e-07,
	"loss": 0.2742,
	"step": 726
	},
	{
	"epoch": 0.9326607414524781,
	"grad_norm": 0.3724110722541809,
	"learning_rate": 1.210180868628219e-07,
	"loss": 0.2359,
	"step": 728
	},
	{
	"epoch": 0.9352229962366883,
	"grad_norm": 0.42592036724090576,
	"learning_rate": 1.1192224575425848e-07,
	"loss": 0.2428,
	"step": 730
	},
	{
	"epoch": 0.9377852510208984,
	"grad_norm": 0.481985479593277,
	"learning_rate": 1.0317785082330555e-07,
	"loss": 0.2982,
	"step": 732
	},
	{
	"epoch": 0.9403475058051085,
	"grad_norm": 0.5069997906684875,
	"learning_rate": 9.478553078013042e-08,
	"loss": 0.2659,
	"step": 734
	},
	{
	"epoch": 0.9429097605893186,
	"grad_norm": 0.41395503282546997,
	"learning_rate": 8.674588902118919e-08,
	"loss": 0.2429,
	"step": 736
	},
	{
	"epoch": 0.9454720153735287,
	"grad_norm": 0.5499728322029114,
	"learning_rate": 7.905950358584768e-08,
	"loss": 0.2665,
	"step": 738
	},
	{
	"epoch": 0.9480342701577388,
	"grad_norm": 0.5084072351455688,
	"learning_rate": 7.172692711482022e-08,
	"loss": 0.2768,
	"step": 740
	},
	{
	"epoch": 0.9505965249419489,
	"grad_norm": 0.6337217688560486,
	"learning_rate": 6.474868681043578e-08,
	"loss": 0.264,
	"step": 742
	},
	{
	"epoch": 0.953158779726159,
	"grad_norm": 0.47787654399871826,
	"learning_rate": 5.8125284398730666e-08,
	"loss": 0.2686,
	"step": 744
	},
	{
	"epoch": 0.9557210345103692,
	"grad_norm": 0.46294164657592773,
	"learning_rate": 5.185719609337836e-08,
	"loss": 0.2709,
	"step": 746
	},
	{
	"epoch": 0.9582832892945792,
	"grad_norm": 0.3983994126319885,
	"learning_rate": 4.5944872561448084e-08,
	"loss": 0.2542,
	"step": 748
	},
	{
	"epoch": 0.9608455440787893,
	"grad_norm": 0.5090007781982422,
	"learning_rate": 4.038873889100237e-08,
	"loss": 0.2613,
	"step": 750
	},
	{
	"epoch": 0.9634077988629994,
	"grad_norm": 0.6989894509315491,
	"learning_rate": 3.518919456053649e-08,
	"loss": 0.2394,
	"step": 752
	},
	{
	"epoch": 0.9659700536472096,
	"grad_norm": 0.5098798871040344,
	"learning_rate": 3.034661341025258e-08,
	"loss": 0.2581,
	"step": 754
	},
	{
	"epoch": 0.9685323084314197,
	"grad_norm": 0.49127092957496643,
	"learning_rate": 2.5861343615184997e-08,
	"loss": 0.2271,
	"step": 756
	},
	{
	"epoch": 0.9710945632156297,
	"grad_norm": 0.42872855067253113,
	"learning_rate": 2.173370766016314e-08,
	"loss": 0.2569,
	"step": 758
	},
	{
	"epoch": 0.9736568179998398,
	"grad_norm": 0.5179227590560913,
	"learning_rate": 1.7964002316628316e-08,
	"loss": 0.2569,
	"step": 760
	},
	{
	"epoch": 0.97621907278405,
	"grad_norm": 0.6316475868225098,
	"learning_rate": 1.4552498621295264e-08,
	"loss": 0.2667,
	"step": 762
	},
	{
	"epoch": 0.9787813275682601,
	"grad_norm": 0.4547966718673706,
	"learning_rate": 1.1499441856663296e-08,
	"loss": 0.2743,
	"step": 764
	},
	{
	"epoch": 0.9813435823524702,
	"grad_norm": 0.3960263431072235,
	"learning_rate": 8.805051533384846e-09,
	"loss": 0.2321,
	"step": 766
	},
	{
	"epoch": 0.9839058371366802,
	"grad_norm": 0.4860779345035553,
	"learning_rate": 6.469521374477539e-09,
	"loss": 0.2375,
	"step": 768
	},
	{
	"epoch": 0.9864680919208904,
	"grad_norm": 0.4424307346343994,
	"learning_rate": 4.493019301401447e-09,
	"loss": 0.2373,
	"step": 770
	},
	{
	"epoch": 0.9890303467051005,
	"grad_norm": 0.6010534167289734,
	"learning_rate": 2.875687421980966e-09,
	"loss": 0.2703,
	"step": 772
	},
	{
	"epoch": 0.9915926014893106,
	"grad_norm": 0.4469178318977356,
	"learning_rate": 1.6176420201902132e-09,
	"loss": 0.2426,
	"step": 774
	},
	{
	"epoch": 0.9941548562735207,
	"grad_norm": 0.3937220573425293,
	"learning_rate": 7.189735477913795e-10,
	"loss": 0.2662,
	"step": 776
	},
	{
	"epoch": 0.9967171110577308,
	"grad_norm": 0.44991588592529297,
	"learning_rate": 1.797466178327101e-10,
	"loss": 0.242,
	"step": 778
	},
	{
	"epoch": 0.9992793658419409,
	"grad_norm": 0.7540487051010132,
	"learning_rate": 0.0,
	"loss": 0.308,
	"step": 780
	},
	{
	"epoch": 0.9992793658419409,
	"step": 780,
	"total_flos": 2.0573294793064448e+18,
	"train_loss": 0.29625688539101525,
	"train_runtime": 10334.3449,
	"train_samples_per_second": 9.668,
	"train_steps_per_second": 0.075
	}
	],
	"logging_steps": 2,
	"max_steps": 780,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 400,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": true
	},
	"attributes": {}
	}
	},
	"total_flos": 2.0573294793064448e+18,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}