Upload folder using huggingface_hub

c48814e verified about 2 months ago

103 kB

	{
	"best_metric": null,
	"best_model_checkpoint": null,
	"epoch": 0.2499194847020934,
	"eval_steps": 500,
	"global_step": 582,
	"is_hyper_param_search": false,
	"is_local_process_zero": true,
	"is_world_process_zero": true,
	"log_history": [
	{
	"epoch": 0.00042941492216854533,
	"grad_norm": 0.11985349655151367,
	"learning_rate": 2e-05,
	"loss": 1.3519,
	"step": 1
	},
	{
	"epoch": 0.0008588298443370907,
	"grad_norm": 0.10720210522413254,
	"learning_rate": 4e-05,
	"loss": 1.226,
	"step": 2
	},
	{
	"epoch": 0.0012882447665056361,
	"grad_norm": 0.13469132781028748,
	"learning_rate": 6e-05,
	"loss": 1.4841,
	"step": 3
	},
	{
	"epoch": 0.0017176596886741813,
	"grad_norm": 0.1580151468515396,
	"learning_rate": 8e-05,
	"loss": 1.6834,
	"step": 4
	},
	{
	"epoch": 0.0021470746108427268,
	"grad_norm": 0.1583908349275589,
	"learning_rate": 0.0001,
	"loss": 1.5718,
	"step": 5
	},
	{
	"epoch": 0.0025764895330112722,
	"grad_norm": 0.1486492156982422,
	"learning_rate": 0.00012,
	"loss": 1.4708,
	"step": 6
	},
	{
	"epoch": 0.0030059044551798177,
	"grad_norm": 0.15314875543117523,
	"learning_rate": 0.00014,
	"loss": 1.3917,
	"step": 7
	},
	{
	"epoch": 0.0034353193773483627,
	"grad_norm": 0.1677706390619278,
	"learning_rate": 0.00016,
	"loss": 1.4053,
	"step": 8
	},
	{
	"epoch": 0.003864734299516908,
	"grad_norm": 0.17734883725643158,
	"learning_rate": 0.00018,
	"loss": 1.4917,
	"step": 9
	},
	{
	"epoch": 0.0042941492216854536,
	"grad_norm": 0.15920934081077576,
	"learning_rate": 0.0002,
	"loss": 1.369,
	"step": 10
	},
	{
	"epoch": 0.0047235641438539986,
	"grad_norm": 0.14339257776737213,
	"learning_rate": 0.00019999990815768547,
	"loss": 1.5381,
	"step": 11
	},
	{
	"epoch": 0.0051529790660225444,
	"grad_norm": 0.18288248777389526,
	"learning_rate": 0.00019999963263091051,
	"loss": 1.6338,
	"step": 12
	},
	{
	"epoch": 0.0055823939881910895,
	"grad_norm": 0.13021744787693024,
	"learning_rate": 0.00019999917342018129,
	"loss": 1.047,
	"step": 13
	},
	{
	"epoch": 0.006011808910359635,
	"grad_norm": 0.14156687259674072,
	"learning_rate": 0.00019999853052634123,
	"loss": 1.2525,
	"step": 14
	},
	{
	"epoch": 0.00644122383252818,
	"grad_norm": 0.1400100141763687,
	"learning_rate": 0.0001999977039505713,
	"loss": 1.2294,
	"step": 15
	},
	{
	"epoch": 0.006870638754696725,
	"grad_norm": 0.16356173157691956,
	"learning_rate": 0.00019999669369438975,
	"loss": 1.3664,
	"step": 16
	},
	{
	"epoch": 0.007300053676865271,
	"grad_norm": 0.17197328805923462,
	"learning_rate": 0.00019999549975965227,
	"loss": 1.3922,
	"step": 17
	},
	{
	"epoch": 0.007729468599033816,
	"grad_norm": 0.1663227528333664,
	"learning_rate": 0.00019999412214855196,
	"loss": 1.1996,
	"step": 18
	},
	{
	"epoch": 0.008158883521202361,
	"grad_norm": 0.1358145773410797,
	"learning_rate": 0.00019999256086361924,
	"loss": 0.9447,
	"step": 19
	},
	{
	"epoch": 0.008588298443370907,
	"grad_norm": 0.14678195118904114,
	"learning_rate": 0.000199990815907722,
	"loss": 1.3465,
	"step": 20
	},
	{
	"epoch": 0.009017713365539453,
	"grad_norm": 0.14393630623817444,
	"learning_rate": 0.00019998888728406543,
	"loss": 1.0345,
	"step": 21
	},
	{
	"epoch": 0.009447128287707997,
	"grad_norm": 0.1871100217103958,
	"learning_rate": 0.00019998677499619206,
	"loss": 1.1669,
	"step": 22
	},
	{
	"epoch": 0.009876543209876543,
	"grad_norm": 0.12790684401988983,
	"learning_rate": 0.00019998447904798195,
	"loss": 0.9759,
	"step": 23
	},
	{
	"epoch": 0.010305958132045089,
	"grad_norm": 0.1504671722650528,
	"learning_rate": 0.00019998199944365236,
	"loss": 1.3362,
	"step": 24
	},
	{
	"epoch": 0.010735373054213635,
	"grad_norm": 0.14933271706104279,
	"learning_rate": 0.00019997933618775787,
	"loss": 1.2592,
	"step": 25
	},
	{
	"epoch": 0.011164787976382179,
	"grad_norm": 0.1384006291627884,
	"learning_rate": 0.00019997648928519055,
	"loss": 1.0959,
	"step": 26
	},
	{
	"epoch": 0.011594202898550725,
	"grad_norm": 0.12688492238521576,
	"learning_rate": 0.00019997345874117972,
	"loss": 1.1937,
	"step": 27
	},
	{
	"epoch": 0.01202361782071927,
	"grad_norm": 0.14218132197856903,
	"learning_rate": 0.00019997024456129195,
	"loss": 1.3615,
	"step": 28
	},
	{
	"epoch": 0.012453032742887815,
	"grad_norm": 0.16093435883522034,
	"learning_rate": 0.0001999668467514313,
	"loss": 1.0413,
	"step": 29
	},
	{
	"epoch": 0.01288244766505636,
	"grad_norm": 0.14973227679729462,
	"learning_rate": 0.00019996326531783898,
	"loss": 1.0408,
	"step": 30
	},
	{
	"epoch": 0.013311862587224907,
	"grad_norm": 0.12071070075035095,
	"learning_rate": 0.00019995950026709353,
	"loss": 1.0642,
	"step": 31
	},
	{
	"epoch": 0.01374127750939345,
	"grad_norm": 0.1471056491136551,
	"learning_rate": 0.00019995555160611073,
	"loss": 1.2353,
	"step": 32
	},
	{
	"epoch": 0.014170692431561997,
	"grad_norm": 0.14476723968982697,
	"learning_rate": 0.00019995141934214372,
	"loss": 1.1288,
	"step": 33
	},
	{
	"epoch": 0.014600107353730542,
	"grad_norm": 0.1581466645002365,
	"learning_rate": 0.0001999471034827828,
	"loss": 1.2426,
	"step": 34
	},
	{
	"epoch": 0.015029522275899088,
	"grad_norm": 0.15047816932201385,
	"learning_rate": 0.0001999426040359556,
	"loss": 1.044,
	"step": 35
	},
	{
	"epoch": 0.015458937198067632,
	"grad_norm": 0.13698647916316986,
	"learning_rate": 0.00019993792100992682,
	"loss": 1.0759,
	"step": 36
	},
	{
	"epoch": 0.015888352120236177,
	"grad_norm": 0.16587479412555695,
	"learning_rate": 0.0001999330544132985,
	"loss": 1.1251,
	"step": 37
	},
	{
	"epoch": 0.016317767042404722,
	"grad_norm": 0.14546941220760345,
	"learning_rate": 0.00019992800425500988,
	"loss": 1.0911,
	"step": 38
	},
	{
	"epoch": 0.01674718196457327,
	"grad_norm": 0.137843519449234,
	"learning_rate": 0.00019992277054433727,
	"loss": 1.1183,
	"step": 39
	},
	{
	"epoch": 0.017176596886741814,
	"grad_norm": 0.14544665813446045,
	"learning_rate": 0.00019991735329089416,
	"loss": 1.1161,
	"step": 40
	},
	{
	"epoch": 0.01760601180891036,
	"grad_norm": 0.16081300377845764,
	"learning_rate": 0.00019991175250463127,
	"loss": 1.2546,
	"step": 41
	},
	{
	"epoch": 0.018035426731078906,
	"grad_norm": 0.15027405321598053,
	"learning_rate": 0.0001999059681958364,
	"loss": 1.0595,
	"step": 42
	},
	{
	"epoch": 0.018464841653247452,
	"grad_norm": 0.14687219262123108,
	"learning_rate": 0.00019990000037513437,
	"loss": 1.2931,
	"step": 43
	},
	{
	"epoch": 0.018894256575415994,
	"grad_norm": 0.1763402223587036,
	"learning_rate": 0.0001998938490534872,
	"loss": 1.4514,
	"step": 44
	},
	{
	"epoch": 0.01932367149758454,
	"grad_norm": 0.17130351066589355,
	"learning_rate": 0.00019988751424219388,
	"loss": 1.3405,
	"step": 45
	},
	{
	"epoch": 0.019753086419753086,
	"grad_norm": 0.14724081754684448,
	"learning_rate": 0.00019988099595289054,
	"loss": 0.9397,
	"step": 46
	},
	{
	"epoch": 0.020182501341921632,
	"grad_norm": 0.14184130728244781,
	"learning_rate": 0.00019987429419755022,
	"loss": 1.1355,
	"step": 47
	},
	{
	"epoch": 0.020611916264090178,
	"grad_norm": 0.1490873247385025,
	"learning_rate": 0.00019986740898848306,
	"loss": 1.1162,
	"step": 48
	},
	{
	"epoch": 0.021041331186258724,
	"grad_norm": 0.1417856514453888,
	"learning_rate": 0.00019986034033833613,
	"loss": 1.0778,
	"step": 49
	},
	{
	"epoch": 0.02147074610842727,
	"grad_norm": 0.14795203506946564,
	"learning_rate": 0.00019985308826009338,
	"loss": 1.0645,
	"step": 50
	},
	{
	"epoch": 0.021900161030595812,
	"grad_norm": 0.18487784266471863,
	"learning_rate": 0.00019984565276707583,
	"loss": 1.0634,
	"step": 51
	},
	{
	"epoch": 0.022329575952764358,
	"grad_norm": 0.15679900348186493,
	"learning_rate": 0.00019983803387294135,
	"loss": 1.2826,
	"step": 52
	},
	{
	"epoch": 0.022758990874932904,
	"grad_norm": 0.1397986263036728,
	"learning_rate": 0.00019983023159168465,
	"loss": 1.1745,
	"step": 53
	},
	{
	"epoch": 0.02318840579710145,
	"grad_norm": 0.13861894607543945,
	"learning_rate": 0.00019982224593763733,
	"loss": 0.9461,
	"step": 54
	},
	{
	"epoch": 0.023617820719269995,
	"grad_norm": 0.1317225992679596,
	"learning_rate": 0.00019981407692546777,
	"loss": 0.9315,
	"step": 55
	},
	{
	"epoch": 0.02404723564143854,
	"grad_norm": 0.1468420773744583,
	"learning_rate": 0.00019980572457018123,
	"loss": 1.2609,
	"step": 56
	},
	{
	"epoch": 0.024476650563607084,
	"grad_norm": 0.14463701844215393,
	"learning_rate": 0.0001997971888871197,
	"loss": 1.1092,
	"step": 57
	},
	{
	"epoch": 0.02490606548577563,
	"grad_norm": 0.14022503793239594,
	"learning_rate": 0.0001997884698919619,
	"loss": 0.9528,
	"step": 58
	},
	{
	"epoch": 0.025335480407944175,
	"grad_norm": 0.14202667772769928,
	"learning_rate": 0.00019977956760072334,
	"loss": 1.1813,
	"step": 59
	},
	{
	"epoch": 0.02576489533011272,
	"grad_norm": 0.1546659618616104,
	"learning_rate": 0.00019977048202975608,
	"loss": 1.348,
	"step": 60
	},
	{
	"epoch": 0.026194310252281267,
	"grad_norm": 0.1386214941740036,
	"learning_rate": 0.00019976121319574896,
	"loss": 1.1747,
	"step": 61
	},
	{
	"epoch": 0.026623725174449813,
	"grad_norm": 0.1513381004333496,
	"learning_rate": 0.00019975176111572743,
	"loss": 1.0845,
	"step": 62
	},
	{
	"epoch": 0.02705314009661836,
	"grad_norm": 0.1494988650083542,
	"learning_rate": 0.00019974212580705345,
	"loss": 1.1647,
	"step": 63
	},
	{
	"epoch": 0.0274825550187869,
	"grad_norm": 0.16360332071781158,
	"learning_rate": 0.0001997323072874256,
	"loss": 1.0523,
	"step": 64
	},
	{
	"epoch": 0.027911969940955447,
	"grad_norm": 0.17121770977973938,
	"learning_rate": 0.00019972230557487906,
	"loss": 1.3142,
	"step": 65
	},
	{
	"epoch": 0.028341384863123993,
	"grad_norm": 0.15700650215148926,
	"learning_rate": 0.0001997121206877854,
	"loss": 1.0519,
	"step": 66
	},
	{
	"epoch": 0.02877079978529254,
	"grad_norm": 0.15610812604427338,
	"learning_rate": 0.00019970175264485266,
	"loss": 1.2066,
	"step": 67
	},
	{
	"epoch": 0.029200214707461085,
	"grad_norm": 0.13125644624233246,
	"learning_rate": 0.00019969120146512542,
	"loss": 0.9134,
	"step": 68
	},
	{
	"epoch": 0.02962962962962963,
	"grad_norm": 0.16931581497192383,
	"learning_rate": 0.00019968046716798449,
	"loss": 1.0536,
	"step": 69
	},
	{
	"epoch": 0.030059044551798177,
	"grad_norm": 0.14404140412807465,
	"learning_rate": 0.00019966954977314715,
	"loss": 1.1876,
	"step": 70
	},
	{
	"epoch": 0.03048845947396672,
	"grad_norm": 0.18353833258152008,
	"learning_rate": 0.000199658449300667,
	"loss": 1.1881,
	"step": 71
	},
	{
	"epoch": 0.030917874396135265,
	"grad_norm": 0.1493215709924698,
	"learning_rate": 0.00019964716577093388,
	"loss": 1.2907,
	"step": 72
	},
	{
	"epoch": 0.031347289318303814,
	"grad_norm": 0.1731230616569519,
	"learning_rate": 0.0001996356992046739,
	"loss": 1.2771,
	"step": 73
	},
	{
	"epoch": 0.03177670424047235,
	"grad_norm": 0.15955105423927307,
	"learning_rate": 0.00019962404962294944,
	"loss": 1.1304,
	"step": 74
	},
	{
	"epoch": 0.0322061191626409,
	"grad_norm": 0.1388455629348755,
	"learning_rate": 0.00019961221704715886,
	"loss": 0.9874,
	"step": 75
	},
	{
	"epoch": 0.032635534084809445,
	"grad_norm": 0.16745209693908691,
	"learning_rate": 0.0001996002014990369,
	"loss": 1.1035,
	"step": 76
	},
	{
	"epoch": 0.03306494900697799,
	"grad_norm": 0.17726710438728333,
	"learning_rate": 0.00019958800300065425,
	"loss": 1.2322,
	"step": 77
	},
	{
	"epoch": 0.03349436392914654,
	"grad_norm": 0.16995428502559662,
	"learning_rate": 0.00019957562157441765,
	"loss": 1.2029,
	"step": 78
	},
	{
	"epoch": 0.03392377885131508,
	"grad_norm": 0.14299820363521576,
	"learning_rate": 0.00019956305724306986,
	"loss": 1.0119,
	"step": 79
	},
	{
	"epoch": 0.03435319377348363,
	"grad_norm": 0.15954792499542236,
	"learning_rate": 0.00019955031002968972,
	"loss": 1.127,
	"step": 80
	},
	{
	"epoch": 0.034782608695652174,
	"grad_norm": 0.166239395737648,
	"learning_rate": 0.00019953737995769179,
	"loss": 1.185,
	"step": 81
	},
	{
	"epoch": 0.03521202361782072,
	"grad_norm": 0.17462775111198425,
	"learning_rate": 0.0001995242670508267,
	"loss": 1.3376,
	"step": 82
	},
	{
	"epoch": 0.035641438539989266,
	"grad_norm": 0.16347193717956543,
	"learning_rate": 0.00019951097133318076,
	"loss": 1.1657,
	"step": 83
	},
	{
	"epoch": 0.03607085346215781,
	"grad_norm": 0.1850813329219818,
	"learning_rate": 0.00019949749282917626,
	"loss": 1.1724,
	"step": 84
	},
	{
	"epoch": 0.03650026838432636,
	"grad_norm": 0.16961267590522766,
	"learning_rate": 0.00019948383156357112,
	"loss": 1.1548,
	"step": 85
	},
	{
	"epoch": 0.036929683306494904,
	"grad_norm": 0.18874776363372803,
	"learning_rate": 0.0001994699875614589,
	"loss": 1.0729,
	"step": 86
	},
	{
	"epoch": 0.03735909822866344,
	"grad_norm": 0.17659211158752441,
	"learning_rate": 0.000199455960848269,
	"loss": 1.2371,
	"step": 87
	},
	{
	"epoch": 0.03778851315083199,
	"grad_norm": 0.16227173805236816,
	"learning_rate": 0.0001994417514497663,
	"loss": 1.0381,
	"step": 88
	},
	{
	"epoch": 0.038217928073000534,
	"grad_norm": 0.14537280797958374,
	"learning_rate": 0.0001994273593920513,
	"loss": 1.0392,
	"step": 89
	},
	{
	"epoch": 0.03864734299516908,
	"grad_norm": 0.1782526969909668,
	"learning_rate": 0.00019941278470155994,
	"loss": 1.1891,
	"step": 90
	},
	{
	"epoch": 0.039076757917337626,
	"grad_norm": 0.15369926393032074,
	"learning_rate": 0.00019939802740506375,
	"loss": 0.8279,
	"step": 91
	},
	{
	"epoch": 0.03950617283950617,
	"grad_norm": 0.1525738388299942,
	"learning_rate": 0.00019938308752966957,
	"loss": 1.1378,
	"step": 92
	},
	{
	"epoch": 0.03993558776167472,
	"grad_norm": 0.14440616965293884,
	"learning_rate": 0.0001993679651028197,
	"loss": 0.9707,
	"step": 93
	},
	{
	"epoch": 0.040365002683843264,
	"grad_norm": 0.1944921761751175,
	"learning_rate": 0.00019935266015229166,
	"loss": 1.2753,
	"step": 94
	},
	{
	"epoch": 0.04079441760601181,
	"grad_norm": 0.17704033851623535,
	"learning_rate": 0.00019933717270619833,
	"loss": 1.215,
	"step": 95
	},
	{
	"epoch": 0.041223832528180356,
	"grad_norm": 0.16801829636096954,
	"learning_rate": 0.00019932150279298777,
	"loss": 1.2177,
	"step": 96
	},
	{
	"epoch": 0.0416532474503489,
	"grad_norm": 0.14935865998268127,
	"learning_rate": 0.00019930565044144318,
	"loss": 1.0213,
	"step": 97
	},
	{
	"epoch": 0.04208266237251745,
	"grad_norm": 0.16046607494354248,
	"learning_rate": 0.0001992896156806829,
	"loss": 1.0529,
	"step": 98
	},
	{
	"epoch": 0.04251207729468599,
	"grad_norm": 0.16249270737171173,
	"learning_rate": 0.00019927339854016037,
	"loss": 1.0861,
	"step": 99
	},
	{
	"epoch": 0.04294149221685454,
	"grad_norm": 0.16730612516403198,
	"learning_rate": 0.0001992569990496639,
	"loss": 0.9681,
	"step": 100
	},
	{
	"epoch": 0.04337090713902308,
	"grad_norm": 0.17123740911483765,
	"learning_rate": 0.00019924041723931688,
	"loss": 0.9648,
	"step": 101
	},
	{
	"epoch": 0.043800322061191624,
	"grad_norm": 0.15978355705738068,
	"learning_rate": 0.00019922365313957752,
	"loss": 1.0962,
	"step": 102
	},
	{
	"epoch": 0.04422973698336017,
	"grad_norm": 0.18542608618736267,
	"learning_rate": 0.00019920670678123893,
	"loss": 1.1831,
	"step": 103
	},
	{
	"epoch": 0.044659151905528716,
	"grad_norm": 0.17981840670108795,
	"learning_rate": 0.00019918957819542893,
	"loss": 1.2029,
	"step": 104
	},
	{
	"epoch": 0.04508856682769726,
	"grad_norm": 0.16533541679382324,
	"learning_rate": 0.00019917226741361015,
	"loss": 1.2239,
	"step": 105
	},
	{
	"epoch": 0.04551798174986581,
	"grad_norm": 0.1770992875099182,
	"learning_rate": 0.0001991547744675798,
	"loss": 1.103,
	"step": 106
	},
	{
	"epoch": 0.04594739667203435,
	"grad_norm": 0.15934127569198608,
	"learning_rate": 0.00019913709938946972,
	"loss": 0.9117,
	"step": 107
	},
	{
	"epoch": 0.0463768115942029,
	"grad_norm": 0.1818443238735199,
	"learning_rate": 0.00019911924221174636,
	"loss": 1.149,
	"step": 108
	},
	{
	"epoch": 0.046806226516371445,
	"grad_norm": 0.17105095088481903,
	"learning_rate": 0.00019910120296721053,
	"loss": 1.3834,
	"step": 109
	},
	{
	"epoch": 0.04723564143853999,
	"grad_norm": 0.1493517905473709,
	"learning_rate": 0.00019908298168899765,
	"loss": 0.9976,
	"step": 110
	},
	{
	"epoch": 0.04766505636070854,
	"grad_norm": 0.17170068621635437,
	"learning_rate": 0.00019906457841057732,
	"loss": 1.0791,
	"step": 111
	},
	{
	"epoch": 0.04809447128287708,
	"grad_norm": 0.17287380993366241,
	"learning_rate": 0.00019904599316575357,
	"loss": 1.108,
	"step": 112
	},
	{
	"epoch": 0.04852388620504563,
	"grad_norm": 0.15946826338768005,
	"learning_rate": 0.00019902722598866466,
	"loss": 1.0462,
	"step": 113
	},
	{
	"epoch": 0.04895330112721417,
	"grad_norm": 0.18682260811328888,
	"learning_rate": 0.00019900827691378298,
	"loss": 1.0757,
	"step": 114
	},
	{
	"epoch": 0.04938271604938271,
	"grad_norm": 0.15951935946941376,
	"learning_rate": 0.00019898914597591506,
	"loss": 1.3103,
	"step": 115
	},
	{
	"epoch": 0.04981213097155126,
	"grad_norm": 0.16503126919269562,
	"learning_rate": 0.0001989698332102015,
	"loss": 1.1521,
	"step": 116
	},
	{
	"epoch": 0.050241545893719805,
	"grad_norm": 0.15713706612586975,
	"learning_rate": 0.0001989503386521169,
	"loss": 1.2906,
	"step": 117
	},
	{
	"epoch": 0.05067096081588835,
	"grad_norm": 0.1533653736114502,
	"learning_rate": 0.00019893066233746978,
	"loss": 1.0389,
	"step": 118
	},
	{
	"epoch": 0.0511003757380569,
	"grad_norm": 0.16496874392032623,
	"learning_rate": 0.0001989108043024025,
	"loss": 1.2676,
	"step": 119
	},
	{
	"epoch": 0.05152979066022544,
	"grad_norm": 0.14784802496433258,
	"learning_rate": 0.00019889076458339116,
	"loss": 0.9091,
	"step": 120
	},
	{
	"epoch": 0.05195920558239399,
	"grad_norm": 0.1391952782869339,
	"learning_rate": 0.00019887054321724565,
	"loss": 0.7391,
	"step": 121
	},
	{
	"epoch": 0.052388620504562534,
	"grad_norm": 0.16542598605155945,
	"learning_rate": 0.0001988501402411096,
	"loss": 1.26,
	"step": 122
	},
	{
	"epoch": 0.05281803542673108,
	"grad_norm": 0.1864759474992752,
	"learning_rate": 0.00019882955569246007,
	"loss": 1.1248,
	"step": 123
	},
	{
	"epoch": 0.053247450348899626,
	"grad_norm": 0.19127963483333588,
	"learning_rate": 0.00019880878960910772,
	"loss": 1.2209,
	"step": 124
	},
	{
	"epoch": 0.05367686527106817,
	"grad_norm": 0.18262384831905365,
	"learning_rate": 0.00019878784202919666,
	"loss": 1.2114,
	"step": 125
	},
	{
	"epoch": 0.05410628019323672,
	"grad_norm": 0.16955001652240753,
	"learning_rate": 0.0001987667129912044,
	"loss": 1.133,
	"step": 126
	},
	{
	"epoch": 0.05453569511540526,
	"grad_norm": 0.17882367968559265,
	"learning_rate": 0.00019874540253394168,
	"loss": 1.3044,
	"step": 127
	},
	{
	"epoch": 0.0549651100375738,
	"grad_norm": 0.20200395584106445,
	"learning_rate": 0.00019872391069655258,
	"loss": 1.1933,
	"step": 128
	},
	{
	"epoch": 0.05539452495974235,
	"grad_norm": 0.17120778560638428,
	"learning_rate": 0.00019870223751851428,
	"loss": 1.0102,
	"step": 129
	},
	{
	"epoch": 0.055823939881910895,
	"grad_norm": 0.19138963520526886,
	"learning_rate": 0.0001986803830396371,
	"loss": 1.4741,
	"step": 130
	},
	{
	"epoch": 0.05625335480407944,
	"grad_norm": 0.181193545460701,
	"learning_rate": 0.00019865834730006433,
	"loss": 1.1563,
	"step": 131
	},
	{
	"epoch": 0.056682769726247986,
	"grad_norm": 0.16531504690647125,
	"learning_rate": 0.00019863613034027224,
	"loss": 1.1427,
	"step": 132
	},
	{
	"epoch": 0.05711218464841653,
	"grad_norm": 0.1994440257549286,
	"learning_rate": 0.00019861373220106997,
	"loss": 1.3541,
	"step": 133
	},
	{
	"epoch": 0.05754159957058508,
	"grad_norm": 0.18033157289028168,
	"learning_rate": 0.0001985911529235995,
	"loss": 0.9477,
	"step": 134
	},
	{
	"epoch": 0.057971014492753624,
	"grad_norm": 0.17404161393642426,
	"learning_rate": 0.00019856839254933544,
	"loss": 1.1277,
	"step": 135
	},
	{
	"epoch": 0.05840042941492217,
	"grad_norm": 0.17261551320552826,
	"learning_rate": 0.00019854545112008514,
	"loss": 1.2953,
	"step": 136
	},
	{
	"epoch": 0.058829844337090716,
	"grad_norm": 0.1669391393661499,
	"learning_rate": 0.00019852232867798844,
	"loss": 1.2108,
	"step": 137
	},
	{
	"epoch": 0.05925925925925926,
	"grad_norm": 0.1854487657546997,
	"learning_rate": 0.00019849902526551772,
	"loss": 1.5342,
	"step": 138
	},
	{
	"epoch": 0.05968867418142781,
	"grad_norm": 0.18810135126113892,
	"learning_rate": 0.0001984755409254778,
	"loss": 1.0847,
	"step": 139
	},
	{
	"epoch": 0.06011808910359635,
	"grad_norm": 0.15636786818504333,
	"learning_rate": 0.00019845187570100573,
	"loss": 1.1426,
	"step": 140
	},
	{
	"epoch": 0.06054750402576489,
	"grad_norm": 0.15283016860485077,
	"learning_rate": 0.000198428029635571,
	"loss": 0.9389,
	"step": 141
	},
	{
	"epoch": 0.06097691894793344,
	"grad_norm": 0.1785784810781479,
	"learning_rate": 0.00019840400277297508,
	"loss": 0.8145,
	"step": 142
	},
	{
	"epoch": 0.061406333870101984,
	"grad_norm": 0.19488206505775452,
	"learning_rate": 0.00019837979515735166,
	"loss": 1.1245,
	"step": 143
	},
	{
	"epoch": 0.06183574879227053,
	"grad_norm": 0.1749604046344757,
	"learning_rate": 0.00019835540683316638,
	"loss": 1.0823,
	"step": 144
	},
	{
	"epoch": 0.062265163714439076,
	"grad_norm": 0.14947979152202606,
	"learning_rate": 0.00019833083784521688,
	"loss": 0.9827,
	"step": 145
	},
	{
	"epoch": 0.06269457863660763,
	"grad_norm": 0.18214192986488342,
	"learning_rate": 0.00019830608823863258,
	"loss": 1.1311,
	"step": 146
	},
	{
	"epoch": 0.06312399355877617,
	"grad_norm": 0.15751980245113373,
	"learning_rate": 0.0001982811580588747,
	"loss": 1.126,
	"step": 147
	},
	{
	"epoch": 0.0635534084809447,
	"grad_norm": 0.17060008645057678,
	"learning_rate": 0.0001982560473517362,
	"loss": 1.0999,
	"step": 148
	},
	{
	"epoch": 0.06398282340311326,
	"grad_norm": 0.15626037120819092,
	"learning_rate": 0.00019823075616334155,
	"loss": 1.1292,
	"step": 149
	},
	{
	"epoch": 0.0644122383252818,
	"grad_norm": 0.17362122237682343,
	"learning_rate": 0.00019820528454014678,
	"loss": 1.0831,
	"step": 150
	},
	{
	"epoch": 0.06484165324745035,
	"grad_norm": 0.17661671340465546,
	"learning_rate": 0.00019817963252893934,
	"loss": 1.0467,
	"step": 151
	},
	{
	"epoch": 0.06527106816961889,
	"grad_norm": 0.1770239919424057,
	"learning_rate": 0.00019815380017683805,
	"loss": 1.3296,
	"step": 152
	},
	{
	"epoch": 0.06570048309178744,
	"grad_norm": 0.1600884646177292,
	"learning_rate": 0.00019812778753129295,
	"loss": 1.1975,
	"step": 153
	},
	{
	"epoch": 0.06612989801395598,
	"grad_norm": 0.14404766261577606,
	"learning_rate": 0.0001981015946400853,
	"loss": 1.0152,
	"step": 154
	},
	{
	"epoch": 0.06655931293612453,
	"grad_norm": 0.15787601470947266,
	"learning_rate": 0.0001980752215513274,
	"loss": 0.8621,
	"step": 155
	},
	{
	"epoch": 0.06698872785829307,
	"grad_norm": 0.16410237550735474,
	"learning_rate": 0.00019804866831346253,
	"loss": 1.1043,
	"step": 156
	},
	{
	"epoch": 0.06741814278046163,
	"grad_norm": 0.14886626601219177,
	"learning_rate": 0.00019802193497526496,
	"loss": 1.0065,
	"step": 157
	},
	{
	"epoch": 0.06784755770263017,
	"grad_norm": 0.18639588356018066,
	"learning_rate": 0.00019799502158583966,
	"loss": 1.1146,
	"step": 158
	},
	{
	"epoch": 0.06827697262479872,
	"grad_norm": 0.1470535844564438,
	"learning_rate": 0.00019796792819462246,
	"loss": 0.9775,
	"step": 159
	},
	{
	"epoch": 0.06870638754696726,
	"grad_norm": 0.177282452583313,
	"learning_rate": 0.0001979406548513797,
	"loss": 1.316,
	"step": 160
	},
	{
	"epoch": 0.0691358024691358,
	"grad_norm": 0.17426224052906036,
	"learning_rate": 0.00019791320160620837,
	"loss": 1.2854,
	"step": 161
	},
	{
	"epoch": 0.06956521739130435,
	"grad_norm": 0.16735795140266418,
	"learning_rate": 0.0001978855685095358,
	"loss": 1.2184,
	"step": 162
	},
	{
	"epoch": 0.06999463231347289,
	"grad_norm": 0.18738149106502533,
	"learning_rate": 0.00019785775561211976,
	"loss": 1.1342,
	"step": 163
	},
	{
	"epoch": 0.07042404723564144,
	"grad_norm": 0.17026057839393616,
	"learning_rate": 0.00019782976296504835,
	"loss": 1.0973,
	"step": 164
	},
	{
	"epoch": 0.07085346215780998,
	"grad_norm": 0.14129336178302765,
	"learning_rate": 0.00019780159061973964,
	"loss": 0.8889,
	"step": 165
	},
	{
	"epoch": 0.07128287707997853,
	"grad_norm": 0.19238591194152832,
	"learning_rate": 0.00019777323862794192,
	"loss": 1.0827,
	"step": 166
	},
	{
	"epoch": 0.07171229200214707,
	"grad_norm": 0.17041011154651642,
	"learning_rate": 0.00019774470704173353,
	"loss": 1.2057,
	"step": 167
	},
	{
	"epoch": 0.07214170692431562,
	"grad_norm": 0.18856163322925568,
	"learning_rate": 0.00019771599591352252,
	"loss": 1.1693,
	"step": 168
	},
	{
	"epoch": 0.07257112184648416,
	"grad_norm": 0.17438524961471558,
	"learning_rate": 0.00019768710529604686,
	"loss": 1.1714,
	"step": 169
	},
	{
	"epoch": 0.07300053676865272,
	"grad_norm": 0.17283211648464203,
	"learning_rate": 0.00019765803524237417,
	"loss": 1.34,
	"step": 170
	},
	{
	"epoch": 0.07342995169082125,
	"grad_norm": 0.15461453795433044,
	"learning_rate": 0.00019762878580590162,
	"loss": 1.1,
	"step": 171
	},
	{
	"epoch": 0.07385936661298981,
	"grad_norm": 0.1745782196521759,
	"learning_rate": 0.00019759935704035598,
	"loss": 1.1485,
	"step": 172
	},
	{
	"epoch": 0.07428878153515835,
	"grad_norm": 0.19017790257930756,
	"learning_rate": 0.0001975697489997934,
	"loss": 1.2036,
	"step": 173
	},
	{
	"epoch": 0.07471819645732689,
	"grad_norm": 0.14983102679252625,
	"learning_rate": 0.0001975399617385992,
	"loss": 0.9465,
	"step": 174
	},
	{
	"epoch": 0.07514761137949544,
	"grad_norm": 0.1556852161884308,
	"learning_rate": 0.0001975099953114881,
	"loss": 0.941,
	"step": 175
	},
	{
	"epoch": 0.07557702630166398,
	"grad_norm": 0.1680162101984024,
	"learning_rate": 0.00019747984977350379,
	"loss": 1.2423,
	"step": 176
	},
	{
	"epoch": 0.07600644122383253,
	"grad_norm": 0.17990583181381226,
	"learning_rate": 0.00019744952518001893,
	"loss": 1.0285,
	"step": 177
	},
	{
	"epoch": 0.07643585614600107,
	"grad_norm": 0.18733762204647064,
	"learning_rate": 0.00019741902158673522,
	"loss": 1.3571,
	"step": 178
	},
	{
	"epoch": 0.07686527106816962,
	"grad_norm": 0.14356885850429535,
	"learning_rate": 0.00019738833904968302,
	"loss": 0.8155,
	"step": 179
	},
	{
	"epoch": 0.07729468599033816,
	"grad_norm": 0.19046086072921753,
	"learning_rate": 0.00019735747762522147,
	"loss": 1.0226,
	"step": 180
	},
	{
	"epoch": 0.07772410091250671,
	"grad_norm": 0.14588217437267303,
	"learning_rate": 0.00019732643737003827,
	"loss": 0.8774,
	"step": 181
	},
	{
	"epoch": 0.07815351583467525,
	"grad_norm": 0.16085247695446014,
	"learning_rate": 0.00019729521834114952,
	"loss": 1.1483,
	"step": 182
	},
	{
	"epoch": 0.0785829307568438,
	"grad_norm": 0.1786722093820572,
	"learning_rate": 0.00019726382059589986,
	"loss": 1.0986,
	"step": 183
	},
	{
	"epoch": 0.07901234567901234,
	"grad_norm": 0.1842159777879715,
	"learning_rate": 0.0001972322441919621,
	"loss": 1.1254,
	"step": 184
	},
	{
	"epoch": 0.0794417606011809,
	"grad_norm": 0.1684993952512741,
	"learning_rate": 0.00019720048918733723,
	"loss": 0.9512,
	"step": 185
	},
	{
	"epoch": 0.07987117552334944,
	"grad_norm": 0.18039727210998535,
	"learning_rate": 0.0001971685556403543,
	"loss": 1.2037,
	"step": 186
	},
	{
	"epoch": 0.08030059044551799,
	"grad_norm": 0.16253158450126648,
	"learning_rate": 0.0001971364436096703,
	"loss": 1.1042,
	"step": 187
	},
	{
	"epoch": 0.08073000536768653,
	"grad_norm": 0.17348501086235046,
	"learning_rate": 0.00019710415315427022,
	"loss": 1.0384,
	"step": 188
	},
	{
	"epoch": 0.08115942028985507,
	"grad_norm": 0.19116544723510742,
	"learning_rate": 0.00019707168433346655,
	"loss": 1.1186,
	"step": 189
	},
	{
	"epoch": 0.08158883521202362,
	"grad_norm": 0.17228098213672638,
	"learning_rate": 0.00019703903720689954,
	"loss": 1.0421,
	"step": 190
	},
	{
	"epoch": 0.08201825013419216,
	"grad_norm": 0.15176887810230255,
	"learning_rate": 0.00019700621183453695,
	"loss": 1.1865,
	"step": 191
	},
	{
	"epoch": 0.08244766505636071,
	"grad_norm": 0.16815736889839172,
	"learning_rate": 0.00019697320827667398,
	"loss": 1.3136,
	"step": 192
	},
	{
	"epoch": 0.08287707997852925,
	"grad_norm": 0.18581236898899078,
	"learning_rate": 0.00019694002659393305,
	"loss": 1.2243,
	"step": 193
	},
	{
	"epoch": 0.0833064949006978,
	"grad_norm": 0.19139103591442108,
	"learning_rate": 0.00019690666684726382,
	"loss": 1.1882,
	"step": 194
	},
	{
	"epoch": 0.08373590982286634,
	"grad_norm": 0.15718159079551697,
	"learning_rate": 0.00019687312909794305,
	"loss": 1.0329,
	"step": 195
	},
	{
	"epoch": 0.0841653247450349,
	"grad_norm": 0.1583366096019745,
	"learning_rate": 0.00019683941340757434,
	"loss": 0.9521,
	"step": 196
	},
	{
	"epoch": 0.08459473966720343,
	"grad_norm": 0.17986145615577698,
	"learning_rate": 0.00019680551983808836,
	"loss": 1.3057,
	"step": 197
	},
	{
	"epoch": 0.08502415458937199,
	"grad_norm": 0.14667508006095886,
	"learning_rate": 0.00019677144845174226,
	"loss": 1.204,
	"step": 198
	},
	{
	"epoch": 0.08545356951154053,
	"grad_norm": 0.16105642914772034,
	"learning_rate": 0.00019673719931112004,
	"loss": 1.2272,
	"step": 199
	},
	{
	"epoch": 0.08588298443370908,
	"grad_norm": 0.17806339263916016,
	"learning_rate": 0.00019670277247913205,
	"loss": 0.9928,
	"step": 200
	},
	{
	"epoch": 0.08631239935587762,
	"grad_norm": 0.15053167939186096,
	"learning_rate": 0.0001966681680190151,
	"loss": 0.8566,
	"step": 201
	},
	{
	"epoch": 0.08674181427804616,
	"grad_norm": 0.13740143179893494,
	"learning_rate": 0.00019663338599433227,
	"loss": 0.7979,
	"step": 202
	},
	{
	"epoch": 0.08717122920021471,
	"grad_norm": 0.17480605840682983,
	"learning_rate": 0.00019659842646897282,
	"loss": 0.9794,
	"step": 203
	},
	{
	"epoch": 0.08760064412238325,
	"grad_norm": 0.192199245095253,
	"learning_rate": 0.00019656328950715194,
	"loss": 1.2525,
	"step": 204
	},
	{
	"epoch": 0.0880300590445518,
	"grad_norm": 0.18914753198623657,
	"learning_rate": 0.00019652797517341096,
	"loss": 1.2156,
	"step": 205
	},
	{
	"epoch": 0.08845947396672034,
	"grad_norm": 0.19193218648433685,
	"learning_rate": 0.00019649248353261674,
	"loss": 1.385,
	"step": 206
	},
	{
	"epoch": 0.08888888888888889,
	"grad_norm": 0.19617465138435364,
	"learning_rate": 0.00019645681464996206,
	"loss": 1.2991,
	"step": 207
	},
	{
	"epoch": 0.08931830381105743,
	"grad_norm": 0.16679921746253967,
	"learning_rate": 0.00019642096859096516,
	"loss": 1.0183,
	"step": 208
	},
	{
	"epoch": 0.08974771873322598,
	"grad_norm": 0.1839999556541443,
	"learning_rate": 0.00019638494542146973,
	"loss": 1.2098,
	"step": 209
	},
	{
	"epoch": 0.09017713365539452,
	"grad_norm": 0.17847347259521484,
	"learning_rate": 0.0001963487452076448,
	"loss": 1.1791,
	"step": 210
	},
	{
	"epoch": 0.09060654857756308,
	"grad_norm": 0.1537715196609497,
	"learning_rate": 0.00019631236801598458,
	"loss": 1.307,
	"step": 211
	},
	{
	"epoch": 0.09103596349973161,
	"grad_norm": 0.16377565264701843,
	"learning_rate": 0.0001962758139133084,
	"loss": 0.9766,
	"step": 212
	},
	{
	"epoch": 0.09146537842190017,
	"grad_norm": 0.1567695438861847,
	"learning_rate": 0.0001962390829667605,
	"loss": 1.1082,
	"step": 213
	},
	{
	"epoch": 0.0918947933440687,
	"grad_norm": 0.14198783040046692,
	"learning_rate": 0.00019620217524381005,
	"loss": 1.0773,
	"step": 214
	},
	{
	"epoch": 0.09232420826623725,
	"grad_norm": 0.16413229703903198,
	"learning_rate": 0.0001961650908122508,
	"loss": 1.1947,
	"step": 215
	},
	{
	"epoch": 0.0927536231884058,
	"grad_norm": 0.15348884463310242,
	"learning_rate": 0.00019612782974020118,
	"loss": 0.7186,
	"step": 216
	},
	{
	"epoch": 0.09318303811057434,
	"grad_norm": 0.1820840686559677,
	"learning_rate": 0.00019609039209610404,
	"loss": 1.0661,
	"step": 217
	},
	{
	"epoch": 0.09361245303274289,
	"grad_norm": 0.1551450490951538,
	"learning_rate": 0.00019605277794872657,
	"loss": 0.8472,
	"step": 218
	},
	{
	"epoch": 0.09404186795491143,
	"grad_norm": 0.19438843429088593,
	"learning_rate": 0.00019601498736716017,
	"loss": 1.2454,
	"step": 219
	},
	{
	"epoch": 0.09447128287707998,
	"grad_norm": 0.16173028945922852,
	"learning_rate": 0.00019597702042082037,
	"loss": 0.8713,
	"step": 220
	},
	{
	"epoch": 0.09490069779924852,
	"grad_norm": 0.18918974697589874,
	"learning_rate": 0.00019593887717944659,
	"loss": 1.2559,
	"step": 221
	},
	{
	"epoch": 0.09533011272141707,
	"grad_norm": 0.1581108570098877,
	"learning_rate": 0.00019590055771310212,
	"loss": 0.7194,
	"step": 222
	},
	{
	"epoch": 0.09575952764358561,
	"grad_norm": 0.13984139263629913,
	"learning_rate": 0.0001958620620921739,
	"loss": 0.7027,
	"step": 223
	},
	{
	"epoch": 0.09618894256575417,
	"grad_norm": 0.1842825710773468,
	"learning_rate": 0.00019582339038737247,
	"loss": 1.2838,
	"step": 224
	},
	{
	"epoch": 0.0966183574879227,
	"grad_norm": 0.16079159080982208,
	"learning_rate": 0.00019578454266973183,
	"loss": 1.0553,
	"step": 225
	},
	{
	"epoch": 0.09704777241009126,
	"grad_norm": 0.16030196845531464,
	"learning_rate": 0.00019574551901060922,
	"loss": 1.0496,
	"step": 226
	},
	{
	"epoch": 0.0974771873322598,
	"grad_norm": 0.16699260473251343,
	"learning_rate": 0.0001957063194816852,
	"loss": 1.3505,
	"step": 227
	},
	{
	"epoch": 0.09790660225442833,
	"grad_norm": 0.1571999043226242,
	"learning_rate": 0.00019566694415496316,
	"loss": 1.2156,
	"step": 228
	},
	{
	"epoch": 0.09833601717659689,
	"grad_norm": 0.15415778756141663,
	"learning_rate": 0.0001956273931027696,
	"loss": 1.0225,
	"step": 229
	},
	{
	"epoch": 0.09876543209876543,
	"grad_norm": 0.16700062155723572,
	"learning_rate": 0.0001955876663977537,
	"loss": 1.0049,
	"step": 230
	},
	{
	"epoch": 0.09919484702093398,
	"grad_norm": 0.16353946924209595,
	"learning_rate": 0.00019554776411288732,
	"loss": 1.2387,
	"step": 231
	},
	{
	"epoch": 0.09962426194310252,
	"grad_norm": 0.16290371119976044,
	"learning_rate": 0.00019550768632146484,
	"loss": 1.044,
	"step": 232
	},
	{
	"epoch": 0.10005367686527107,
	"grad_norm": 0.15819229185581207,
	"learning_rate": 0.00019546743309710297,
	"loss": 1.13,
	"step": 233
	},
	{
	"epoch": 0.10048309178743961,
	"grad_norm": 0.18955904245376587,
	"learning_rate": 0.00019542700451374067,
	"loss": 1.1663,
	"step": 234
	},
	{
	"epoch": 0.10091250670960816,
	"grad_norm": 0.14698690176010132,
	"learning_rate": 0.0001953864006456391,
	"loss": 1.1295,
	"step": 235
	},
	{
	"epoch": 0.1013419216317767,
	"grad_norm": 0.1734054684638977,
	"learning_rate": 0.00019534562156738129,
	"loss": 0.8559,
	"step": 236
	},
	{
	"epoch": 0.10177133655394525,
	"grad_norm": 0.16847679018974304,
	"learning_rate": 0.00019530466735387213,
	"loss": 1.0313,
	"step": 237
	},
	{
	"epoch": 0.1022007514761138,
	"grad_norm": 0.1666480153799057,
	"learning_rate": 0.00019526353808033825,
	"loss": 1.0825,
	"step": 238
	},
	{
	"epoch": 0.10263016639828235,
	"grad_norm": 0.14294366538524628,
	"learning_rate": 0.0001952222338223278,
	"loss": 0.9846,
	"step": 239
	},
	{
	"epoch": 0.10305958132045089,
	"grad_norm": 0.1204523891210556,
	"learning_rate": 0.00019518075465571028,
	"loss": 0.9862,
	"step": 240
	},
	{
	"epoch": 0.10348899624261942,
	"grad_norm": 0.14956791698932648,
	"learning_rate": 0.00019513910065667664,
	"loss": 1.0975,
	"step": 241
	},
	{
	"epoch": 0.10391841116478798,
	"grad_norm": 0.16827872395515442,
	"learning_rate": 0.00019509727190173884,
	"loss": 1.3116,
	"step": 242
	},
	{
	"epoch": 0.10434782608695652,
	"grad_norm": 0.16410714387893677,
	"learning_rate": 0.00019505526846772984,
	"loss": 0.9231,
	"step": 243
	},
	{
	"epoch": 0.10477724100912507,
	"grad_norm": 0.19388873875141144,
	"learning_rate": 0.00019501309043180352,
	"loss": 1.0604,
	"step": 244
	},
	{
	"epoch": 0.10520665593129361,
	"grad_norm": 0.17403458058834076,
	"learning_rate": 0.00019497073787143446,
	"loss": 1.0757,
	"step": 245
	},
	{
	"epoch": 0.10563607085346216,
	"grad_norm": 0.1442354917526245,
	"learning_rate": 0.0001949282108644178,
	"loss": 0.6964,
	"step": 246
	},
	{
	"epoch": 0.1060654857756307,
	"grad_norm": 0.1477101892232895,
	"learning_rate": 0.0001948855094888691,
	"loss": 1.2497,
	"step": 247
	},
	{
	"epoch": 0.10649490069779925,
	"grad_norm": 0.1691221445798874,
	"learning_rate": 0.0001948426338232242,
	"loss": 1.1567,
	"step": 248
	},
	{
	"epoch": 0.10692431561996779,
	"grad_norm": 0.16259369254112244,
	"learning_rate": 0.00019479958394623913,
	"loss": 0.9878,
	"step": 249
	},
	{
	"epoch": 0.10735373054213634,
	"grad_norm": 0.17605777084827423,
	"learning_rate": 0.00019475635993698994,
	"loss": 1.0964,
	"step": 250
	},
	{
	"epoch": 0.10778314546430488,
	"grad_norm": 0.17357371747493744,
	"learning_rate": 0.0001947129618748724,
	"loss": 1.0984,
	"step": 251
	},
	{
	"epoch": 0.10821256038647344,
	"grad_norm": 0.16604338586330414,
	"learning_rate": 0.00019466938983960218,
	"loss": 1.2584,
	"step": 252
	},
	{
	"epoch": 0.10864197530864197,
	"grad_norm": 0.15120381116867065,
	"learning_rate": 0.00019462564391121436,
	"loss": 0.7606,
	"step": 253
	},
	{
	"epoch": 0.10907139023081051,
	"grad_norm": 0.18790557980537415,
	"learning_rate": 0.00019458172417006347,
	"loss": 1.1506,
	"step": 254
	},
	{
	"epoch": 0.10950080515297907,
	"grad_norm": 0.17807306349277496,
	"learning_rate": 0.00019453763069682335,
	"loss": 1.1895,
	"step": 255
	},
	{
	"epoch": 0.1099302200751476,
	"grad_norm": 0.18234007060527802,
	"learning_rate": 0.00019449336357248696,
	"loss": 1.1112,
	"step": 256
	},
	{
	"epoch": 0.11035963499731616,
	"grad_norm": 0.1744687557220459,
	"learning_rate": 0.00019444892287836613,
	"loss": 1.042,
	"step": 257
	},
	{
	"epoch": 0.1107890499194847,
	"grad_norm": 0.15671797096729279,
	"learning_rate": 0.00019440430869609166,
	"loss": 1.1334,
	"step": 258
	},
	{
	"epoch": 0.11121846484165325,
	"grad_norm": 0.17378878593444824,
	"learning_rate": 0.00019435952110761289,
	"loss": 1.1142,
	"step": 259
	},
	{
	"epoch": 0.11164787976382179,
	"grad_norm": 0.17875009775161743,
	"learning_rate": 0.00019431456019519775,
	"loss": 1.0393,
	"step": 260
	},
	{
	"epoch": 0.11207729468599034,
	"grad_norm": 0.15020230412483215,
	"learning_rate": 0.00019426942604143253,
	"loss": 1.2424,
	"step": 261
	},
	{
	"epoch": 0.11250670960815888,
	"grad_norm": 0.17647111415863037,
	"learning_rate": 0.00019422411872922171,
	"loss": 1.1036,
	"step": 262
	},
	{
	"epoch": 0.11293612453032743,
	"grad_norm": 0.1858074814081192,
	"learning_rate": 0.00019417863834178794,
	"loss": 1.1087,
	"step": 263
	},
	{
	"epoch": 0.11336553945249597,
	"grad_norm": 0.18380528688430786,
	"learning_rate": 0.0001941329849626716,
	"loss": 1.1344,
	"step": 264
	},
	{
	"epoch": 0.11379495437466453,
	"grad_norm": 0.1671726554632187,
	"learning_rate": 0.000194087158675731,
	"loss": 0.8795,
	"step": 265
	},
	{
	"epoch": 0.11422436929683306,
	"grad_norm": 0.17651990056037903,
	"learning_rate": 0.00019404115956514194,
	"loss": 1.1036,
	"step": 266
	},
	{
	"epoch": 0.11465378421900162,
	"grad_norm": 0.17102883756160736,
	"learning_rate": 0.00019399498771539774,
	"loss": 1.0949,
	"step": 267
	},
	{
	"epoch": 0.11508319914117016,
	"grad_norm": 0.18060144782066345,
	"learning_rate": 0.000193948643211309,
	"loss": 1.1315,
	"step": 268
	},
	{
	"epoch": 0.1155126140633387,
	"grad_norm": 0.15454426407814026,
	"learning_rate": 0.0001939021261380034,
	"loss": 1.057,
	"step": 269
	},
	{
	"epoch": 0.11594202898550725,
	"grad_norm": 0.14077837765216827,
	"learning_rate": 0.0001938554365809257,
	"loss": 0.8064,
	"step": 270
	},
	{
	"epoch": 0.11637144390767579,
	"grad_norm": 0.17142775654792786,
	"learning_rate": 0.00019380857462583743,
	"loss": 1.156,
	"step": 271
	},
	{
	"epoch": 0.11680085882984434,
	"grad_norm": 0.1670989692211151,
	"learning_rate": 0.0001937615403588168,
	"loss": 0.9589,
	"step": 272
	},
	{
	"epoch": 0.11723027375201288,
	"grad_norm": 0.19140732288360596,
	"learning_rate": 0.00019371433386625856,
	"loss": 0.9871,
	"step": 273
	},
	{
	"epoch": 0.11765968867418143,
	"grad_norm": 0.18820329010486603,
	"learning_rate": 0.00019366695523487368,
	"loss": 1.0285,
	"step": 274
	},
	{
	"epoch": 0.11808910359634997,
	"grad_norm": 0.17042939364910126,
	"learning_rate": 0.00019361940455168956,
	"loss": 1.0943,
	"step": 275
	},
	{
	"epoch": 0.11851851851851852,
	"grad_norm": 0.16640831530094147,
	"learning_rate": 0.00019357168190404936,
	"loss": 1.1504,
	"step": 276
	},
	{
	"epoch": 0.11894793344068706,
	"grad_norm": 0.16726379096508026,
	"learning_rate": 0.00019352378737961235,
	"loss": 1.3996,
	"step": 277
	},
	{
	"epoch": 0.11937734836285561,
	"grad_norm": 0.1757480800151825,
	"learning_rate": 0.00019347572106635335,
	"loss": 1.1903,
	"step": 278
	},
	{
	"epoch": 0.11980676328502415,
	"grad_norm": 0.1531904935836792,
	"learning_rate": 0.00019342748305256285,
	"loss": 1.0287,
	"step": 279
	},
	{
	"epoch": 0.1202361782071927,
	"grad_norm": 0.19600524008274078,
	"learning_rate": 0.0001933790734268466,
	"loss": 1.1248,
	"step": 280
	},
	{
	"epoch": 0.12066559312936125,
	"grad_norm": 0.1654789000749588,
	"learning_rate": 0.0001933304922781257,
	"loss": 1.2959,
	"step": 281
	},
	{
	"epoch": 0.12109500805152978,
	"grad_norm": 0.16465742886066437,
	"learning_rate": 0.0001932817396956362,
	"loss": 0.9625,
	"step": 282
	},
	{
	"epoch": 0.12152442297369834,
	"grad_norm": 0.16723015904426575,
	"learning_rate": 0.00019323281576892916,
	"loss": 1.034,
	"step": 283
	},
	{
	"epoch": 0.12195383789586688,
	"grad_norm": 0.15436948835849762,
	"learning_rate": 0.00019318372058787025,
	"loss": 1.085,
	"step": 284
	},
	{
	"epoch": 0.12238325281803543,
	"grad_norm": 0.17568649351596832,
	"learning_rate": 0.00019313445424263978,
	"loss": 1.1922,
	"step": 285
	},
	{
	"epoch": 0.12281266774020397,
	"grad_norm": 0.15134669840335846,
	"learning_rate": 0.0001930850168237325,
	"loss": 1.1783,
	"step": 286
	},
	{
	"epoch": 0.12324208266237252,
	"grad_norm": 0.19426967203617096,
	"learning_rate": 0.00019303540842195732,
	"loss": 1.2244,
	"step": 287
	},
	{
	"epoch": 0.12367149758454106,
	"grad_norm": 0.17754550278186798,
	"learning_rate": 0.00019298562912843724,
	"loss": 0.9266,
	"step": 288
	},
	{
	"epoch": 0.12410091250670961,
	"grad_norm": 0.18942666053771973,
	"learning_rate": 0.00019293567903460918,
	"loss": 1.0538,
	"step": 289
	},
	{
	"epoch": 0.12453032742887815,
	"grad_norm": 0.14974556863307953,
	"learning_rate": 0.0001928855582322238,
	"loss": 0.8825,
	"step": 290
	},
	{
	"epoch": 0.1249597423510467,
	"grad_norm": 0.16468919813632965,
	"learning_rate": 0.0001928352668133453,
	"loss": 1.2179,
	"step": 291
	},
	{
	"epoch": 0.12538915727321526,
	"grad_norm": 0.18979178369045258,
	"learning_rate": 0.00019278480487035126,
	"loss": 1.0274,
	"step": 292
	},
	{
	"epoch": 0.12581857219538378,
	"grad_norm": 0.1661735624074936,
	"learning_rate": 0.00019273417249593256,
	"loss": 1.0588,
	"step": 293
	},
	{
	"epoch": 0.12624798711755233,
	"grad_norm": 0.18528646230697632,
	"learning_rate": 0.00019268336978309303,
	"loss": 1.1263,
	"step": 294
	},
	{
	"epoch": 0.1266774020397209,
	"grad_norm": 0.16602130234241486,
	"learning_rate": 0.00019263239682514952,
	"loss": 0.7833,
	"step": 295
	},
	{
	"epoch": 0.1271068169618894,
	"grad_norm": 0.18867306411266327,
	"learning_rate": 0.00019258125371573144,
	"loss": 1.1295,
	"step": 296
	},
	{
	"epoch": 0.12753623188405797,
	"grad_norm": 0.1883901059627533,
	"learning_rate": 0.00019252994054878088,
	"loss": 1.0669,
	"step": 297
	},
	{
	"epoch": 0.12796564680622652,
	"grad_norm": 0.1632394641637802,
	"learning_rate": 0.00019247845741855222,
	"loss": 1.0846,
	"step": 298
	},
	{
	"epoch": 0.12839506172839507,
	"grad_norm": 0.18154770135879517,
	"learning_rate": 0.00019242680441961205,
	"loss": 1.1138,
	"step": 299
	},
	{
	"epoch": 0.1288244766505636,
	"grad_norm": 0.16086812317371368,
	"learning_rate": 0.00019237498164683897,
	"loss": 0.9613,
	"step": 300
	},
	{
	"epoch": 0.12925389157273215,
	"grad_norm": 0.19330988824367523,
	"learning_rate": 0.0001923229891954235,
	"loss": 0.7739,
	"step": 301
	},
	{
	"epoch": 0.1296833064949007,
	"grad_norm": 0.1668129414319992,
	"learning_rate": 0.00019227082716086777,
	"loss": 1.0718,
	"step": 302
	},
	{
	"epoch": 0.13011272141706925,
	"grad_norm": 0.1654328554868698,
	"learning_rate": 0.00019221849563898536,
	"loss": 0.9797,
	"step": 303
	},
	{
	"epoch": 0.13054213633923778,
	"grad_norm": 0.1601610779762268,
	"learning_rate": 0.00019216599472590134,
	"loss": 1.0867,
	"step": 304
	},
	{
	"epoch": 0.13097155126140633,
	"grad_norm": 0.16391853988170624,
	"learning_rate": 0.0001921133245180517,
	"loss": 0.8036,
	"step": 305
	},
	{
	"epoch": 0.13140096618357489,
	"grad_norm": 0.18757081031799316,
	"learning_rate": 0.0001920604851121836,
	"loss": 1.3174,
	"step": 306
	},
	{
	"epoch": 0.13183038110574344,
	"grad_norm": 0.18147063255310059,
	"learning_rate": 0.00019200747660535488,
	"loss": 1.1763,
	"step": 307
	},
	{
	"epoch": 0.13225979602791196,
	"grad_norm": 0.16341471672058105,
	"learning_rate": 0.000191954299094934,
	"loss": 1.0075,
	"step": 308
	},
	{
	"epoch": 0.13268921095008052,
	"grad_norm": 0.183994323015213,
	"learning_rate": 0.00019190095267859988,
	"loss": 1.144,
	"step": 309
	},
	{
	"epoch": 0.13311862587224907,
	"grad_norm": 0.1656254529953003,
	"learning_rate": 0.0001918474374543417,
	"loss": 1.0775,
	"step": 310
	},
	{
	"epoch": 0.1335480407944176,
	"grad_norm": 0.15094861388206482,
	"learning_rate": 0.0001917937535204587,
	"loss": 0.6977,
	"step": 311
	},
	{
	"epoch": 0.13397745571658615,
	"grad_norm": 0.1565057784318924,
	"learning_rate": 0.00019173990097556002,
	"loss": 1.1004,
	"step": 312
	},
	{
	"epoch": 0.1344068706387547,
	"grad_norm": 0.18779979646205902,
	"learning_rate": 0.00019168587991856448,
	"loss": 1.257,
	"step": 313
	},
	{
	"epoch": 0.13483628556092325,
	"grad_norm": 0.15053409337997437,
	"learning_rate": 0.0001916316904487005,
	"loss": 0.8913,
	"step": 314
	},
	{
	"epoch": 0.13526570048309178,
	"grad_norm": 0.16636574268341064,
	"learning_rate": 0.00019157733266550575,
	"loss": 0.8063,
	"step": 315
	},
	{
	"epoch": 0.13569511540526033,
	"grad_norm": 0.19238772988319397,
	"learning_rate": 0.00019152280666882718,
	"loss": 1.2016,
	"step": 316
	},
	{
	"epoch": 0.13612453032742888,
	"grad_norm": 0.17583003640174866,
	"learning_rate": 0.00019146811255882064,
	"loss": 1.0703,
	"step": 317
	},
	{
	"epoch": 0.13655394524959744,
	"grad_norm": 0.1871437430381775,
	"learning_rate": 0.0001914132504359508,
	"loss": 1.2822,
	"step": 318
	},
	{
	"epoch": 0.13698336017176596,
	"grad_norm": 0.15960069000720978,
	"learning_rate": 0.00019135822040099095,
	"loss": 0.9356,
	"step": 319
	},
	{
	"epoch": 0.1374127750939345,
	"grad_norm": 0.17675542831420898,
	"learning_rate": 0.0001913030225550228,
	"loss": 1.1216,
	"step": 320
	},
	{
	"epoch": 0.13784219001610307,
	"grad_norm": 0.18341028690338135,
	"learning_rate": 0.00019124765699943632,
	"loss": 1.1436,
	"step": 321
	},
	{
	"epoch": 0.1382716049382716,
	"grad_norm": 0.1786155104637146,
	"learning_rate": 0.00019119212383592954,
	"loss": 1.1862,
	"step": 322
	},
	{
	"epoch": 0.13870101986044014,
	"grad_norm": 0.15550769865512848,
	"learning_rate": 0.0001911364231665083,
	"loss": 1.107,
	"step": 323
	},
	{
	"epoch": 0.1391304347826087,
	"grad_norm": 0.16558977961540222,
	"learning_rate": 0.00019108055509348623,
	"loss": 1.1584,
	"step": 324
	},
	{
	"epoch": 0.13955984970477725,
	"grad_norm": 0.15727491676807404,
	"learning_rate": 0.0001910245197194843,
	"loss": 1.1332,
	"step": 325
	},
	{
	"epoch": 0.13998926462694578,
	"grad_norm": 0.16455912590026855,
	"learning_rate": 0.00019096831714743098,
	"loss": 0.8548,
	"step": 326
	},
	{
	"epoch": 0.14041867954911433,
	"grad_norm": 0.16871945559978485,
	"learning_rate": 0.00019091194748056172,
	"loss": 0.9473,
	"step": 327
	},
	{
	"epoch": 0.14084809447128288,
	"grad_norm": 0.18946193158626556,
	"learning_rate": 0.0001908554108224189,
	"loss": 1.1623,
	"step": 328
	},
	{
	"epoch": 0.14127750939345143,
	"grad_norm": 0.18290971219539642,
	"learning_rate": 0.0001907987072768517,
	"loss": 1.0757,
	"step": 329
	},
	{
	"epoch": 0.14170692431561996,
	"grad_norm": 0.17551882565021515,
	"learning_rate": 0.0001907418369480158,
	"loss": 1.0275,
	"step": 330
	},
	{
	"epoch": 0.1421363392377885,
	"grad_norm": 0.1738695502281189,
	"learning_rate": 0.00019068479994037327,
	"loss": 1.0504,
	"step": 331
	},
	{
	"epoch": 0.14256575415995706,
	"grad_norm": 0.18197093904018402,
	"learning_rate": 0.00019062759635869232,
	"loss": 1.2005,
	"step": 332
	},
	{
	"epoch": 0.14299516908212562,
	"grad_norm": 0.16323554515838623,
	"learning_rate": 0.00019057022630804716,
	"loss": 1.1509,
	"step": 333
	},
	{
	"epoch": 0.14342458400429414,
	"grad_norm": 0.1790863275527954,
	"learning_rate": 0.00019051268989381771,
	"loss": 0.9633,
	"step": 334
	},
	{
	"epoch": 0.1438539989264627,
	"grad_norm": 0.17193441092967987,
	"learning_rate": 0.00019045498722168955,
	"loss": 1.0501,
	"step": 335
	},
	{
	"epoch": 0.14428341384863125,
	"grad_norm": 0.18548649549484253,
	"learning_rate": 0.0001903971183976536,
	"loss": 1.2305,
	"step": 336
	},
	{
	"epoch": 0.14471282877079977,
	"grad_norm": 0.16440680623054504,
	"learning_rate": 0.00019033908352800608,
	"loss": 1.1256,
	"step": 337
	},
	{
	"epoch": 0.14514224369296833,
	"grad_norm": 0.18403667211532593,
	"learning_rate": 0.00019028088271934798,
	"loss": 1.2889,
	"step": 338
	},
	{
	"epoch": 0.14557165861513688,
	"grad_norm": 0.16041843593120575,
	"learning_rate": 0.0001902225160785853,
	"loss": 1.0806,
	"step": 339
	},
	{
	"epoch": 0.14600107353730543,
	"grad_norm": 0.15153127908706665,
	"learning_rate": 0.00019016398371292864,
	"loss": 0.7621,
	"step": 340
	},
	{
	"epoch": 0.14643048845947396,
	"grad_norm": 0.14983665943145752,
	"learning_rate": 0.0001901052857298929,
	"loss": 0.9134,
	"step": 341
	},
	{
	"epoch": 0.1468599033816425,
	"grad_norm": 0.17730404436588287,
	"learning_rate": 0.00019004642223729727,
	"loss": 1.2925,
	"step": 342
	},
	{
	"epoch": 0.14728931830381106,
	"grad_norm": 0.1685967743396759,
	"learning_rate": 0.00018998739334326494,
	"loss": 1.1359,
	"step": 343
	},
	{
	"epoch": 0.14771873322597961,
	"grad_norm": 0.15899759531021118,
	"learning_rate": 0.00018992819915622291,
	"loss": 1.0883,
	"step": 344
	},
	{
	"epoch": 0.14814814814814814,
	"grad_norm": 0.1822543740272522,
	"learning_rate": 0.00018986883978490182,
	"loss": 1.1186,
	"step": 345
	},
	{
	"epoch": 0.1485775630703167,
	"grad_norm": 0.17298339307308197,
	"learning_rate": 0.00018980931533833567,
	"loss": 0.8858,
	"step": 346
	},
	{
	"epoch": 0.14900697799248525,
	"grad_norm": 0.17505380511283875,
	"learning_rate": 0.00018974962592586178,
	"loss": 1.1411,
	"step": 347
	},
	{
	"epoch": 0.14943639291465377,
	"grad_norm": 0.1915581226348877,
	"learning_rate": 0.00018968977165712036,
	"loss": 1.1323,
	"step": 348
	},
	{
	"epoch": 0.14986580783682232,
	"grad_norm": 0.17531049251556396,
	"learning_rate": 0.00018962975264205455,
	"loss": 0.886,
	"step": 349
	},
	{
	"epoch": 0.15029522275899088,
	"grad_norm": 0.1736138015985489,
	"learning_rate": 0.00018956956899091003,
	"loss": 1.1875,
	"step": 350
	},
	{
	"epoch": 0.15072463768115943,
	"grad_norm": 0.16522866487503052,
	"learning_rate": 0.00018950922081423493,
	"loss": 0.9511,
	"step": 351
	},
	{
	"epoch": 0.15115405260332795,
	"grad_norm": 0.15171727538108826,
	"learning_rate": 0.00018944870822287956,
	"loss": 1.1202,
	"step": 352
	},
	{
	"epoch": 0.1515834675254965,
	"grad_norm": 0.18102163076400757,
	"learning_rate": 0.00018938803132799626,
	"loss": 1.2382,
	"step": 353
	},
	{
	"epoch": 0.15201288244766506,
	"grad_norm": 0.1564633846282959,
	"learning_rate": 0.0001893271902410392,
	"loss": 0.9987,
	"step": 354
	},
	{
	"epoch": 0.1524422973698336,
	"grad_norm": 0.17558157444000244,
	"learning_rate": 0.00018926618507376399,
	"loss": 1.274,
	"step": 355
	},
	{
	"epoch": 0.15287171229200214,
	"grad_norm": 0.1743505746126175,
	"learning_rate": 0.00018920501593822789,
	"loss": 0.8533,
	"step": 356
	},
	{
	"epoch": 0.1533011272141707,
	"grad_norm": 0.19371235370635986,
	"learning_rate": 0.0001891436829467891,
	"loss": 1.2622,
	"step": 357
	},
	{
	"epoch": 0.15373054213633924,
	"grad_norm": 0.16197408735752106,
	"learning_rate": 0.00018908218621210688,
	"loss": 0.7451,
	"step": 358
	},
	{
	"epoch": 0.1541599570585078,
	"grad_norm": 0.2163006216287613,
	"learning_rate": 0.00018902052584714136,
	"loss": 1.2091,
	"step": 359
	},
	{
	"epoch": 0.15458937198067632,
	"grad_norm": 0.1739387959241867,
	"learning_rate": 0.00018895870196515314,
	"loss": 0.9003,
	"step": 360
	},
	{
	"epoch": 0.15501878690284487,
	"grad_norm": 0.16117063164710999,
	"learning_rate": 0.00018889671467970317,
	"loss": 1.0175,
	"step": 361
	},
	{
	"epoch": 0.15544820182501343,
	"grad_norm": 0.16463720798492432,
	"learning_rate": 0.0001888345641046525,
	"loss": 1.2892,
	"step": 362
	},
	{
	"epoch": 0.15587761674718195,
	"grad_norm": 0.19594573974609375,
	"learning_rate": 0.0001887722503541623,
	"loss": 1.1554,
	"step": 363
	},
	{
	"epoch": 0.1563070316693505,
	"grad_norm": 0.15671700239181519,
	"learning_rate": 0.00018870977354269326,
	"loss": 0.9604,
	"step": 364
	},
	{
	"epoch": 0.15673644659151906,
	"grad_norm": 0.16734743118286133,
	"learning_rate": 0.00018864713378500574,
	"loss": 1.0694,
	"step": 365
	},
	{
	"epoch": 0.1571658615136876,
	"grad_norm": 0.13222168385982513,
	"learning_rate": 0.0001885843311961593,
	"loss": 0.6987,
	"step": 366
	},
	{
	"epoch": 0.15759527643585614,
	"grad_norm": 0.17755256593227386,
	"learning_rate": 0.00018852136589151268,
	"loss": 1.0576,
	"step": 367
	},
	{
	"epoch": 0.1580246913580247,
	"grad_norm": 0.17115449905395508,
	"learning_rate": 0.00018845823798672347,
	"loss": 1.2332,
	"step": 368
	},
	{
	"epoch": 0.15845410628019324,
	"grad_norm": 0.17211580276489258,
	"learning_rate": 0.00018839494759774787,
	"loss": 1.0443,
	"step": 369
	},
	{
	"epoch": 0.1588835212023618,
	"grad_norm": 0.16635645925998688,
	"learning_rate": 0.00018833149484084066,
	"loss": 1.3116,
	"step": 370
	},
	{
	"epoch": 0.15931293612453032,
	"grad_norm": 0.13584615290164948,
	"learning_rate": 0.00018826787983255473,
	"loss": 0.816,
	"step": 371
	},
	{
	"epoch": 0.15974235104669887,
	"grad_norm": 0.15319599211215973,
	"learning_rate": 0.00018820410268974115,
	"loss": 1.3403,
	"step": 372
	},
	{
	"epoch": 0.16017176596886742,
	"grad_norm": 0.1778756082057953,
	"learning_rate": 0.00018814016352954873,
	"loss": 0.9581,
	"step": 373
	},
	{
	"epoch": 0.16060118089103598,
	"grad_norm": 0.17817425727844238,
	"learning_rate": 0.00018807606246942383,
	"loss": 1.0942,
	"step": 374
	},
	{
	"epoch": 0.1610305958132045,
	"grad_norm": 0.19471527636051178,
	"learning_rate": 0.00018801179962711019,
	"loss": 1.1226,
	"step": 375
	},
	{
	"epoch": 0.16146001073537306,
	"grad_norm": 0.1694117933511734,
	"learning_rate": 0.0001879473751206489,
	"loss": 1.1468,
	"step": 376
	},
	{
	"epoch": 0.1618894256575416,
	"grad_norm": 0.18657226860523224,
	"learning_rate": 0.0001878827890683778,
	"loss": 1.3482,
	"step": 377
	},
	{
	"epoch": 0.16231884057971013,
	"grad_norm": 0.17072419822216034,
	"learning_rate": 0.0001878180415889316,
	"loss": 1.1668,
	"step": 378
	},
	{
	"epoch": 0.16274825550187869,
	"grad_norm": 0.15484756231307983,
	"learning_rate": 0.00018775313280124142,
	"loss": 1.1584,
	"step": 379
	},
	{
	"epoch": 0.16317767042404724,
	"grad_norm": 0.1646227240562439,
	"learning_rate": 0.00018768806282453467,
	"loss": 1.1282,
	"step": 380
	},
	{
	"epoch": 0.1636070853462158,
	"grad_norm": 0.18709446489810944,
	"learning_rate": 0.000187622831778335,
	"loss": 1.1701,
	"step": 381
	},
	{
	"epoch": 0.16403650026838432,
	"grad_norm": 0.1889953762292862,
	"learning_rate": 0.0001875574397824618,
	"loss": 1.1496,
	"step": 382
	},
	{
	"epoch": 0.16446591519055287,
	"grad_norm": 0.16929011046886444,
	"learning_rate": 0.00018749188695703006,
	"loss": 0.8927,
	"step": 383
	},
	{
	"epoch": 0.16489533011272142,
	"grad_norm": 0.16205012798309326,
	"learning_rate": 0.0001874261734224503,
	"loss": 1.135,
	"step": 384
	},
	{
	"epoch": 0.16532474503488997,
	"grad_norm": 0.16252653300762177,
	"learning_rate": 0.00018736029929942812,
	"loss": 0.9563,
	"step": 385
	},
	{
	"epoch": 0.1657541599570585,
	"grad_norm": 0.18884459137916565,
	"learning_rate": 0.0001872942647089642,
	"loss": 0.8866,
	"step": 386
	},
	{
	"epoch": 0.16618357487922705,
	"grad_norm": 0.1668461114168167,
	"learning_rate": 0.00018722806977235391,
	"loss": 1.0448,
	"step": 387
	},
	{
	"epoch": 0.1666129898013956,
	"grad_norm": 0.17943502962589264,
	"learning_rate": 0.0001871617146111872,
	"loss": 1.1933,
	"step": 388
	},
	{
	"epoch": 0.16704240472356413,
	"grad_norm": 0.16244441270828247,
	"learning_rate": 0.0001870951993473483,
	"loss": 1.0513,
	"step": 389
	},
	{
	"epoch": 0.16747181964573268,
	"grad_norm": 0.18279998004436493,
	"learning_rate": 0.00018702852410301554,
	"loss": 1.3546,
	"step": 390
	},
	{
	"epoch": 0.16790123456790124,
	"grad_norm": 0.174489825963974,
	"learning_rate": 0.00018696168900066105,
	"loss": 1.1154,
	"step": 391
	},
	{
	"epoch": 0.1683306494900698,
	"grad_norm": 0.19099275767803192,
	"learning_rate": 0.00018689469416305067,
	"loss": 1.3016,
	"step": 392
	},
	{
	"epoch": 0.16876006441223831,
	"grad_norm": 0.1332124024629593,
	"learning_rate": 0.00018682753971324358,
	"loss": 0.8249,
	"step": 393
	},
	{
	"epoch": 0.16918947933440687,
	"grad_norm": 0.17980900406837463,
	"learning_rate": 0.00018676022577459225,
	"loss": 1.2107,
	"step": 394
	},
	{
	"epoch": 0.16961889425657542,
	"grad_norm": 0.1861777901649475,
	"learning_rate": 0.000186692752470742,
	"loss": 1.1602,
	"step": 395
	},
	{
	"epoch": 0.17004830917874397,
	"grad_norm": 0.1574292778968811,
	"learning_rate": 0.0001866251199256309,
	"loss": 0.758,
	"step": 396
	},
	{
	"epoch": 0.1704777241009125,
	"grad_norm": 0.17709052562713623,
	"learning_rate": 0.00018655732826348956,
	"loss": 0.965,
	"step": 397
	},
	{
	"epoch": 0.17090713902308105,
	"grad_norm": 0.18563103675842285,
	"learning_rate": 0.00018648937760884084,
	"loss": 1.14,
	"step": 398
	},
	{
	"epoch": 0.1713365539452496,
	"grad_norm": 0.19391857087612152,
	"learning_rate": 0.00018642126808649968,
	"loss": 0.8621,
	"step": 399
	},
	{
	"epoch": 0.17176596886741816,
	"grad_norm": 0.13754752278327942,
	"learning_rate": 0.00018635299982157274,
	"loss": 0.8559,
	"step": 400
	},
	{
	"epoch": 0.17219538378958668,
	"grad_norm": 0.17602375149726868,
	"learning_rate": 0.0001862845729394584,
	"loss": 1.0353,
	"step": 401
	},
	{
	"epoch": 0.17262479871175523,
	"grad_norm": 0.1522264927625656,
	"learning_rate": 0.00018621598756584623,
	"loss": 1.0975,
	"step": 402
	},
	{
	"epoch": 0.1730542136339238,
	"grad_norm": 0.13852877914905548,
	"learning_rate": 0.00018614724382671712,
	"loss": 0.8971,
	"step": 403
	},
	{
	"epoch": 0.1734836285560923,
	"grad_norm": 0.16204625368118286,
	"learning_rate": 0.0001860783418483427,
	"loss": 0.8758,
	"step": 404
	},
	{
	"epoch": 0.17391304347826086,
	"grad_norm": 0.17039796710014343,
	"learning_rate": 0.00018600928175728534,
	"loss": 0.9861,
	"step": 405
	},
	{
	"epoch": 0.17434245840042942,
	"grad_norm": 0.13860173523426056,
	"learning_rate": 0.00018594006368039779,
	"loss": 0.9373,
	"step": 406
	},
	{
	"epoch": 0.17477187332259797,
	"grad_norm": 0.16568392515182495,
	"learning_rate": 0.00018587068774482299,
	"loss": 1.1601,
	"step": 407
	},
	{
	"epoch": 0.1752012882447665,
	"grad_norm": 0.15709200501441956,
	"learning_rate": 0.00018580115407799394,
	"loss": 1.0979,
	"step": 408
	},
	{
	"epoch": 0.17563070316693505,
	"grad_norm": 0.1760331690311432,
	"learning_rate": 0.00018573146280763324,
	"loss": 0.9153,
	"step": 409
	},
	{
	"epoch": 0.1760601180891036,
	"grad_norm": 0.16068683564662933,
	"learning_rate": 0.00018566161406175308,
	"loss": 0.9569,
	"step": 410
	},
	{
	"epoch": 0.17648953301127215,
	"grad_norm": 0.19457021355628967,
	"learning_rate": 0.00018559160796865484,
	"loss": 1.0332,
	"step": 411
	},
	{
	"epoch": 0.17691894793344068,
	"grad_norm": 0.18924041092395782,
	"learning_rate": 0.00018552144465692897,
	"loss": 1.0282,
	"step": 412
	},
	{
	"epoch": 0.17734836285560923,
	"grad_norm": 0.17188721895217896,
	"learning_rate": 0.0001854511242554547,
	"loss": 1.1342,
	"step": 413
	},
	{
	"epoch": 0.17777777777777778,
	"grad_norm": 0.1609194427728653,
	"learning_rate": 0.0001853806468933997,
	"loss": 1.0553,
	"step": 414
	},
	{
	"epoch": 0.1782071926999463,
	"grad_norm": 0.16070395708084106,
	"learning_rate": 0.00018531001270022022,
	"loss": 1.2386,
	"step": 415
	},
	{
	"epoch": 0.17863660762211486,
	"grad_norm": 0.17878350615501404,
	"learning_rate": 0.00018523922180566028,
	"loss": 1.0539,
	"step": 416
	},
	{
	"epoch": 0.17906602254428342,
	"grad_norm": 0.19119922816753387,
	"learning_rate": 0.00018516827433975194,
	"loss": 1.105,
	"step": 417
	},
	{
	"epoch": 0.17949543746645197,
	"grad_norm": 0.19245749711990356,
	"learning_rate": 0.00018509717043281479,
	"loss": 0.9197,
	"step": 418
	},
	{
	"epoch": 0.1799248523886205,
	"grad_norm": 0.1675061136484146,
	"learning_rate": 0.00018502591021545573,
	"loss": 1.1746,
	"step": 419
	},
	{
	"epoch": 0.18035426731078905,
	"grad_norm": 0.1748921126127243,
	"learning_rate": 0.00018495449381856886,
	"loss": 1.2055,
	"step": 420
	},
	{
	"epoch": 0.1807836822329576,
	"grad_norm": 0.1709417849779129,
	"learning_rate": 0.00018488292137333514,
	"loss": 1.2112,
	"step": 421
	},
	{
	"epoch": 0.18121309715512615,
	"grad_norm": 0.16465428471565247,
	"learning_rate": 0.0001848111930112221,
	"loss": 0.9713,
	"step": 422
	},
	{
	"epoch": 0.18164251207729468,
	"grad_norm": 0.14309629797935486,
	"learning_rate": 0.00018473930886398377,
	"loss": 0.7619,
	"step": 423
	},
	{
	"epoch": 0.18207192699946323,
	"grad_norm": 0.15775880217552185,
	"learning_rate": 0.0001846672690636602,
	"loss": 0.9245,
	"step": 424
	},
	{
	"epoch": 0.18250134192163178,
	"grad_norm": 0.18402914702892303,
	"learning_rate": 0.00018459507374257755,
	"loss": 1.0844,
	"step": 425
	},
	{
	"epoch": 0.18293075684380034,
	"grad_norm": 0.15407468378543854,
	"learning_rate": 0.00018452272303334742,
	"loss": 0.9946,
	"step": 426
	},
	{
	"epoch": 0.18336017176596886,
	"grad_norm": 0.19107265770435333,
	"learning_rate": 0.000184450217068867,
	"loss": 1.2696,
	"step": 427
	},
	{
	"epoch": 0.1837895866881374,
	"grad_norm": 0.16658765077590942,
	"learning_rate": 0.00018437755598231856,
	"loss": 1.2813,
	"step": 428
	},
	{
	"epoch": 0.18421900161030597,
	"grad_norm": 0.1602768748998642,
	"learning_rate": 0.0001843047399071694,
	"loss": 1.1808,
	"step": 429
	},
	{
	"epoch": 0.1846484165324745,
	"grad_norm": 0.16247111558914185,
	"learning_rate": 0.00018423176897717141,
	"loss": 0.9986,
	"step": 430
	},
	{
	"epoch": 0.18507783145464304,
	"grad_norm": 0.152525395154953,
	"learning_rate": 0.00018415864332636104,
	"loss": 1.0343,
	"step": 431
	},
	{
	"epoch": 0.1855072463768116,
	"grad_norm": 0.17383332550525665,
	"learning_rate": 0.00018408536308905878,
	"loss": 0.981,
	"step": 432
	},
	{
	"epoch": 0.18593666129898015,
	"grad_norm": 0.17568951845169067,
	"learning_rate": 0.0001840119283998692,
	"loss": 1.1869,
	"step": 433
	},
	{
	"epoch": 0.18636607622114867,
	"grad_norm": 0.18272657692432404,
	"learning_rate": 0.00018393833939368056,
	"loss": 1.0451,
	"step": 434
	},
	{
	"epoch": 0.18679549114331723,
	"grad_norm": 0.1720953732728958,
	"learning_rate": 0.0001838645962056645,
	"loss": 0.914,
	"step": 435
	},
	{
	"epoch": 0.18722490606548578,
	"grad_norm": 0.20161637663841248,
	"learning_rate": 0.00018379069897127601,
	"loss": 1.189,
	"step": 436
	},
	{
	"epoch": 0.18765432098765433,
	"grad_norm": 0.17120416462421417,
	"learning_rate": 0.00018371664782625287,
	"loss": 1.0226,
	"step": 437
	},
	{
	"epoch": 0.18808373590982286,
	"grad_norm": 0.19251450896263123,
	"learning_rate": 0.00018364244290661568,
	"loss": 1.1604,
	"step": 438
	},
	{
	"epoch": 0.1885131508319914,
	"grad_norm": 0.16157999634742737,
	"learning_rate": 0.00018356808434866748,
	"loss": 1.1928,
	"step": 439
	},
	{
	"epoch": 0.18894256575415996,
	"grad_norm": 0.16121311485767365,
	"learning_rate": 0.00018349357228899347,
	"loss": 0.8092,
	"step": 440
	},
	{
	"epoch": 0.18937198067632852,
	"grad_norm": 0.18607012927532196,
	"learning_rate": 0.0001834189068644609,
	"loss": 1.0936,
	"step": 441
	},
	{
	"epoch": 0.18980139559849704,
	"grad_norm": 0.15668633580207825,
	"learning_rate": 0.00018334408821221864,
	"loss": 1.1534,
	"step": 442
	},
	{
	"epoch": 0.1902308105206656,
	"grad_norm": 0.1856255829334259,
	"learning_rate": 0.0001832691164696971,
	"loss": 1.0586,
	"step": 443
	},
	{
	"epoch": 0.19066022544283415,
	"grad_norm": 0.14413128793239594,
	"learning_rate": 0.0001831939917746078,
	"loss": 0.9904,
	"step": 444
	},
	{
	"epoch": 0.19108964036500267,
	"grad_norm": 0.15035253763198853,
	"learning_rate": 0.0001831187142649433,
	"loss": 0.9658,
	"step": 445
	},
	{
	"epoch": 0.19151905528717122,
	"grad_norm": 0.19175738096237183,
	"learning_rate": 0.00018304328407897676,
	"loss": 1.1088,
	"step": 446
	},
	{
	"epoch": 0.19194847020933978,
	"grad_norm": 0.1885284036397934,
	"learning_rate": 0.0001829677013552619,
	"loss": 1.233,
	"step": 447
	},
	{
	"epoch": 0.19237788513150833,
	"grad_norm": 0.16992244124412537,
	"learning_rate": 0.00018289196623263253,
	"loss": 0.9719,
	"step": 448
	},
	{
	"epoch": 0.19280730005367686,
	"grad_norm": 0.17281030118465424,
	"learning_rate": 0.00018281607885020242,
	"loss": 0.9497,
	"step": 449
	},
	{
	"epoch": 0.1932367149758454,
	"grad_norm": 0.18136782944202423,
	"learning_rate": 0.00018274003934736505,
	"loss": 1.0897,
	"step": 450
	},
	{
	"epoch": 0.19366612989801396,
	"grad_norm": 0.15827056765556335,
	"learning_rate": 0.0001826638478637933,
	"loss": 0.9363,
	"step": 451
	},
	{
	"epoch": 0.19409554482018251,
	"grad_norm": 0.20995981991291046,
	"learning_rate": 0.00018258750453943918,
	"loss": 1.049,
	"step": 452
	},
	{
	"epoch": 0.19452495974235104,
	"grad_norm": 0.17867140471935272,
	"learning_rate": 0.00018251100951453367,
	"loss": 1.0149,
	"step": 453
	},
	{
	"epoch": 0.1949543746645196,
	"grad_norm": 0.1835739016532898,
	"learning_rate": 0.00018243436292958638,
	"loss": 1.1985,
	"step": 454
	},
	{
	"epoch": 0.19538378958668814,
	"grad_norm": 0.17710070312023163,
	"learning_rate": 0.0001823575649253853,
	"loss": 0.9616,
	"step": 455
	},
	{
	"epoch": 0.19581320450885667,
	"grad_norm": 0.16101765632629395,
	"learning_rate": 0.0001822806156429965,
	"loss": 1.2936,
	"step": 456
	},
	{
	"epoch": 0.19624261943102522,
	"grad_norm": 0.1469978541135788,
	"learning_rate": 0.00018220351522376407,
	"loss": 1.1137,
	"step": 457
	},
	{
	"epoch": 0.19667203435319378,
	"grad_norm": 0.17269261181354523,
	"learning_rate": 0.00018212626380930967,
	"loss": 1.35,
	"step": 458
	},
	{
	"epoch": 0.19710144927536233,
	"grad_norm": 0.18232795596122742,
	"learning_rate": 0.0001820488615415321,
	"loss": 1.0693,
	"step": 459
	},
	{
	"epoch": 0.19753086419753085,
	"grad_norm": 0.19020916521549225,
	"learning_rate": 0.00018197130856260758,
	"loss": 1.085,
	"step": 460
	},
	{
	"epoch": 0.1979602791196994,
	"grad_norm": 0.1793365776538849,
	"learning_rate": 0.00018189360501498896,
	"loss": 1.1711,
	"step": 461
	},
	{
	"epoch": 0.19838969404186796,
	"grad_norm": 0.17583267390727997,
	"learning_rate": 0.00018181575104140568,
	"loss": 1.2276,
	"step": 462
	},
	{
	"epoch": 0.1988191089640365,
	"grad_norm": 0.16527873277664185,
	"learning_rate": 0.00018173774678486356,
	"loss": 1.1692,
	"step": 463
	},
	{
	"epoch": 0.19924852388620504,
	"grad_norm": 0.15330368280410767,
	"learning_rate": 0.00018165959238864446,
	"loss": 1.0472,
	"step": 464
	},
	{
	"epoch": 0.1996779388083736,
	"grad_norm": 0.18043364584445953,
	"learning_rate": 0.00018158128799630594,
	"loss": 1.1462,
	"step": 465
	},
	{
	"epoch": 0.20010735373054214,
	"grad_norm": 0.1676676869392395,
	"learning_rate": 0.00018150283375168114,
	"loss": 1.1693,
	"step": 466
	},
	{
	"epoch": 0.2005367686527107,
	"grad_norm": 0.17557865381240845,
	"learning_rate": 0.00018142422979887848,
	"loss": 0.9993,
	"step": 467
	},
	{
	"epoch": 0.20096618357487922,
	"grad_norm": 0.17406152188777924,
	"learning_rate": 0.00018134547628228132,
	"loss": 1.2718,
	"step": 468
	},
	{
	"epoch": 0.20139559849704777,
	"grad_norm": 0.16246803104877472,
	"learning_rate": 0.00018126657334654772,
	"loss": 0.906,
	"step": 469
	},
	{
	"epoch": 0.20182501341921633,
	"grad_norm": 0.19664785265922546,
	"learning_rate": 0.00018118752113661034,
	"loss": 1.1194,
	"step": 470
	},
	{
	"epoch": 0.20225442834138485,
	"grad_norm": 0.17243239283561707,
	"learning_rate": 0.00018110831979767586,
	"loss": 0.9779,
	"step": 471
	},
	{
	"epoch": 0.2026838432635534,
	"grad_norm": 0.1569763720035553,
	"learning_rate": 0.000181028969475225,
	"loss": 1.2128,
	"step": 472
	},
	{
	"epoch": 0.20311325818572196,
	"grad_norm": 0.17845910787582397,
	"learning_rate": 0.0001809494703150121,
	"loss": 1.087,
	"step": 473
	},
	{
	"epoch": 0.2035426731078905,
	"grad_norm": 0.15362991392612457,
	"learning_rate": 0.0001808698224630649,
	"loss": 0.8389,
	"step": 474
	},
	{
	"epoch": 0.20397208803005903,
	"grad_norm": 0.1604796200990677,
	"learning_rate": 0.00018079002606568426,
	"loss": 0.9256,
	"step": 475
	},
	{
	"epoch": 0.2044015029522276,
	"grad_norm": 0.16644595563411713,
	"learning_rate": 0.00018071008126944386,
	"loss": 1.0327,
	"step": 476
	},
	{
	"epoch": 0.20483091787439614,
	"grad_norm": 0.1740645319223404,
	"learning_rate": 0.00018062998822119007,
	"loss": 1.0971,
	"step": 477
	},
	{
	"epoch": 0.2052603327965647,
	"grad_norm": 0.17992867529392242,
	"learning_rate": 0.00018054974706804147,
	"loss": 0.8937,
	"step": 478
	},
	{
	"epoch": 0.20568974771873322,
	"grad_norm": 0.16396278142929077,
	"learning_rate": 0.00018046935795738872,
	"loss": 0.8748,
	"step": 479
	},
	{
	"epoch": 0.20611916264090177,
	"grad_norm": 0.16882237792015076,
	"learning_rate": 0.00018038882103689426,
	"loss": 0.859,
	"step": 480
	},
	{
	"epoch": 0.20654857756307032,
	"grad_norm": 0.142868772149086,
	"learning_rate": 0.00018030813645449208,
	"loss": 0.8051,
	"step": 481
	},
	{
	"epoch": 0.20697799248523885,
	"grad_norm": 0.17199325561523438,
	"learning_rate": 0.00018022730435838727,
	"loss": 1.1636,
	"step": 482
	},
	{
	"epoch": 0.2074074074074074,
	"grad_norm": 0.17648378014564514,
	"learning_rate": 0.00018014632489705604,
	"loss": 1.1394,
	"step": 483
	},
	{
	"epoch": 0.20783682232957595,
	"grad_norm": 0.1827528178691864,
	"learning_rate": 0.0001800651982192452,
	"loss": 1.1095,
	"step": 484
	},
	{
	"epoch": 0.2082662372517445,
	"grad_norm": 0.13080927729606628,
	"learning_rate": 0.00017998392447397197,
	"loss": 0.7807,
	"step": 485
	},
	{
	"epoch": 0.20869565217391303,
	"grad_norm": 0.17123474180698395,
	"learning_rate": 0.00017990250381052372,
	"loss": 1.2197,
	"step": 486
	},
	{
	"epoch": 0.20912506709608158,
	"grad_norm": 0.17640285193920135,
	"learning_rate": 0.00017982093637845768,
	"loss": 1.1285,
	"step": 487
	},
	{
	"epoch": 0.20955448201825014,
	"grad_norm": 0.1964927464723587,
	"learning_rate": 0.00017973922232760074,
	"loss": 1.3984,
	"step": 488
	},
	{
	"epoch": 0.2099838969404187,
	"grad_norm": 0.18344812095165253,
	"learning_rate": 0.00017965736180804905,
	"loss": 0.8897,
	"step": 489
	},
	{
	"epoch": 0.21041331186258722,
	"grad_norm": 0.17509503662586212,
	"learning_rate": 0.00017957535497016772,
	"loss": 1.0808,
	"step": 490
	},
	{
	"epoch": 0.21084272678475577,
	"grad_norm": 0.16462327539920807,
	"learning_rate": 0.00017949320196459077,
	"loss": 0.982,
	"step": 491
	},
	{
	"epoch": 0.21127214170692432,
	"grad_norm": 0.17547428607940674,
	"learning_rate": 0.00017941090294222066,
	"loss": 1.0466,
	"step": 492
	},
	{
	"epoch": 0.21170155662909287,
	"grad_norm": 0.18705184757709503,
	"learning_rate": 0.000179328458054228,
	"loss": 1.1574,
	"step": 493
	},
	{
	"epoch": 0.2121309715512614,
	"grad_norm": 0.17873774468898773,
	"learning_rate": 0.00017924586745205143,
	"loss": 1.3599,
	"step": 494
	},
	{
	"epoch": 0.21256038647342995,
	"grad_norm": 0.1929023265838623,
	"learning_rate": 0.0001791631312873971,
	"loss": 1.2727,
	"step": 495
	},
	{
	"epoch": 0.2129898013955985,
	"grad_norm": 0.1473141312599182,
	"learning_rate": 0.00017908024971223876,
	"loss": 1.0392,
	"step": 496
	},
	{
	"epoch": 0.21341921631776703,
	"grad_norm": 0.1641705185174942,
	"learning_rate": 0.00017899722287881699,
	"loss": 0.9458,
	"step": 497
	},
	{
	"epoch": 0.21384863123993558,
	"grad_norm": 0.16218411922454834,
	"learning_rate": 0.00017891405093963938,
	"loss": 0.8449,
	"step": 498
	},
	{
	"epoch": 0.21427804616210414,
	"grad_norm": 0.15134935081005096,
	"learning_rate": 0.00017883073404748002,
	"loss": 1.0388,
	"step": 499
	},
	{
	"epoch": 0.2147074610842727,
	"grad_norm": 0.13633696734905243,
	"learning_rate": 0.00017874727235537918,
	"loss": 0.6724,
	"step": 500
	},
	{
	"epoch": 0.2151368760064412,
	"grad_norm": 0.18835188448429108,
	"learning_rate": 0.0001786636660166432,
	"loss": 1.2972,
	"step": 501
	},
	{
	"epoch": 0.21556629092860977,
	"grad_norm": 0.16085697710514069,
	"learning_rate": 0.00017857991518484406,
	"loss": 1.0825,
	"step": 502
	},
	{
	"epoch": 0.21599570585077832,
	"grad_norm": 0.17221853137016296,
	"learning_rate": 0.00017849602001381918,
	"loss": 1.2739,
	"step": 503
	},
	{
	"epoch": 0.21642512077294687,
	"grad_norm": 0.1634456366300583,
	"learning_rate": 0.00017841198065767107,
	"loss": 0.9839,
	"step": 504
	},
	{
	"epoch": 0.2168545356951154,
	"grad_norm": 0.18110795319080353,
	"learning_rate": 0.00017832779727076708,
	"loss": 1.3229,
	"step": 505
	},
	{
	"epoch": 0.21728395061728395,
	"grad_norm": 0.13345003128051758,
	"learning_rate": 0.00017824347000773927,
	"loss": 0.8383,
	"step": 506
	},
	{
	"epoch": 0.2177133655394525,
	"grad_norm": 0.15196914970874786,
	"learning_rate": 0.00017815899902348377,
	"loss": 1.0096,
	"step": 507
	},
	{
	"epoch": 0.21814278046162103,
	"grad_norm": 0.17290259897708893,
	"learning_rate": 0.00017807438447316076,
	"loss": 0.8173,
	"step": 508
	},
	{
	"epoch": 0.21857219538378958,
	"grad_norm": 0.16334594786167145,
	"learning_rate": 0.00017798962651219424,
	"loss": 1.0307,
	"step": 509
	},
	{
	"epoch": 0.21900161030595813,
	"grad_norm": 0.16071034967899323,
	"learning_rate": 0.00017790472529627152,
	"loss": 1.0597,
	"step": 510
	},
	{
	"epoch": 0.21943102522812669,
	"grad_norm": 0.14360260963439941,
	"learning_rate": 0.0001778196809813431,
	"loss": 0.9411,
	"step": 511
	},
	{
	"epoch": 0.2198604401502952,
	"grad_norm": 0.1717967838048935,
	"learning_rate": 0.0001777344937236223,
	"loss": 1.1883,
	"step": 512
	},
	{
	"epoch": 0.22028985507246376,
	"grad_norm": 0.1511518657207489,
	"learning_rate": 0.00017764916367958502,
	"loss": 0.9472,
	"step": 513
	},
	{
	"epoch": 0.22071926999463232,
	"grad_norm": 0.1570175439119339,
	"learning_rate": 0.00017756369100596942,
	"loss": 0.8677,
	"step": 514
	},
	{
	"epoch": 0.22114868491680087,
	"grad_norm": 0.17275646328926086,
	"learning_rate": 0.00017747807585977575,
	"loss": 1.1496,
	"step": 515
	},
	{
	"epoch": 0.2215780998389694,
	"grad_norm": 0.16934038698673248,
	"learning_rate": 0.00017739231839826575,
	"loss": 0.9445,
	"step": 516
	},
	{
	"epoch": 0.22200751476113795,
	"grad_norm": 0.18247805535793304,
	"learning_rate": 0.00017730641877896275,
	"loss": 1.2478,
	"step": 517
	},
	{
	"epoch": 0.2224369296833065,
	"grad_norm": 0.17023034393787384,
	"learning_rate": 0.00017722037715965115,
	"loss": 1.0587,
	"step": 518
	},
	{
	"epoch": 0.22286634460547505,
	"grad_norm": 0.17108768224716187,
	"learning_rate": 0.00017713419369837617,
	"loss": 1.2587,
	"step": 519
	},
	{
	"epoch": 0.22329575952764358,
	"grad_norm": 0.16779127717018127,
	"learning_rate": 0.00017704786855344363,
	"loss": 0.8168,
	"step": 520
	},
	{
	"epoch": 0.22372517444981213,
	"grad_norm": 0.17807330191135406,
	"learning_rate": 0.00017696140188341945,
	"loss": 1.2265,
	"step": 521
	},
	{
	"epoch": 0.22415458937198068,
	"grad_norm": 0.15085840225219727,
	"learning_rate": 0.0001768747938471297,
	"loss": 0.9862,
	"step": 522
	},
	{
	"epoch": 0.2245840042941492,
	"grad_norm": 0.16962507367134094,
	"learning_rate": 0.00017678804460366,
	"loss": 1.2014,
	"step": 523
	},
	{
	"epoch": 0.22501341921631776,
	"grad_norm": 0.20221249759197235,
	"learning_rate": 0.00017670115431235538,
	"loss": 1.15,
	"step": 524
	},
	{
	"epoch": 0.22544283413848631,
	"grad_norm": 0.1703234761953354,
	"learning_rate": 0.00017661412313281995,
	"loss": 1.1397,
	"step": 525
	},
	{
	"epoch": 0.22587224906065487,
	"grad_norm": 0.15764622390270233,
	"learning_rate": 0.00017652695122491663,
	"loss": 1.0963,
	"step": 526
	},
	{
	"epoch": 0.2263016639828234,
	"grad_norm": 0.1757158637046814,
	"learning_rate": 0.00017643963874876677,
	"loss": 1.2059,
	"step": 527
	},
	{
	"epoch": 0.22673107890499195,
	"grad_norm": 0.17365393042564392,
	"learning_rate": 0.00017635218586474998,
	"loss": 1.0233,
	"step": 528
	},
	{
	"epoch": 0.2271604938271605,
	"grad_norm": 0.1677040010690689,
	"learning_rate": 0.0001762645927335038,
	"loss": 1.1272,
	"step": 529
	},
	{
	"epoch": 0.22758990874932905,
	"grad_norm": 0.1669892817735672,
	"learning_rate": 0.0001761768595159233,
	"loss": 0.9677,
	"step": 530
	},
	{
	"epoch": 0.22801932367149758,
	"grad_norm": 0.19120194017887115,
	"learning_rate": 0.00017608898637316096,
	"loss": 1.2069,
	"step": 531
	},
	{
	"epoch": 0.22844873859366613,
	"grad_norm": 0.15439291298389435,
	"learning_rate": 0.00017600097346662623,
	"loss": 0.8796,
	"step": 532
	},
	{
	"epoch": 0.22887815351583468,
	"grad_norm": 0.1759713590145111,
	"learning_rate": 0.00017591282095798526,
	"loss": 0.7718,
	"step": 533
	},
	{
	"epoch": 0.22930756843800323,
	"grad_norm": 0.17327053844928741,
	"learning_rate": 0.00017582452900916063,
	"loss": 1.4072,
	"step": 534
	},
	{
	"epoch": 0.22973698336017176,
	"grad_norm": 0.1783333122730255,
	"learning_rate": 0.0001757360977823312,
	"loss": 1.4336,
	"step": 535
	},
	{
	"epoch": 0.2301663982823403,
	"grad_norm": 0.16632091999053955,
	"learning_rate": 0.00017564752743993143,
	"loss": 0.9684,
	"step": 536
	},
	{
	"epoch": 0.23059581320450886,
	"grad_norm": 0.17739808559417725,
	"learning_rate": 0.00017555881814465148,
	"loss": 0.9855,
	"step": 537
	},
	{
	"epoch": 0.2310252281266774,
	"grad_norm": 0.16482579708099365,
	"learning_rate": 0.00017546997005943665,
	"loss": 1.1435,
	"step": 538
	},
	{
	"epoch": 0.23145464304884594,
	"grad_norm": 0.19359920918941498,
	"learning_rate": 0.00017538098334748722,
	"loss": 1.2677,
	"step": 539
	},
	{
	"epoch": 0.2318840579710145,
	"grad_norm": 0.1723766326904297,
	"learning_rate": 0.00017529185817225816,
	"loss": 1.3,
	"step": 540
	},
	{
	"epoch": 0.23231347289318305,
	"grad_norm": 0.18761831521987915,
	"learning_rate": 0.00017520259469745866,
	"loss": 1.2971,
	"step": 541
	},
	{
	"epoch": 0.23274288781535157,
	"grad_norm": 0.139839306473732,
	"learning_rate": 0.00017511319308705198,
	"loss": 0.975,
	"step": 542
	},
	{
	"epoch": 0.23317230273752013,
	"grad_norm": 0.17375217378139496,
	"learning_rate": 0.00017502365350525524,
	"loss": 0.9755,
	"step": 543
	},
	{
	"epoch": 0.23360171765968868,
	"grad_norm": 0.1978386640548706,
	"learning_rate": 0.00017493397611653875,
	"loss": 1.3327,
	"step": 544
	},
	{
	"epoch": 0.23403113258185723,
	"grad_norm": 0.21363678574562073,
	"learning_rate": 0.0001748441610856262,
	"loss": 1.1973,
	"step": 545
	},
	{
	"epoch": 0.23446054750402576,
	"grad_norm": 0.18306796252727509,
	"learning_rate": 0.00017475420857749398,
	"loss": 1.0939,
	"step": 546
	},
	{
	"epoch": 0.2348899624261943,
	"grad_norm": 0.1709376573562622,
	"learning_rate": 0.00017466411875737098,
	"loss": 1.1383,
	"step": 547
	},
	{
	"epoch": 0.23531937734836286,
	"grad_norm": 0.19025692343711853,
	"learning_rate": 0.0001745738917907384,
	"loss": 0.9749,
	"step": 548
	},
	{
	"epoch": 0.2357487922705314,
	"grad_norm": 0.1548996865749359,
	"learning_rate": 0.00017448352784332926,
	"loss": 1.1391,
	"step": 549
	},
	{
	"epoch": 0.23617820719269994,
	"grad_norm": 0.15124543011188507,
	"learning_rate": 0.00017439302708112826,
	"loss": 1.0438,
	"step": 550
	},
	{
	"epoch": 0.2366076221148685,
	"grad_norm": 0.178885355591774,
	"learning_rate": 0.00017430238967037137,
	"loss": 1.2482,
	"step": 551
	},
	{
	"epoch": 0.23703703703703705,
	"grad_norm": 0.16636434197425842,
	"learning_rate": 0.00017421161577754564,
	"loss": 1.079,
	"step": 552
	},
	{
	"epoch": 0.23746645195920557,
	"grad_norm": 0.16374240815639496,
	"learning_rate": 0.00017412070556938872,
	"loss": 1.1511,
	"step": 553
	},
	{
	"epoch": 0.23789586688137412,
	"grad_norm": 0.15488043427467346,
	"learning_rate": 0.00017402965921288865,
	"loss": 1.1565,
	"step": 554
	},
	{
	"epoch": 0.23832528180354268,
	"grad_norm": 0.16751627624034882,
	"learning_rate": 0.00017393847687528367,
	"loss": 1.1209,
	"step": 555
	},
	{
	"epoch": 0.23875469672571123,
	"grad_norm": 0.17798767983913422,
	"learning_rate": 0.00017384715872406168,
	"loss": 1.2118,
	"step": 556
	},
	{
	"epoch": 0.23918411164787975,
	"grad_norm": 0.17087987065315247,
	"learning_rate": 0.00017375570492696009,
	"loss": 0.9564,
	"step": 557
	},
	{
	"epoch": 0.2396135265700483,
	"grad_norm": 0.14827404916286469,
	"learning_rate": 0.00017366411565196543,
	"loss": 0.9969,
	"step": 558
	},
	{
	"epoch": 0.24004294149221686,
	"grad_norm": 0.16151390969753265,
	"learning_rate": 0.00017357239106731317,
	"loss": 1.0805,
	"step": 559
	},
	{
	"epoch": 0.2404723564143854,
	"grad_norm": 0.20443901419639587,
	"learning_rate": 0.00017348053134148727,
	"loss": 1.1291,
	"step": 560
	},
	{
	"epoch": 0.24090177133655394,
	"grad_norm": 0.15805144608020782,
	"learning_rate": 0.00017338853664321992,
	"loss": 1.067,
	"step": 561
	},
	{
	"epoch": 0.2413311862587225,
	"grad_norm": 0.17929919064044952,
	"learning_rate": 0.00017329640714149123,
	"loss": 1.1768,
	"step": 562
	},
	{
	"epoch": 0.24176060118089104,
	"grad_norm": 0.15413890779018402,
	"learning_rate": 0.00017320414300552893,
	"loss": 1.1613,
	"step": 563
	},
	{
	"epoch": 0.24219001610305957,
	"grad_norm": 0.16163668036460876,
	"learning_rate": 0.0001731117444048081,
	"loss": 1.0257,
	"step": 564
	},
	{
	"epoch": 0.24261943102522812,
	"grad_norm": 0.17742857336997986,
	"learning_rate": 0.0001730192115090507,
	"loss": 1.0139,
	"step": 565
	},
	{
	"epoch": 0.24304884594739667,
	"grad_norm": 0.1430206149816513,
	"learning_rate": 0.0001729265444882255,
	"loss": 0.8641,
	"step": 566
	},
	{
	"epoch": 0.24347826086956523,
	"grad_norm": 0.1846974492073059,
	"learning_rate": 0.00017283374351254754,
	"loss": 1.3239,
	"step": 567
	},
	{
	"epoch": 0.24390767579173375,
	"grad_norm": 0.16652631759643555,
	"learning_rate": 0.00017274080875247794,
	"loss": 1.0221,
	"step": 568
	},
	{
	"epoch": 0.2443370907139023,
	"grad_norm": 0.1801396608352661,
	"learning_rate": 0.00017264774037872358,
	"loss": 1.2199,
	"step": 569
	},
	{
	"epoch": 0.24476650563607086,
	"grad_norm": 0.1728580743074417,
	"learning_rate": 0.00017255453856223675,
	"loss": 1.0899,
	"step": 570
	},
	{
	"epoch": 0.2451959205582394,
	"grad_norm": 0.1778605431318283,
	"learning_rate": 0.00017246120347421488,
	"loss": 0.949,
	"step": 571
	},
	{
	"epoch": 0.24562533548040794,
	"grad_norm": 0.16379563510417938,
	"learning_rate": 0.00017236773528610017,
	"loss": 1.2364,
	"step": 572
	},
	{
	"epoch": 0.2460547504025765,
	"grad_norm": 0.15087537467479706,
	"learning_rate": 0.0001722741341695793,
	"loss": 0.9602,
	"step": 573
	},
	{
	"epoch": 0.24648416532474504,
	"grad_norm": 0.18357989192008972,
	"learning_rate": 0.00017218040029658315,
	"loss": 1.2449,
	"step": 574
	},
	{
	"epoch": 0.24691358024691357,
	"grad_norm": 0.1720157265663147,
	"learning_rate": 0.00017208653383928642,
	"loss": 1.1534,
	"step": 575
	},
	{
	"epoch": 0.24734299516908212,
	"grad_norm": 0.19645382463932037,
	"learning_rate": 0.00017199253497010743,
	"loss": 1.0639,
	"step": 576
	},
	{
	"epoch": 0.24777241009125067,
	"grad_norm": 0.1753363013267517,
	"learning_rate": 0.00017189840386170756,
	"loss": 0.8053,
	"step": 577
	},
	{
	"epoch": 0.24820182501341922,
	"grad_norm": 0.19694557785987854,
	"learning_rate": 0.00017180414068699126,
	"loss": 1.0593,
	"step": 578
	},
	{
	"epoch": 0.24863123993558775,
	"grad_norm": 0.20301617681980133,
	"learning_rate": 0.00017170974561910542,
	"loss": 1.2998,
	"step": 579
	},
	{
	"epoch": 0.2490606548577563,
	"grad_norm": 0.18933315575122833,
	"learning_rate": 0.00017161521883143934,
	"loss": 1.2534,
	"step": 580
	},
	{
	"epoch": 0.24949006977992486,
	"grad_norm": 0.17308446764945984,
	"learning_rate": 0.00017152056049762418,
	"loss": 1.2115,
	"step": 581
	},
	{
	"epoch": 0.2499194847020934,
	"grad_norm": 0.17606200277805328,
	"learning_rate": 0.0001714257707915327,
	"loss": 1.0521,
	"step": 582
	}
	],
	"logging_steps": 1,
	"max_steps": 2328,
	"num_input_tokens_seen": 0,
	"num_train_epochs": 1,
	"save_steps": 291,
	"stateful_callbacks": {
	"TrainerControl": {
	"args": {
	"should_epoch_stop": false,
	"should_evaluate": false,
	"should_log": false,
	"should_save": true,
	"should_training_stop": false
	},
	"attributes": {}
	}
	},
	"total_flos": 3.7796911480465e+17,
	"train_batch_size": 1,
	"trial_name": null,
	"trial_params": null
	}