{ "best_metric": null, "best_model_checkpoint": null, "epoch": 0.1111111111111111, "eval_steps": 9000, "global_step": 5000, "is_hyper_param_search": false, "is_local_process_zero": true, "is_world_process_zero": true, "log_history": [ { "epoch": 2.2222222222222223e-05, "grad_norm": 2.0185797214508057, "learning_rate": 2e-05, "loss": 3.2618, "step": 1 }, { "epoch": 4.4444444444444447e-05, "grad_norm": 1.7432889938354492, "learning_rate": 4e-05, "loss": 3.3564, "step": 2 }, { "epoch": 6.666666666666667e-05, "grad_norm": 1.9091120958328247, "learning_rate": 6e-05, "loss": 3.0943, "step": 3 }, { "epoch": 8.888888888888889e-05, "grad_norm": 2.1515886783599854, "learning_rate": 8e-05, "loss": 3.59, "step": 4 }, { "epoch": 0.00011111111111111112, "grad_norm": 1.7237238883972168, "learning_rate": 0.0001, "loss": 3.4605, "step": 5 }, { "epoch": 0.00013333333333333334, "grad_norm": 1.9830104112625122, "learning_rate": 0.00012, "loss": 3.2866, "step": 6 }, { "epoch": 0.00015555555555555556, "grad_norm": 1.3985366821289062, "learning_rate": 0.00014, "loss": 2.9885, "step": 7 }, { "epoch": 0.00017777777777777779, "grad_norm": 1.373055100440979, "learning_rate": 0.00016, "loss": 2.912, "step": 8 }, { "epoch": 0.0002, "grad_norm": 1.2396327257156372, "learning_rate": 0.00018, "loss": 3.0742, "step": 9 }, { "epoch": 0.00022222222222222223, "grad_norm": 1.1442056894302368, "learning_rate": 0.0002, "loss": 2.78, "step": 10 }, { "epoch": 0.00024444444444444443, "grad_norm": 1.284921646118164, "learning_rate": 0.00019999555456768172, "loss": 3.1471, "step": 11 }, { "epoch": 0.0002666666666666667, "grad_norm": 1.205655574798584, "learning_rate": 0.00019999110913536343, "loss": 2.4173, "step": 12 }, { "epoch": 0.0002888888888888889, "grad_norm": 1.5106496810913086, "learning_rate": 0.00019998666370304514, "loss": 2.5291, "step": 13 }, { "epoch": 0.0003111111111111111, "grad_norm": 1.3649957180023193, "learning_rate": 0.00019998221827072682, "loss": 2.6059, "step": 14 }, { "epoch": 0.0003333333333333333, "grad_norm": 0.9807085990905762, "learning_rate": 0.00019997777283840856, "loss": 2.081, "step": 15 }, { "epoch": 0.00035555555555555557, "grad_norm": 1.188325047492981, "learning_rate": 0.00019997332740609024, "loss": 2.4606, "step": 16 }, { "epoch": 0.00037777777777777777, "grad_norm": 1.1331664323806763, "learning_rate": 0.00019996888197377195, "loss": 2.5574, "step": 17 }, { "epoch": 0.0004, "grad_norm": 1.0140057802200317, "learning_rate": 0.00019996443654145366, "loss": 2.252, "step": 18 }, { "epoch": 0.0004222222222222222, "grad_norm": 1.0648610591888428, "learning_rate": 0.00019995999110913537, "loss": 2.3768, "step": 19 }, { "epoch": 0.00044444444444444447, "grad_norm": 1.0701093673706055, "learning_rate": 0.00019995554567681708, "loss": 2.1406, "step": 20 }, { "epoch": 0.00046666666666666666, "grad_norm": 1.1271121501922607, "learning_rate": 0.0001999511002444988, "loss": 2.6222, "step": 21 }, { "epoch": 0.0004888888888888889, "grad_norm": 0.9573381543159485, "learning_rate": 0.0001999466548121805, "loss": 2.4028, "step": 22 }, { "epoch": 0.0005111111111111112, "grad_norm": 1.0101866722106934, "learning_rate": 0.0001999422093798622, "loss": 2.0944, "step": 23 }, { "epoch": 0.0005333333333333334, "grad_norm": 1.0080087184906006, "learning_rate": 0.00019993776394754392, "loss": 2.1232, "step": 24 }, { "epoch": 0.0005555555555555556, "grad_norm": 1.2665172815322876, "learning_rate": 0.0001999333185152256, "loss": 2.2484, "step": 25 }, { "epoch": 0.0005777777777777778, "grad_norm": 1.3734925985336304, "learning_rate": 0.00019992887308290734, "loss": 2.2124, "step": 26 }, { "epoch": 0.0006, "grad_norm": 0.9276817440986633, "learning_rate": 0.00019992442765058902, "loss": 1.9483, "step": 27 }, { "epoch": 0.0006222222222222223, "grad_norm": 1.1612797975540161, "learning_rate": 0.00019991998221827073, "loss": 2.4238, "step": 28 }, { "epoch": 0.0006444444444444444, "grad_norm": 1.1764159202575684, "learning_rate": 0.00019991553678595244, "loss": 2.2082, "step": 29 }, { "epoch": 0.0006666666666666666, "grad_norm": 1.1657731533050537, "learning_rate": 0.00019991109135363415, "loss": 2.5774, "step": 30 }, { "epoch": 0.0006888888888888888, "grad_norm": 1.1365610361099243, "learning_rate": 0.00019990664592131586, "loss": 2.255, "step": 31 }, { "epoch": 0.0007111111111111111, "grad_norm": 1.0857913494110107, "learning_rate": 0.00019990220048899757, "loss": 2.1554, "step": 32 }, { "epoch": 0.0007333333333333333, "grad_norm": 1.1258957386016846, "learning_rate": 0.00019989775505667928, "loss": 2.3615, "step": 33 }, { "epoch": 0.0007555555555555555, "grad_norm": 1.1459455490112305, "learning_rate": 0.00019989330962436096, "loss": 2.0614, "step": 34 }, { "epoch": 0.0007777777777777777, "grad_norm": 1.2175862789154053, "learning_rate": 0.0001998888641920427, "loss": 2.5134, "step": 35 }, { "epoch": 0.0008, "grad_norm": 1.15297532081604, "learning_rate": 0.00019988441875972438, "loss": 2.131, "step": 36 }, { "epoch": 0.0008222222222222222, "grad_norm": 1.2607117891311646, "learning_rate": 0.0001998799733274061, "loss": 2.55, "step": 37 }, { "epoch": 0.0008444444444444444, "grad_norm": 1.2785695791244507, "learning_rate": 0.0001998755278950878, "loss": 2.2228, "step": 38 }, { "epoch": 0.0008666666666666666, "grad_norm": 1.3944299221038818, "learning_rate": 0.0001998710824627695, "loss": 2.1888, "step": 39 }, { "epoch": 0.0008888888888888889, "grad_norm": 1.207436203956604, "learning_rate": 0.00019986663703045124, "loss": 2.3371, "step": 40 }, { "epoch": 0.0009111111111111111, "grad_norm": 1.114500641822815, "learning_rate": 0.00019986219159813293, "loss": 1.9219, "step": 41 }, { "epoch": 0.0009333333333333333, "grad_norm": 1.1595293283462524, "learning_rate": 0.00019985774616581464, "loss": 2.3528, "step": 42 }, { "epoch": 0.0009555555555555555, "grad_norm": 1.482299566268921, "learning_rate": 0.00019985330073349635, "loss": 2.1761, "step": 43 }, { "epoch": 0.0009777777777777777, "grad_norm": 1.19706130027771, "learning_rate": 0.00019984885530117806, "loss": 1.9884, "step": 44 }, { "epoch": 0.001, "grad_norm": 1.2986372709274292, "learning_rate": 0.00019984440986885974, "loss": 2.0929, "step": 45 }, { "epoch": 0.0010222222222222223, "grad_norm": 1.2313750982284546, "learning_rate": 0.00019983996443654147, "loss": 2.0196, "step": 46 }, { "epoch": 0.0010444444444444444, "grad_norm": 1.4543802738189697, "learning_rate": 0.00019983551900422318, "loss": 2.5609, "step": 47 }, { "epoch": 0.0010666666666666667, "grad_norm": 1.598586082458496, "learning_rate": 0.00019983107357190487, "loss": 2.2982, "step": 48 }, { "epoch": 0.0010888888888888888, "grad_norm": 1.8242489099502563, "learning_rate": 0.0001998266281395866, "loss": 2.5548, "step": 49 }, { "epoch": 0.0011111111111111111, "grad_norm": 1.455721378326416, "learning_rate": 0.00019982218270726829, "loss": 2.0304, "step": 50 }, { "epoch": 0.0011333333333333334, "grad_norm": 0.9750809073448181, "learning_rate": 0.00019981773727495, "loss": 2.6573, "step": 51 }, { "epoch": 0.0011555555555555555, "grad_norm": 0.989897608757019, "learning_rate": 0.0001998132918426317, "loss": 2.4163, "step": 52 }, { "epoch": 0.0011777777777777778, "grad_norm": 1.0368322134017944, "learning_rate": 0.00019980884641031341, "loss": 2.4216, "step": 53 }, { "epoch": 0.0012, "grad_norm": 1.0627018213272095, "learning_rate": 0.0001998044009779951, "loss": 1.8118, "step": 54 }, { "epoch": 0.0012222222222222222, "grad_norm": 1.1870719194412231, "learning_rate": 0.00019979995554567683, "loss": 2.5546, "step": 55 }, { "epoch": 0.0012444444444444445, "grad_norm": 0.931128978729248, "learning_rate": 0.00019979551011335854, "loss": 2.5249, "step": 56 }, { "epoch": 0.0012666666666666666, "grad_norm": 0.9158191084861755, "learning_rate": 0.00019979106468104023, "loss": 2.5717, "step": 57 }, { "epoch": 0.001288888888888889, "grad_norm": 0.9137040972709656, "learning_rate": 0.00019978661924872196, "loss": 2.1914, "step": 58 }, { "epoch": 0.0013111111111111112, "grad_norm": 1.376840591430664, "learning_rate": 0.00019978217381640365, "loss": 2.4341, "step": 59 }, { "epoch": 0.0013333333333333333, "grad_norm": 1.404250144958496, "learning_rate": 0.00019977772838408538, "loss": 2.5547, "step": 60 }, { "epoch": 0.0013555555555555556, "grad_norm": 1.5059726238250732, "learning_rate": 0.00019977328295176706, "loss": 2.5984, "step": 61 }, { "epoch": 0.0013777777777777777, "grad_norm": 1.6965712308883667, "learning_rate": 0.00019976883751944877, "loss": 2.6359, "step": 62 }, { "epoch": 0.0014, "grad_norm": 1.3054988384246826, "learning_rate": 0.00019976439208713048, "loss": 2.295, "step": 63 }, { "epoch": 0.0014222222222222223, "grad_norm": 1.1799784898757935, "learning_rate": 0.0001997599466548122, "loss": 2.1869, "step": 64 }, { "epoch": 0.0014444444444444444, "grad_norm": 1.0440560579299927, "learning_rate": 0.0001997555012224939, "loss": 1.866, "step": 65 }, { "epoch": 0.0014666666666666667, "grad_norm": 0.9532372951507568, "learning_rate": 0.0001997510557901756, "loss": 2.4219, "step": 66 }, { "epoch": 0.001488888888888889, "grad_norm": 0.9747480750083923, "learning_rate": 0.00019974661035785732, "loss": 2.2124, "step": 67 }, { "epoch": 0.001511111111111111, "grad_norm": 1.0619615316390991, "learning_rate": 0.000199742164925539, "loss": 1.8204, "step": 68 }, { "epoch": 0.0015333333333333334, "grad_norm": 1.6607592105865479, "learning_rate": 0.00019973771949322074, "loss": 2.2274, "step": 69 }, { "epoch": 0.0015555555555555555, "grad_norm": 1.3055371046066284, "learning_rate": 0.00019973327406090242, "loss": 2.2607, "step": 70 }, { "epoch": 0.0015777777777777778, "grad_norm": 1.2005525827407837, "learning_rate": 0.00019972882862858413, "loss": 2.0241, "step": 71 }, { "epoch": 0.0016, "grad_norm": 1.1328130960464478, "learning_rate": 0.00019972438319626584, "loss": 2.386, "step": 72 }, { "epoch": 0.0016222222222222222, "grad_norm": 1.0630085468292236, "learning_rate": 0.00019971993776394755, "loss": 2.0699, "step": 73 }, { "epoch": 0.0016444444444444445, "grad_norm": 1.115866780281067, "learning_rate": 0.00019971549233162926, "loss": 2.063, "step": 74 }, { "epoch": 0.0016666666666666668, "grad_norm": 1.1004247665405273, "learning_rate": 0.00019971104689931097, "loss": 2.1662, "step": 75 }, { "epoch": 0.0016888888888888889, "grad_norm": 1.0936720371246338, "learning_rate": 0.00019970660146699268, "loss": 1.9738, "step": 76 }, { "epoch": 0.0017111111111111112, "grad_norm": 1.2349518537521362, "learning_rate": 0.0001997021560346744, "loss": 1.5752, "step": 77 }, { "epoch": 0.0017333333333333333, "grad_norm": 1.0439680814743042, "learning_rate": 0.0001996977106023561, "loss": 1.9034, "step": 78 }, { "epoch": 0.0017555555555555556, "grad_norm": 0.9948009252548218, "learning_rate": 0.00019969326517003778, "loss": 1.8501, "step": 79 }, { "epoch": 0.0017777777777777779, "grad_norm": 1.0389902591705322, "learning_rate": 0.00019968881973771952, "loss": 2.1502, "step": 80 }, { "epoch": 0.0018, "grad_norm": 1.0846196413040161, "learning_rate": 0.0001996843743054012, "loss": 2.108, "step": 81 }, { "epoch": 0.0018222222222222223, "grad_norm": 1.234468936920166, "learning_rate": 0.0001996799288730829, "loss": 2.0001, "step": 82 }, { "epoch": 0.0018444444444444443, "grad_norm": 1.2024580240249634, "learning_rate": 0.00019967548344076462, "loss": 2.3106, "step": 83 }, { "epoch": 0.0018666666666666666, "grad_norm": 1.201183557510376, "learning_rate": 0.00019967103800844633, "loss": 1.9006, "step": 84 }, { "epoch": 0.001888888888888889, "grad_norm": 1.0216937065124512, "learning_rate": 0.00019966659257612804, "loss": 1.6863, "step": 85 }, { "epoch": 0.001911111111111111, "grad_norm": 1.1731654405593872, "learning_rate": 0.00019966214714380975, "loss": 2.3693, "step": 86 }, { "epoch": 0.0019333333333333333, "grad_norm": 1.063701868057251, "learning_rate": 0.00019965770171149146, "loss": 1.988, "step": 87 }, { "epoch": 0.0019555555555555554, "grad_norm": 1.2443939447402954, "learning_rate": 0.00019965325627917314, "loss": 1.4262, "step": 88 }, { "epoch": 0.001977777777777778, "grad_norm": 1.5228159427642822, "learning_rate": 0.00019964881084685488, "loss": 1.9502, "step": 89 }, { "epoch": 0.002, "grad_norm": 1.217005729675293, "learning_rate": 0.00019964436541453656, "loss": 2.0106, "step": 90 }, { "epoch": 0.002022222222222222, "grad_norm": 1.1886168718338013, "learning_rate": 0.00019963991998221827, "loss": 2.0472, "step": 91 }, { "epoch": 0.0020444444444444447, "grad_norm": 1.2553871870040894, "learning_rate": 0.00019963547454989998, "loss": 2.1674, "step": 92 }, { "epoch": 0.0020666666666666667, "grad_norm": 1.221604347229004, "learning_rate": 0.0001996310291175817, "loss": 1.8596, "step": 93 }, { "epoch": 0.002088888888888889, "grad_norm": 1.43986177444458, "learning_rate": 0.0001996265836852634, "loss": 2.1683, "step": 94 }, { "epoch": 0.002111111111111111, "grad_norm": 1.3448739051818848, "learning_rate": 0.0001996221382529451, "loss": 2.3144, "step": 95 }, { "epoch": 0.0021333333333333334, "grad_norm": 1.3225668668746948, "learning_rate": 0.00019961769282062682, "loss": 2.1214, "step": 96 }, { "epoch": 0.0021555555555555555, "grad_norm": 1.2970373630523682, "learning_rate": 0.00019961324738830853, "loss": 1.8806, "step": 97 }, { "epoch": 0.0021777777777777776, "grad_norm": 1.3479090929031372, "learning_rate": 0.00019960880195599024, "loss": 2.0935, "step": 98 }, { "epoch": 0.0022, "grad_norm": 1.3814531564712524, "learning_rate": 0.00019960435652367192, "loss": 2.0354, "step": 99 }, { "epoch": 0.0022222222222222222, "grad_norm": 1.3102446794509888, "learning_rate": 0.00019959991109135366, "loss": 1.2051, "step": 100 }, { "epoch": 0.0022444444444444443, "grad_norm": 0.9198299050331116, "learning_rate": 0.00019959546565903534, "loss": 2.6, "step": 101 }, { "epoch": 0.002266666666666667, "grad_norm": 0.8828571438789368, "learning_rate": 0.00019959102022671705, "loss": 2.1932, "step": 102 }, { "epoch": 0.002288888888888889, "grad_norm": 0.9989007711410522, "learning_rate": 0.00019958657479439876, "loss": 2.681, "step": 103 }, { "epoch": 0.002311111111111111, "grad_norm": 0.8256343007087708, "learning_rate": 0.00019958212936208047, "loss": 2.2186, "step": 104 }, { "epoch": 0.0023333333333333335, "grad_norm": 0.9154222011566162, "learning_rate": 0.00019957768392976218, "loss": 2.4561, "step": 105 }, { "epoch": 0.0023555555555555556, "grad_norm": 0.9879103899002075, "learning_rate": 0.0001995732384974439, "loss": 2.3361, "step": 106 }, { "epoch": 0.0023777777777777777, "grad_norm": 0.9192826151847839, "learning_rate": 0.0001995687930651256, "loss": 2.199, "step": 107 }, { "epoch": 0.0024, "grad_norm": 0.7983688116073608, "learning_rate": 0.00019956434763280728, "loss": 2.302, "step": 108 }, { "epoch": 0.0024222222222222223, "grad_norm": 1.095608115196228, "learning_rate": 0.00019955990220048902, "loss": 2.0953, "step": 109 }, { "epoch": 0.0024444444444444444, "grad_norm": 0.9284802079200745, "learning_rate": 0.0001995554567681707, "loss": 2.2772, "step": 110 }, { "epoch": 0.0024666666666666665, "grad_norm": 0.9606927633285522, "learning_rate": 0.0001995510113358524, "loss": 2.1875, "step": 111 }, { "epoch": 0.002488888888888889, "grad_norm": 1.0119353532791138, "learning_rate": 0.00019954656590353412, "loss": 2.5585, "step": 112 }, { "epoch": 0.002511111111111111, "grad_norm": 1.0580315589904785, "learning_rate": 0.00019954212047121583, "loss": 1.9465, "step": 113 }, { "epoch": 0.002533333333333333, "grad_norm": 1.0393487215042114, "learning_rate": 0.00019953767503889754, "loss": 2.4296, "step": 114 }, { "epoch": 0.0025555555555555557, "grad_norm": 0.9013755321502686, "learning_rate": 0.00019953322960657925, "loss": 2.1599, "step": 115 }, { "epoch": 0.002577777777777778, "grad_norm": 0.9927599430084229, "learning_rate": 0.00019952878417426096, "loss": 2.229, "step": 116 }, { "epoch": 0.0026, "grad_norm": 0.980317234992981, "learning_rate": 0.00019952433874194267, "loss": 2.2677, "step": 117 }, { "epoch": 0.0026222222222222224, "grad_norm": 0.9289875626564026, "learning_rate": 0.00019951989330962438, "loss": 2.0434, "step": 118 }, { "epoch": 0.0026444444444444445, "grad_norm": 1.0189963579177856, "learning_rate": 0.00019951544787730606, "loss": 2.3035, "step": 119 }, { "epoch": 0.0026666666666666666, "grad_norm": 0.948377788066864, "learning_rate": 0.0001995110024449878, "loss": 2.393, "step": 120 }, { "epoch": 0.002688888888888889, "grad_norm": 1.0509932041168213, "learning_rate": 0.0001995065570126695, "loss": 2.0819, "step": 121 }, { "epoch": 0.002711111111111111, "grad_norm": 1.1264628171920776, "learning_rate": 0.0001995021115803512, "loss": 2.4757, "step": 122 }, { "epoch": 0.0027333333333333333, "grad_norm": 1.0365453958511353, "learning_rate": 0.00019949766614803293, "loss": 1.8598, "step": 123 }, { "epoch": 0.0027555555555555554, "grad_norm": 1.0879734754562378, "learning_rate": 0.0001994932207157146, "loss": 1.755, "step": 124 }, { "epoch": 0.002777777777777778, "grad_norm": 1.0849332809448242, "learning_rate": 0.00019948877528339632, "loss": 2.301, "step": 125 }, { "epoch": 0.0028, "grad_norm": 1.2393407821655273, "learning_rate": 0.00019948432985107803, "loss": 2.4259, "step": 126 }, { "epoch": 0.002822222222222222, "grad_norm": 1.0852195024490356, "learning_rate": 0.00019947988441875974, "loss": 2.2987, "step": 127 }, { "epoch": 0.0028444444444444446, "grad_norm": 1.0208133459091187, "learning_rate": 0.00019947543898644142, "loss": 2.0007, "step": 128 }, { "epoch": 0.0028666666666666667, "grad_norm": 1.3235000371932983, "learning_rate": 0.00019947099355412316, "loss": 1.823, "step": 129 }, { "epoch": 0.0028888888888888888, "grad_norm": 1.0890294313430786, "learning_rate": 0.00019946654812180487, "loss": 1.9903, "step": 130 }, { "epoch": 0.0029111111111111113, "grad_norm": 1.0155043601989746, "learning_rate": 0.00019946210268948655, "loss": 2.187, "step": 131 }, { "epoch": 0.0029333333333333334, "grad_norm": 0.9742645025253296, "learning_rate": 0.00019945765725716828, "loss": 1.7798, "step": 132 }, { "epoch": 0.0029555555555555555, "grad_norm": 1.1656670570373535, "learning_rate": 0.00019945321182484997, "loss": 2.091, "step": 133 }, { "epoch": 0.002977777777777778, "grad_norm": 1.167108178138733, "learning_rate": 0.0001994487663925317, "loss": 1.8146, "step": 134 }, { "epoch": 0.003, "grad_norm": 1.1924433708190918, "learning_rate": 0.0001994443209602134, "loss": 2.3853, "step": 135 }, { "epoch": 0.003022222222222222, "grad_norm": 1.0378752946853638, "learning_rate": 0.0001994398755278951, "loss": 2.0718, "step": 136 }, { "epoch": 0.0030444444444444442, "grad_norm": 1.1159776449203491, "learning_rate": 0.0001994354300955768, "loss": 2.0957, "step": 137 }, { "epoch": 0.0030666666666666668, "grad_norm": 1.1870075464248657, "learning_rate": 0.00019943098466325852, "loss": 2.35, "step": 138 }, { "epoch": 0.003088888888888889, "grad_norm": 1.035266637802124, "learning_rate": 0.00019942653923094023, "loss": 1.8653, "step": 139 }, { "epoch": 0.003111111111111111, "grad_norm": 1.1399930715560913, "learning_rate": 0.00019942209379862193, "loss": 1.9809, "step": 140 }, { "epoch": 0.0031333333333333335, "grad_norm": 1.3499666452407837, "learning_rate": 0.00019941764836630364, "loss": 2.2888, "step": 141 }, { "epoch": 0.0031555555555555555, "grad_norm": 1.0297796726226807, "learning_rate": 0.00019941320293398533, "loss": 1.7906, "step": 142 }, { "epoch": 0.0031777777777777776, "grad_norm": 1.1028872728347778, "learning_rate": 0.00019940875750166706, "loss": 2.1624, "step": 143 }, { "epoch": 0.0032, "grad_norm": 1.206077218055725, "learning_rate": 0.00019940431206934875, "loss": 2.1504, "step": 144 }, { "epoch": 0.0032222222222222222, "grad_norm": 1.2086775302886963, "learning_rate": 0.00019939986663703046, "loss": 2.3128, "step": 145 }, { "epoch": 0.0032444444444444443, "grad_norm": 1.1570020914077759, "learning_rate": 0.00019939542120471217, "loss": 2.0801, "step": 146 }, { "epoch": 0.003266666666666667, "grad_norm": 1.0718797445297241, "learning_rate": 0.00019939097577239388, "loss": 2.065, "step": 147 }, { "epoch": 0.003288888888888889, "grad_norm": 1.1464978456497192, "learning_rate": 0.00019938653034007558, "loss": 1.9657, "step": 148 }, { "epoch": 0.003311111111111111, "grad_norm": 1.1516777276992798, "learning_rate": 0.0001993820849077573, "loss": 2.0504, "step": 149 }, { "epoch": 0.0033333333333333335, "grad_norm": 1.5645363330841064, "learning_rate": 0.000199377639475439, "loss": 1.5633, "step": 150 }, { "epoch": 0.0033555555555555556, "grad_norm": 1.1891536712646484, "learning_rate": 0.00019937319404312069, "loss": 3.123, "step": 151 }, { "epoch": 0.0033777777777777777, "grad_norm": 0.9136642813682556, "learning_rate": 0.00019936874861080242, "loss": 2.5287, "step": 152 }, { "epoch": 0.0034, "grad_norm": 0.8435269594192505, "learning_rate": 0.0001993643031784841, "loss": 2.0756, "step": 153 }, { "epoch": 0.0034222222222222223, "grad_norm": 0.9647784233093262, "learning_rate": 0.00019935985774616584, "loss": 2.6655, "step": 154 }, { "epoch": 0.0034444444444444444, "grad_norm": 0.9868387579917908, "learning_rate": 0.00019935541231384752, "loss": 2.2848, "step": 155 }, { "epoch": 0.0034666666666666665, "grad_norm": 0.9726805686950684, "learning_rate": 0.00019935096688152923, "loss": 2.4014, "step": 156 }, { "epoch": 0.003488888888888889, "grad_norm": 0.9441511034965515, "learning_rate": 0.00019934652144921094, "loss": 2.5675, "step": 157 }, { "epoch": 0.003511111111111111, "grad_norm": 0.9878379106521606, "learning_rate": 0.00019934207601689265, "loss": 2.6569, "step": 158 }, { "epoch": 0.003533333333333333, "grad_norm": 0.8798769116401672, "learning_rate": 0.00019933763058457436, "loss": 2.0542, "step": 159 }, { "epoch": 0.0035555555555555557, "grad_norm": 0.9095421433448792, "learning_rate": 0.00019933318515225607, "loss": 2.285, "step": 160 }, { "epoch": 0.003577777777777778, "grad_norm": 0.9291555881500244, "learning_rate": 0.00019932873971993778, "loss": 1.9679, "step": 161 }, { "epoch": 0.0036, "grad_norm": 0.9357460737228394, "learning_rate": 0.00019932429428761947, "loss": 2.3933, "step": 162 }, { "epoch": 0.0036222222222222224, "grad_norm": 0.8855668902397156, "learning_rate": 0.0001993198488553012, "loss": 1.9916, "step": 163 }, { "epoch": 0.0036444444444444445, "grad_norm": 0.9187053442001343, "learning_rate": 0.00019931540342298288, "loss": 2.0824, "step": 164 }, { "epoch": 0.0036666666666666666, "grad_norm": 1.1022460460662842, "learning_rate": 0.0001993109579906646, "loss": 2.568, "step": 165 }, { "epoch": 0.0036888888888888887, "grad_norm": 0.9649732708930969, "learning_rate": 0.0001993065125583463, "loss": 2.2971, "step": 166 }, { "epoch": 0.003711111111111111, "grad_norm": 1.0184253454208374, "learning_rate": 0.000199302067126028, "loss": 1.7719, "step": 167 }, { "epoch": 0.0037333333333333333, "grad_norm": 0.9337177872657776, "learning_rate": 0.00019929762169370972, "loss": 2.2636, "step": 168 }, { "epoch": 0.0037555555555555554, "grad_norm": 1.0286427736282349, "learning_rate": 0.00019929317626139143, "loss": 2.2228, "step": 169 }, { "epoch": 0.003777777777777778, "grad_norm": 1.1010359525680542, "learning_rate": 0.00019928873082907314, "loss": 2.1194, "step": 170 }, { "epoch": 0.0038, "grad_norm": 0.9902762174606323, "learning_rate": 0.00019928428539675482, "loss": 2.0477, "step": 171 }, { "epoch": 0.003822222222222222, "grad_norm": 1.027158498764038, "learning_rate": 0.00019927983996443656, "loss": 2.2227, "step": 172 }, { "epoch": 0.0038444444444444446, "grad_norm": 1.1360422372817993, "learning_rate": 0.00019927539453211824, "loss": 2.1383, "step": 173 }, { "epoch": 0.0038666666666666667, "grad_norm": 1.079567790031433, "learning_rate": 0.00019927094909979998, "loss": 2.0045, "step": 174 }, { "epoch": 0.0038888888888888888, "grad_norm": 1.1772125959396362, "learning_rate": 0.00019926650366748166, "loss": 2.391, "step": 175 }, { "epoch": 0.003911111111111111, "grad_norm": 1.141251564025879, "learning_rate": 0.00019926205823516337, "loss": 2.3594, "step": 176 }, { "epoch": 0.003933333333333333, "grad_norm": 1.1975033283233643, "learning_rate": 0.00019925761280284508, "loss": 2.3618, "step": 177 }, { "epoch": 0.003955555555555556, "grad_norm": 1.1129261255264282, "learning_rate": 0.0001992531673705268, "loss": 2.2306, "step": 178 }, { "epoch": 0.003977777777777778, "grad_norm": 1.1002864837646484, "learning_rate": 0.0001992487219382085, "loss": 1.8381, "step": 179 }, { "epoch": 0.004, "grad_norm": 1.1377021074295044, "learning_rate": 0.0001992442765058902, "loss": 2.0356, "step": 180 }, { "epoch": 0.004022222222222222, "grad_norm": 1.4153897762298584, "learning_rate": 0.00019923983107357192, "loss": 2.7178, "step": 181 }, { "epoch": 0.004044444444444444, "grad_norm": 1.2157433032989502, "learning_rate": 0.0001992353856412536, "loss": 2.4506, "step": 182 }, { "epoch": 0.004066666666666666, "grad_norm": 0.9832949638366699, "learning_rate": 0.00019923094020893534, "loss": 1.741, "step": 183 }, { "epoch": 0.004088888888888889, "grad_norm": 1.001465916633606, "learning_rate": 0.00019922649477661702, "loss": 2.0157, "step": 184 }, { "epoch": 0.004111111111111111, "grad_norm": 1.265584945678711, "learning_rate": 0.00019922204934429873, "loss": 1.9393, "step": 185 }, { "epoch": 0.0041333333333333335, "grad_norm": 0.9340965747833252, "learning_rate": 0.00019921760391198044, "loss": 1.5743, "step": 186 }, { "epoch": 0.0041555555555555556, "grad_norm": 1.1283515691757202, "learning_rate": 0.00019921315847966215, "loss": 2.1761, "step": 187 }, { "epoch": 0.004177777777777778, "grad_norm": 1.1578409671783447, "learning_rate": 0.00019920871304734386, "loss": 1.9808, "step": 188 }, { "epoch": 0.0042, "grad_norm": 1.1886849403381348, "learning_rate": 0.00019920426761502557, "loss": 2.0558, "step": 189 }, { "epoch": 0.004222222222222222, "grad_norm": 1.1597763299942017, "learning_rate": 0.00019919982218270728, "loss": 1.7477, "step": 190 }, { "epoch": 0.004244444444444445, "grad_norm": 1.3805791139602661, "learning_rate": 0.000199195376750389, "loss": 2.417, "step": 191 }, { "epoch": 0.004266666666666667, "grad_norm": 1.0003913640975952, "learning_rate": 0.0001991909313180707, "loss": 1.6218, "step": 192 }, { "epoch": 0.004288888888888889, "grad_norm": 1.3551957607269287, "learning_rate": 0.00019918648588575238, "loss": 1.9898, "step": 193 }, { "epoch": 0.004311111111111111, "grad_norm": 1.1434892416000366, "learning_rate": 0.00019918204045343412, "loss": 1.9191, "step": 194 }, { "epoch": 0.004333333333333333, "grad_norm": 1.4276580810546875, "learning_rate": 0.00019917759502111583, "loss": 2.6117, "step": 195 }, { "epoch": 0.004355555555555555, "grad_norm": 1.2569234371185303, "learning_rate": 0.0001991731495887975, "loss": 2.3478, "step": 196 }, { "epoch": 0.004377777777777778, "grad_norm": 1.2063052654266357, "learning_rate": 0.00019916870415647925, "loss": 1.7194, "step": 197 }, { "epoch": 0.0044, "grad_norm": 1.2578668594360352, "learning_rate": 0.00019916425872416093, "loss": 1.8399, "step": 198 }, { "epoch": 0.004422222222222222, "grad_norm": 1.3557889461517334, "learning_rate": 0.00019915981329184264, "loss": 1.7986, "step": 199 }, { "epoch": 0.0044444444444444444, "grad_norm": 1.1643545627593994, "learning_rate": 0.00019915536785952435, "loss": 0.9736, "step": 200 }, { "epoch": 0.0044666666666666665, "grad_norm": 0.8325818777084351, "learning_rate": 0.00019915092242720606, "loss": 2.4007, "step": 201 }, { "epoch": 0.004488888888888889, "grad_norm": 0.8650193810462952, "learning_rate": 0.00019914647699488774, "loss": 2.5101, "step": 202 }, { "epoch": 0.004511111111111111, "grad_norm": 0.9151462912559509, "learning_rate": 0.00019914203156256948, "loss": 2.5409, "step": 203 }, { "epoch": 0.004533333333333334, "grad_norm": 0.9534851312637329, "learning_rate": 0.0001991375861302512, "loss": 2.5584, "step": 204 }, { "epoch": 0.004555555555555556, "grad_norm": 1.0231379270553589, "learning_rate": 0.00019913314069793287, "loss": 2.6602, "step": 205 }, { "epoch": 0.004577777777777778, "grad_norm": 0.9632158875465393, "learning_rate": 0.0001991286952656146, "loss": 2.6002, "step": 206 }, { "epoch": 0.0046, "grad_norm": 1.0429253578186035, "learning_rate": 0.0001991242498332963, "loss": 2.6089, "step": 207 }, { "epoch": 0.004622222222222222, "grad_norm": 0.9749168753623962, "learning_rate": 0.000199119804400978, "loss": 2.3811, "step": 208 }, { "epoch": 0.004644444444444444, "grad_norm": 0.9203815460205078, "learning_rate": 0.0001991153589686597, "loss": 2.1381, "step": 209 }, { "epoch": 0.004666666666666667, "grad_norm": 0.9455024600028992, "learning_rate": 0.00019911091353634142, "loss": 2.146, "step": 210 }, { "epoch": 0.004688888888888889, "grad_norm": 0.9243069291114807, "learning_rate": 0.00019910646810402313, "loss": 2.1003, "step": 211 }, { "epoch": 0.004711111111111111, "grad_norm": 1.0209660530090332, "learning_rate": 0.00019910202267170484, "loss": 2.071, "step": 212 }, { "epoch": 0.004733333333333333, "grad_norm": 1.012393593788147, "learning_rate": 0.00019909757723938655, "loss": 2.2602, "step": 213 }, { "epoch": 0.004755555555555555, "grad_norm": 0.9024783372879028, "learning_rate": 0.00019909313180706826, "loss": 2.0416, "step": 214 }, { "epoch": 0.0047777777777777775, "grad_norm": 0.9131224155426025, "learning_rate": 0.00019908868637474997, "loss": 2.0136, "step": 215 }, { "epoch": 0.0048, "grad_norm": 1.0129530429840088, "learning_rate": 0.00019908424094243165, "loss": 2.1961, "step": 216 }, { "epoch": 0.0048222222222222225, "grad_norm": 1.032002568244934, "learning_rate": 0.00019907979551011339, "loss": 2.4571, "step": 217 }, { "epoch": 0.004844444444444445, "grad_norm": 1.0772045850753784, "learning_rate": 0.00019907535007779507, "loss": 2.4692, "step": 218 }, { "epoch": 0.004866666666666667, "grad_norm": 1.191462516784668, "learning_rate": 0.00019907090464547678, "loss": 2.4173, "step": 219 }, { "epoch": 0.004888888888888889, "grad_norm": 0.932000458240509, "learning_rate": 0.0001990664592131585, "loss": 1.8604, "step": 220 }, { "epoch": 0.004911111111111111, "grad_norm": 0.981555163860321, "learning_rate": 0.0001990620137808402, "loss": 2.0899, "step": 221 }, { "epoch": 0.004933333333333333, "grad_norm": 1.1891900300979614, "learning_rate": 0.0001990575683485219, "loss": 2.5571, "step": 222 }, { "epoch": 0.004955555555555556, "grad_norm": 1.1692445278167725, "learning_rate": 0.00019905312291620362, "loss": 2.5805, "step": 223 }, { "epoch": 0.004977777777777778, "grad_norm": 1.0407524108886719, "learning_rate": 0.00019904867748388533, "loss": 2.2875, "step": 224 }, { "epoch": 0.005, "grad_norm": 1.0695056915283203, "learning_rate": 0.000199044232051567, "loss": 2.0416, "step": 225 }, { "epoch": 0.005022222222222222, "grad_norm": 1.0115299224853516, "learning_rate": 0.00019903978661924875, "loss": 1.7508, "step": 226 }, { "epoch": 0.005044444444444444, "grad_norm": 1.1566762924194336, "learning_rate": 0.00019903534118693043, "loss": 2.4423, "step": 227 }, { "epoch": 0.005066666666666666, "grad_norm": 0.9989776015281677, "learning_rate": 0.00019903089575461216, "loss": 2.151, "step": 228 }, { "epoch": 0.005088888888888889, "grad_norm": 1.2262234687805176, "learning_rate": 0.00019902645032229385, "loss": 2.2061, "step": 229 }, { "epoch": 0.005111111111111111, "grad_norm": 1.2781702280044556, "learning_rate": 0.00019902200488997556, "loss": 2.2511, "step": 230 }, { "epoch": 0.0051333333333333335, "grad_norm": 1.030868411064148, "learning_rate": 0.00019901755945765727, "loss": 1.8807, "step": 231 }, { "epoch": 0.005155555555555556, "grad_norm": 1.1099014282226562, "learning_rate": 0.00019901311402533898, "loss": 1.851, "step": 232 }, { "epoch": 0.005177777777777778, "grad_norm": 1.1968982219696045, "learning_rate": 0.00019900866859302069, "loss": 2.3074, "step": 233 }, { "epoch": 0.0052, "grad_norm": 4.037053108215332, "learning_rate": 0.0001990042231607024, "loss": 1.2435, "step": 234 }, { "epoch": 0.005222222222222222, "grad_norm": 1.3485006093978882, "learning_rate": 0.0001989997777283841, "loss": 2.6664, "step": 235 }, { "epoch": 0.005244444444444445, "grad_norm": 1.3291981220245361, "learning_rate": 0.0001989953322960658, "loss": 2.6971, "step": 236 }, { "epoch": 0.005266666666666667, "grad_norm": 1.1521776914596558, "learning_rate": 0.00019899088686374752, "loss": 1.7944, "step": 237 }, { "epoch": 0.005288888888888889, "grad_norm": 1.2484724521636963, "learning_rate": 0.0001989864414314292, "loss": 2.0471, "step": 238 }, { "epoch": 0.005311111111111111, "grad_norm": 1.1432991027832031, "learning_rate": 0.00019898199599911092, "loss": 1.7747, "step": 239 }, { "epoch": 0.005333333333333333, "grad_norm": 1.2061238288879395, "learning_rate": 0.00019897755056679263, "loss": 2.0491, "step": 240 }, { "epoch": 0.005355555555555555, "grad_norm": 1.239780068397522, "learning_rate": 0.00019897310513447434, "loss": 1.9352, "step": 241 }, { "epoch": 0.005377777777777778, "grad_norm": 1.127219319343567, "learning_rate": 0.00019896865970215604, "loss": 1.8506, "step": 242 }, { "epoch": 0.0054, "grad_norm": 1.2166545391082764, "learning_rate": 0.00019896421426983775, "loss": 1.9212, "step": 243 }, { "epoch": 0.005422222222222222, "grad_norm": 1.2617690563201904, "learning_rate": 0.00019895976883751946, "loss": 2.2364, "step": 244 }, { "epoch": 0.0054444444444444445, "grad_norm": 1.1415480375289917, "learning_rate": 0.00019895532340520115, "loss": 1.6936, "step": 245 }, { "epoch": 0.0054666666666666665, "grad_norm": 1.3354425430297852, "learning_rate": 0.00019895087797288288, "loss": 2.2787, "step": 246 }, { "epoch": 0.005488888888888889, "grad_norm": 1.2059561014175415, "learning_rate": 0.00019894643254056457, "loss": 1.8052, "step": 247 }, { "epoch": 0.005511111111111111, "grad_norm": 1.4655388593673706, "learning_rate": 0.0001989419871082463, "loss": 2.0077, "step": 248 }, { "epoch": 0.005533333333333334, "grad_norm": 1.3460962772369385, "learning_rate": 0.00019893754167592799, "loss": 1.5681, "step": 249 }, { "epoch": 0.005555555555555556, "grad_norm": 1.3929909467697144, "learning_rate": 0.0001989330962436097, "loss": 1.0755, "step": 250 }, { "epoch": 0.005577777777777778, "grad_norm": 0.882461667060852, "learning_rate": 0.0001989286508112914, "loss": 2.3571, "step": 251 }, { "epoch": 0.0056, "grad_norm": 0.8160984516143799, "learning_rate": 0.00019892420537897311, "loss": 2.1735, "step": 252 }, { "epoch": 0.005622222222222222, "grad_norm": 0.960930585861206, "learning_rate": 0.00019891975994665482, "loss": 2.6054, "step": 253 }, { "epoch": 0.005644444444444444, "grad_norm": 0.8251810669898987, "learning_rate": 0.00019891531451433653, "loss": 2.0065, "step": 254 }, { "epoch": 0.005666666666666667, "grad_norm": 1.0334161520004272, "learning_rate": 0.00019891086908201824, "loss": 2.6611, "step": 255 }, { "epoch": 0.005688888888888889, "grad_norm": 0.842257559299469, "learning_rate": 0.00019890642364969993, "loss": 2.4828, "step": 256 }, { "epoch": 0.005711111111111111, "grad_norm": 0.9164858460426331, "learning_rate": 0.00019890197821738166, "loss": 2.1206, "step": 257 }, { "epoch": 0.005733333333333333, "grad_norm": 0.9651452898979187, "learning_rate": 0.00019889753278506334, "loss": 2.4083, "step": 258 }, { "epoch": 0.005755555555555555, "grad_norm": 0.9866958260536194, "learning_rate": 0.00019889308735274505, "loss": 2.1013, "step": 259 }, { "epoch": 0.0057777777777777775, "grad_norm": 1.070527195930481, "learning_rate": 0.00019888864192042676, "loss": 2.2968, "step": 260 }, { "epoch": 0.0058, "grad_norm": 0.9571377038955688, "learning_rate": 0.00019888419648810847, "loss": 2.1576, "step": 261 }, { "epoch": 0.0058222222222222226, "grad_norm": 0.9992108345031738, "learning_rate": 0.00019887975105579018, "loss": 2.2888, "step": 262 }, { "epoch": 0.005844444444444445, "grad_norm": 1.1087584495544434, "learning_rate": 0.0001988753056234719, "loss": 2.5346, "step": 263 }, { "epoch": 0.005866666666666667, "grad_norm": 0.9204451441764832, "learning_rate": 0.0001988708601911536, "loss": 2.1632, "step": 264 }, { "epoch": 0.005888888888888889, "grad_norm": 1.0632692575454712, "learning_rate": 0.00019886641475883528, "loss": 2.0163, "step": 265 }, { "epoch": 0.005911111111111111, "grad_norm": 0.8824703693389893, "learning_rate": 0.00019886196932651702, "loss": 2.1842, "step": 266 }, { "epoch": 0.005933333333333333, "grad_norm": 0.9968849420547485, "learning_rate": 0.0001988575238941987, "loss": 1.759, "step": 267 }, { "epoch": 0.005955555555555556, "grad_norm": 0.8787574768066406, "learning_rate": 0.00019885307846188044, "loss": 1.9331, "step": 268 }, { "epoch": 0.005977777777777778, "grad_norm": 0.9968923926353455, "learning_rate": 0.00019884863302956215, "loss": 2.1228, "step": 269 }, { "epoch": 0.006, "grad_norm": 1.0544264316558838, "learning_rate": 0.00019884418759724383, "loss": 2.2878, "step": 270 }, { "epoch": 0.006022222222222222, "grad_norm": 1.1249428987503052, "learning_rate": 0.00019883974216492557, "loss": 2.7626, "step": 271 }, { "epoch": 0.006044444444444444, "grad_norm": 1.0347892045974731, "learning_rate": 0.00019883529673260725, "loss": 2.0306, "step": 272 }, { "epoch": 0.006066666666666666, "grad_norm": 1.2068800926208496, "learning_rate": 0.00019883085130028896, "loss": 2.2855, "step": 273 }, { "epoch": 0.0060888888888888885, "grad_norm": 1.149796485900879, "learning_rate": 0.00019882640586797067, "loss": 2.152, "step": 274 }, { "epoch": 0.006111111111111111, "grad_norm": 1.0143542289733887, "learning_rate": 0.00019882196043565238, "loss": 2.0048, "step": 275 }, { "epoch": 0.0061333333333333335, "grad_norm": 1.0721570253372192, "learning_rate": 0.00019881751500333406, "loss": 1.7903, "step": 276 }, { "epoch": 0.006155555555555556, "grad_norm": 1.0670387744903564, "learning_rate": 0.0001988130695710158, "loss": 2.0941, "step": 277 }, { "epoch": 0.006177777777777778, "grad_norm": 1.0809588432312012, "learning_rate": 0.0001988086241386975, "loss": 1.9082, "step": 278 }, { "epoch": 0.0062, "grad_norm": 1.0367165803909302, "learning_rate": 0.0001988041787063792, "loss": 2.0686, "step": 279 }, { "epoch": 0.006222222222222222, "grad_norm": 1.156284213066101, "learning_rate": 0.00019879973327406093, "loss": 1.902, "step": 280 }, { "epoch": 0.006244444444444445, "grad_norm": 1.3220890760421753, "learning_rate": 0.0001987952878417426, "loss": 2.62, "step": 281 }, { "epoch": 0.006266666666666667, "grad_norm": 1.1455974578857422, "learning_rate": 0.00019879084240942432, "loss": 1.9175, "step": 282 }, { "epoch": 0.006288888888888889, "grad_norm": 0.9246114492416382, "learning_rate": 0.00019878639697710603, "loss": 1.3599, "step": 283 }, { "epoch": 0.006311111111111111, "grad_norm": 1.1708238124847412, "learning_rate": 0.00019878195154478774, "loss": 1.9443, "step": 284 }, { "epoch": 0.006333333333333333, "grad_norm": 1.157710313796997, "learning_rate": 0.00019877750611246945, "loss": 2.2282, "step": 285 }, { "epoch": 0.006355555555555555, "grad_norm": 1.285626769065857, "learning_rate": 0.00019877306068015116, "loss": 2.1003, "step": 286 }, { "epoch": 0.006377777777777777, "grad_norm": 1.0390872955322266, "learning_rate": 0.00019876861524783287, "loss": 1.8012, "step": 287 }, { "epoch": 0.0064, "grad_norm": 1.1510474681854248, "learning_rate": 0.00019876416981551458, "loss": 2.1254, "step": 288 }, { "epoch": 0.006422222222222222, "grad_norm": 1.3641140460968018, "learning_rate": 0.0001987597243831963, "loss": 2.3282, "step": 289 }, { "epoch": 0.0064444444444444445, "grad_norm": 1.0441592931747437, "learning_rate": 0.00019875527895087797, "loss": 1.7094, "step": 290 }, { "epoch": 0.006466666666666667, "grad_norm": 1.1648244857788086, "learning_rate": 0.0001987508335185597, "loss": 2.133, "step": 291 }, { "epoch": 0.006488888888888889, "grad_norm": 1.0608255863189697, "learning_rate": 0.0001987463880862414, "loss": 2.0179, "step": 292 }, { "epoch": 0.006511111111111111, "grad_norm": 1.0799864530563354, "learning_rate": 0.0001987419426539231, "loss": 1.9634, "step": 293 }, { "epoch": 0.006533333333333334, "grad_norm": 1.2921239137649536, "learning_rate": 0.0001987374972216048, "loss": 2.4441, "step": 294 }, { "epoch": 0.006555555555555556, "grad_norm": 1.1664376258850098, "learning_rate": 0.00019873305178928652, "loss": 1.9942, "step": 295 }, { "epoch": 0.006577777777777778, "grad_norm": 1.1544493436813354, "learning_rate": 0.00019872860635696823, "loss": 1.8961, "step": 296 }, { "epoch": 0.0066, "grad_norm": 1.3305240869522095, "learning_rate": 0.00019872416092464994, "loss": 1.856, "step": 297 }, { "epoch": 0.006622222222222222, "grad_norm": 1.4333610534667969, "learning_rate": 0.00019871971549233165, "loss": 2.0938, "step": 298 }, { "epoch": 0.006644444444444444, "grad_norm": 1.2909725904464722, "learning_rate": 0.00019871527006001333, "loss": 1.6913, "step": 299 }, { "epoch": 0.006666666666666667, "grad_norm": 1.4358770847320557, "learning_rate": 0.00019871082462769507, "loss": 1.5876, "step": 300 }, { "epoch": 0.006688888888888889, "grad_norm": 0.8535404205322266, "learning_rate": 0.00019870637919537675, "loss": 1.9958, "step": 301 }, { "epoch": 0.006711111111111111, "grad_norm": 1.211012363433838, "learning_rate": 0.00019870193376305846, "loss": 2.779, "step": 302 }, { "epoch": 0.006733333333333333, "grad_norm": 1.0414246320724487, "learning_rate": 0.00019869748833074017, "loss": 2.8231, "step": 303 }, { "epoch": 0.0067555555555555554, "grad_norm": 1.2068099975585938, "learning_rate": 0.00019869304289842188, "loss": 1.6087, "step": 304 }, { "epoch": 0.0067777777777777775, "grad_norm": 0.9062244296073914, "learning_rate": 0.0001986885974661036, "loss": 2.0376, "step": 305 }, { "epoch": 0.0068, "grad_norm": 1.050722599029541, "learning_rate": 0.0001986841520337853, "loss": 2.4353, "step": 306 }, { "epoch": 0.006822222222222223, "grad_norm": 1.019980788230896, "learning_rate": 0.000198679706601467, "loss": 3.0914, "step": 307 }, { "epoch": 0.006844444444444445, "grad_norm": 1.0676994323730469, "learning_rate": 0.00019867526116914872, "loss": 2.7055, "step": 308 }, { "epoch": 0.006866666666666667, "grad_norm": 1.0136735439300537, "learning_rate": 0.00019867081573683043, "loss": 2.2563, "step": 309 }, { "epoch": 0.006888888888888889, "grad_norm": 1.0082719326019287, "learning_rate": 0.0001986663703045121, "loss": 2.1568, "step": 310 }, { "epoch": 0.006911111111111111, "grad_norm": 1.094128131866455, "learning_rate": 0.00019866192487219385, "loss": 2.389, "step": 311 }, { "epoch": 0.006933333333333333, "grad_norm": 1.003639817237854, "learning_rate": 0.00019865747943987553, "loss": 2.3295, "step": 312 }, { "epoch": 0.006955555555555556, "grad_norm": 1.0831363201141357, "learning_rate": 0.00019865303400755724, "loss": 2.0496, "step": 313 }, { "epoch": 0.006977777777777778, "grad_norm": 1.0065604448318481, "learning_rate": 0.00019864858857523895, "loss": 2.1804, "step": 314 }, { "epoch": 0.007, "grad_norm": 1.0352177619934082, "learning_rate": 0.00019864414314292066, "loss": 2.4527, "step": 315 }, { "epoch": 0.007022222222222222, "grad_norm": 1.0518782138824463, "learning_rate": 0.00019863969771060237, "loss": 2.3495, "step": 316 }, { "epoch": 0.007044444444444444, "grad_norm": 1.220797061920166, "learning_rate": 0.00019863525227828408, "loss": 2.4, "step": 317 }, { "epoch": 0.007066666666666666, "grad_norm": 1.1383063793182373, "learning_rate": 0.00019863080684596579, "loss": 2.4244, "step": 318 }, { "epoch": 0.0070888888888888885, "grad_norm": 1.526397943496704, "learning_rate": 0.00019862636141364747, "loss": 1.7485, "step": 319 }, { "epoch": 0.0071111111111111115, "grad_norm": 1.0949018001556396, "learning_rate": 0.0001986219159813292, "loss": 1.9363, "step": 320 }, { "epoch": 0.0071333333333333335, "grad_norm": 1.0451679229736328, "learning_rate": 0.0001986174705490109, "loss": 1.9554, "step": 321 }, { "epoch": 0.007155555555555556, "grad_norm": 1.0854243040084839, "learning_rate": 0.0001986130251166926, "loss": 2.1951, "step": 322 }, { "epoch": 0.007177777777777778, "grad_norm": 1.0035200119018555, "learning_rate": 0.0001986085796843743, "loss": 1.6209, "step": 323 }, { "epoch": 0.0072, "grad_norm": 1.0116002559661865, "learning_rate": 0.00019860413425205602, "loss": 1.7879, "step": 324 }, { "epoch": 0.007222222222222222, "grad_norm": 1.1284961700439453, "learning_rate": 0.00019859968881973773, "loss": 2.0992, "step": 325 }, { "epoch": 0.007244444444444445, "grad_norm": 1.320739984512329, "learning_rate": 0.00019859524338741944, "loss": 2.3344, "step": 326 }, { "epoch": 0.007266666666666667, "grad_norm": 1.277235507965088, "learning_rate": 0.00019859079795510115, "loss": 2.425, "step": 327 }, { "epoch": 0.007288888888888889, "grad_norm": 1.2710049152374268, "learning_rate": 0.00019858635252278286, "loss": 2.4202, "step": 328 }, { "epoch": 0.007311111111111111, "grad_norm": 1.2284647226333618, "learning_rate": 0.00019858190709046456, "loss": 2.1545, "step": 329 }, { "epoch": 0.007333333333333333, "grad_norm": 1.0845654010772705, "learning_rate": 0.00019857746165814625, "loss": 2.2328, "step": 330 }, { "epoch": 0.007355555555555555, "grad_norm": 1.2547738552093506, "learning_rate": 0.00019857301622582798, "loss": 2.133, "step": 331 }, { "epoch": 0.007377777777777777, "grad_norm": 1.1611700057983398, "learning_rate": 0.00019856857079350967, "loss": 2.0966, "step": 332 }, { "epoch": 0.0074, "grad_norm": 1.2430363893508911, "learning_rate": 0.00019856412536119138, "loss": 2.4461, "step": 333 }, { "epoch": 0.007422222222222222, "grad_norm": 1.3478891849517822, "learning_rate": 0.00019855967992887309, "loss": 2.933, "step": 334 }, { "epoch": 0.0074444444444444445, "grad_norm": 1.0155457258224487, "learning_rate": 0.0001985552344965548, "loss": 1.592, "step": 335 }, { "epoch": 0.007466666666666667, "grad_norm": 1.3190248012542725, "learning_rate": 0.0001985507890642365, "loss": 2.4571, "step": 336 }, { "epoch": 0.007488888888888889, "grad_norm": 1.029272437095642, "learning_rate": 0.00019854634363191821, "loss": 1.934, "step": 337 }, { "epoch": 0.007511111111111111, "grad_norm": 1.2280033826828003, "learning_rate": 0.00019854189819959992, "loss": 2.1479, "step": 338 }, { "epoch": 0.007533333333333334, "grad_norm": 1.4739404916763306, "learning_rate": 0.0001985374527672816, "loss": 2.152, "step": 339 }, { "epoch": 0.007555555555555556, "grad_norm": 1.1608688831329346, "learning_rate": 0.00019853300733496334, "loss": 1.92, "step": 340 }, { "epoch": 0.007577777777777778, "grad_norm": 1.4820302724838257, "learning_rate": 0.00019852856190264503, "loss": 2.2862, "step": 341 }, { "epoch": 0.0076, "grad_norm": 1.1243106126785278, "learning_rate": 0.00019852411647032676, "loss": 1.8865, "step": 342 }, { "epoch": 0.007622222222222222, "grad_norm": 1.044349193572998, "learning_rate": 0.00019851967103800847, "loss": 1.8475, "step": 343 }, { "epoch": 0.007644444444444444, "grad_norm": 1.279213309288025, "learning_rate": 0.00019851522560569015, "loss": 1.9203, "step": 344 }, { "epoch": 0.007666666666666666, "grad_norm": 1.4509048461914062, "learning_rate": 0.0001985107801733719, "loss": 2.2009, "step": 345 }, { "epoch": 0.007688888888888889, "grad_norm": 1.2652575969696045, "learning_rate": 0.00019850633474105357, "loss": 1.904, "step": 346 }, { "epoch": 0.007711111111111111, "grad_norm": 1.2127101421356201, "learning_rate": 0.00019850188930873528, "loss": 1.9152, "step": 347 }, { "epoch": 0.007733333333333333, "grad_norm": 1.404150128364563, "learning_rate": 0.000198497443876417, "loss": 1.9976, "step": 348 }, { "epoch": 0.0077555555555555555, "grad_norm": 1.2537544965744019, "learning_rate": 0.0001984929984440987, "loss": 2.0656, "step": 349 }, { "epoch": 0.0077777777777777776, "grad_norm": 1.3624613285064697, "learning_rate": 0.00019848855301178039, "loss": 1.1099, "step": 350 }, { "epoch": 0.0078, "grad_norm": 0.81158047914505, "learning_rate": 0.00019848410757946212, "loss": 1.8968, "step": 351 }, { "epoch": 0.007822222222222222, "grad_norm": 0.880883514881134, "learning_rate": 0.00019847966214714383, "loss": 1.9325, "step": 352 }, { "epoch": 0.007844444444444444, "grad_norm": 0.8987894058227539, "learning_rate": 0.00019847521671482551, "loss": 2.2298, "step": 353 }, { "epoch": 0.007866666666666666, "grad_norm": 1.0311617851257324, "learning_rate": 0.00019847077128250725, "loss": 2.3218, "step": 354 }, { "epoch": 0.00788888888888889, "grad_norm": 0.8493891954421997, "learning_rate": 0.00019846632585018893, "loss": 1.7183, "step": 355 }, { "epoch": 0.007911111111111112, "grad_norm": 1.1851890087127686, "learning_rate": 0.00019846188041787064, "loss": 2.8064, "step": 356 }, { "epoch": 0.007933333333333334, "grad_norm": 1.2422465085983276, "learning_rate": 0.00019845743498555235, "loss": 2.3756, "step": 357 }, { "epoch": 0.007955555555555556, "grad_norm": 1.0323742628097534, "learning_rate": 0.00019845298955323406, "loss": 2.0961, "step": 358 }, { "epoch": 0.007977777777777778, "grad_norm": 1.067252278327942, "learning_rate": 0.00019844854412091575, "loss": 2.1538, "step": 359 }, { "epoch": 0.008, "grad_norm": 1.0115009546279907, "learning_rate": 0.00019844409868859748, "loss": 2.3508, "step": 360 }, { "epoch": 0.008022222222222222, "grad_norm": 1.1757656335830688, "learning_rate": 0.0001984396532562792, "loss": 2.6968, "step": 361 }, { "epoch": 0.008044444444444444, "grad_norm": 1.1666429042816162, "learning_rate": 0.0001984352078239609, "loss": 2.6373, "step": 362 }, { "epoch": 0.008066666666666666, "grad_norm": 1.017223596572876, "learning_rate": 0.0001984307623916426, "loss": 2.3417, "step": 363 }, { "epoch": 0.008088888888888889, "grad_norm": 1.0340126752853394, "learning_rate": 0.0001984263169593243, "loss": 2.1653, "step": 364 }, { "epoch": 0.00811111111111111, "grad_norm": 1.080710768699646, "learning_rate": 0.00019842187152700603, "loss": 2.0727, "step": 365 }, { "epoch": 0.008133333333333333, "grad_norm": 1.028197169303894, "learning_rate": 0.0001984174260946877, "loss": 2.2213, "step": 366 }, { "epoch": 0.008155555555555555, "grad_norm": 1.0855611562728882, "learning_rate": 0.00019841298066236942, "loss": 2.2509, "step": 367 }, { "epoch": 0.008177777777777779, "grad_norm": 1.209976315498352, "learning_rate": 0.00019840853523005113, "loss": 2.4916, "step": 368 }, { "epoch": 0.0082, "grad_norm": 1.2807508707046509, "learning_rate": 0.00019840408979773284, "loss": 2.5933, "step": 369 }, { "epoch": 0.008222222222222223, "grad_norm": 1.2134485244750977, "learning_rate": 0.00019839964436541455, "loss": 2.3836, "step": 370 }, { "epoch": 0.008244444444444445, "grad_norm": 1.2704893350601196, "learning_rate": 0.00019839519893309626, "loss": 2.2113, "step": 371 }, { "epoch": 0.008266666666666667, "grad_norm": 1.1323747634887695, "learning_rate": 0.00019839075350077797, "loss": 2.1391, "step": 372 }, { "epoch": 0.008288888888888889, "grad_norm": 1.337632417678833, "learning_rate": 0.00019838630806845965, "loss": 2.0809, "step": 373 }, { "epoch": 0.008311111111111111, "grad_norm": 1.1467673778533936, "learning_rate": 0.0001983818626361414, "loss": 2.1559, "step": 374 }, { "epoch": 0.008333333333333333, "grad_norm": 1.0973697900772095, "learning_rate": 0.00019837741720382307, "loss": 2.1691, "step": 375 }, { "epoch": 0.008355555555555555, "grad_norm": 1.081419825553894, "learning_rate": 0.00019837297177150478, "loss": 1.8748, "step": 376 }, { "epoch": 0.008377777777777777, "grad_norm": 1.1397238969802856, "learning_rate": 0.0001983685263391865, "loss": 2.4479, "step": 377 }, { "epoch": 0.0084, "grad_norm": 1.1830220222473145, "learning_rate": 0.0001983640809068682, "loss": 1.8428, "step": 378 }, { "epoch": 0.008422222222222222, "grad_norm": 1.1788650751113892, "learning_rate": 0.0001983596354745499, "loss": 2.3886, "step": 379 }, { "epoch": 0.008444444444444444, "grad_norm": 1.1691720485687256, "learning_rate": 0.00019835519004223162, "loss": 2.1664, "step": 380 }, { "epoch": 0.008466666666666667, "grad_norm": 1.2139278650283813, "learning_rate": 0.00019835074460991333, "loss": 2.1289, "step": 381 }, { "epoch": 0.00848888888888889, "grad_norm": 1.1885567903518677, "learning_rate": 0.00019834629917759504, "loss": 2.1388, "step": 382 }, { "epoch": 0.008511111111111112, "grad_norm": 1.0878989696502686, "learning_rate": 0.00019834185374527675, "loss": 2.1997, "step": 383 }, { "epoch": 0.008533333333333334, "grad_norm": 1.1863476037979126, "learning_rate": 0.00019833740831295843, "loss": 2.0619, "step": 384 }, { "epoch": 0.008555555555555556, "grad_norm": 0.9970036149024963, "learning_rate": 0.00019833296288064017, "loss": 1.9043, "step": 385 }, { "epoch": 0.008577777777777778, "grad_norm": 1.1479637622833252, "learning_rate": 0.00019832851744832185, "loss": 2.0531, "step": 386 }, { "epoch": 0.0086, "grad_norm": 1.1556382179260254, "learning_rate": 0.00019832407201600356, "loss": 1.9609, "step": 387 }, { "epoch": 0.008622222222222222, "grad_norm": 1.0361340045928955, "learning_rate": 0.00019831962658368527, "loss": 1.5959, "step": 388 }, { "epoch": 0.008644444444444444, "grad_norm": 1.329168438911438, "learning_rate": 0.00019831518115136698, "loss": 1.99, "step": 389 }, { "epoch": 0.008666666666666666, "grad_norm": 0.9925628900527954, "learning_rate": 0.0001983107357190487, "loss": 1.8825, "step": 390 }, { "epoch": 0.008688888888888888, "grad_norm": 1.093542218208313, "learning_rate": 0.0001983062902867304, "loss": 1.9614, "step": 391 }, { "epoch": 0.00871111111111111, "grad_norm": 1.203778624534607, "learning_rate": 0.0001983018448544121, "loss": 1.9022, "step": 392 }, { "epoch": 0.008733333333333333, "grad_norm": 1.1799529790878296, "learning_rate": 0.0001982973994220938, "loss": 1.9502, "step": 393 }, { "epoch": 0.008755555555555556, "grad_norm": 1.216221570968628, "learning_rate": 0.00019829295398977553, "loss": 2.1193, "step": 394 }, { "epoch": 0.008777777777777778, "grad_norm": 0.9906027317047119, "learning_rate": 0.0001982885085574572, "loss": 1.383, "step": 395 }, { "epoch": 0.0088, "grad_norm": 1.2726753950119019, "learning_rate": 0.00019828406312513892, "loss": 2.2093, "step": 396 }, { "epoch": 0.008822222222222223, "grad_norm": 1.3959466218948364, "learning_rate": 0.00019827961769282063, "loss": 2.3859, "step": 397 }, { "epoch": 0.008844444444444445, "grad_norm": 1.1952037811279297, "learning_rate": 0.00019827517226050234, "loss": 1.1905, "step": 398 }, { "epoch": 0.008866666666666667, "grad_norm": 1.6015812158584595, "learning_rate": 0.00019827072682818405, "loss": 1.5636, "step": 399 }, { "epoch": 0.008888888888888889, "grad_norm": 1.3363481760025024, "learning_rate": 0.00019826628139586576, "loss": 1.2587, "step": 400 }, { "epoch": 0.008911111111111111, "grad_norm": 0.9448645710945129, "learning_rate": 0.00019826183596354747, "loss": 2.5974, "step": 401 }, { "epoch": 0.008933333333333333, "grad_norm": 1.0095126628875732, "learning_rate": 0.00019825739053122918, "loss": 1.7864, "step": 402 }, { "epoch": 0.008955555555555555, "grad_norm": 1.0201154947280884, "learning_rate": 0.0001982529450989109, "loss": 2.7348, "step": 403 }, { "epoch": 0.008977777777777777, "grad_norm": 1.1061842441558838, "learning_rate": 0.00019824849966659257, "loss": 2.3834, "step": 404 }, { "epoch": 0.009, "grad_norm": 0.9118261933326721, "learning_rate": 0.0001982440542342743, "loss": 1.836, "step": 405 }, { "epoch": 0.009022222222222221, "grad_norm": 1.0042697191238403, "learning_rate": 0.000198239608801956, "loss": 2.5867, "step": 406 }, { "epoch": 0.009044444444444445, "grad_norm": 1.1671693325042725, "learning_rate": 0.0001982351633696377, "loss": 2.6269, "step": 407 }, { "epoch": 0.009066666666666667, "grad_norm": 1.1431063413619995, "learning_rate": 0.0001982307179373194, "loss": 2.5555, "step": 408 }, { "epoch": 0.00908888888888889, "grad_norm": 0.8985481262207031, "learning_rate": 0.00019822627250500112, "loss": 1.936, "step": 409 }, { "epoch": 0.009111111111111111, "grad_norm": 0.9388520121574402, "learning_rate": 0.00019822182707268283, "loss": 2.1971, "step": 410 }, { "epoch": 0.009133333333333334, "grad_norm": 0.9923820495605469, "learning_rate": 0.00019821738164036454, "loss": 1.9397, "step": 411 }, { "epoch": 0.009155555555555556, "grad_norm": 1.0085341930389404, "learning_rate": 0.00019821293620804625, "loss": 2.4101, "step": 412 }, { "epoch": 0.009177777777777778, "grad_norm": 0.9523325562477112, "learning_rate": 0.00019820849077572793, "loss": 1.9858, "step": 413 }, { "epoch": 0.0092, "grad_norm": 1.1963249444961548, "learning_rate": 0.00019820404534340967, "loss": 2.3538, "step": 414 }, { "epoch": 0.009222222222222222, "grad_norm": 1.3541535139083862, "learning_rate": 0.00019819959991109135, "loss": 2.2814, "step": 415 }, { "epoch": 0.009244444444444444, "grad_norm": 1.0171335935592651, "learning_rate": 0.00019819515447877306, "loss": 2.2014, "step": 416 }, { "epoch": 0.009266666666666666, "grad_norm": 1.2136662006378174, "learning_rate": 0.0001981907090464548, "loss": 2.5623, "step": 417 }, { "epoch": 0.009288888888888888, "grad_norm": 1.0422919988632202, "learning_rate": 0.00019818626361413648, "loss": 2.2285, "step": 418 }, { "epoch": 0.00931111111111111, "grad_norm": 1.0269100666046143, "learning_rate": 0.00019818181818181821, "loss": 2.3557, "step": 419 }, { "epoch": 0.009333333333333334, "grad_norm": 1.1379530429840088, "learning_rate": 0.0001981773727494999, "loss": 2.4131, "step": 420 }, { "epoch": 0.009355555555555556, "grad_norm": 1.0211209058761597, "learning_rate": 0.0001981729273171816, "loss": 1.8259, "step": 421 }, { "epoch": 0.009377777777777778, "grad_norm": 1.1744202375411987, "learning_rate": 0.00019816848188486332, "loss": 2.3931, "step": 422 }, { "epoch": 0.0094, "grad_norm": 1.0835683345794678, "learning_rate": 0.00019816403645254503, "loss": 2.2542, "step": 423 }, { "epoch": 0.009422222222222222, "grad_norm": 1.0544909238815308, "learning_rate": 0.0001981595910202267, "loss": 2.4754, "step": 424 }, { "epoch": 0.009444444444444445, "grad_norm": 1.1325610876083374, "learning_rate": 0.00019815514558790844, "loss": 2.1238, "step": 425 }, { "epoch": 0.009466666666666667, "grad_norm": 1.1464831829071045, "learning_rate": 0.00019815070015559015, "loss": 2.2553, "step": 426 }, { "epoch": 0.009488888888888889, "grad_norm": 1.1274349689483643, "learning_rate": 0.00019814625472327184, "loss": 1.8174, "step": 427 }, { "epoch": 0.00951111111111111, "grad_norm": 1.0821290016174316, "learning_rate": 0.00019814180929095357, "loss": 1.6858, "step": 428 }, { "epoch": 0.009533333333333333, "grad_norm": 1.3764736652374268, "learning_rate": 0.00019813736385863526, "loss": 1.3461, "step": 429 }, { "epoch": 0.009555555555555555, "grad_norm": 1.249497652053833, "learning_rate": 0.00019813291842631697, "loss": 2.1228, "step": 430 }, { "epoch": 0.009577777777777777, "grad_norm": 1.2419813871383667, "learning_rate": 0.00019812847299399867, "loss": 2.1365, "step": 431 }, { "epoch": 0.0096, "grad_norm": 1.314886212348938, "learning_rate": 0.00019812402756168038, "loss": 2.2265, "step": 432 }, { "epoch": 0.009622222222222223, "grad_norm": 1.0927438735961914, "learning_rate": 0.00019811958212936207, "loss": 2.0217, "step": 433 }, { "epoch": 0.009644444444444445, "grad_norm": 1.2256649732589722, "learning_rate": 0.0001981151366970438, "loss": 2.2507, "step": 434 }, { "epoch": 0.009666666666666667, "grad_norm": 1.03929603099823, "learning_rate": 0.0001981106912647255, "loss": 1.9413, "step": 435 }, { "epoch": 0.00968888888888889, "grad_norm": 1.1300630569458008, "learning_rate": 0.0001981062458324072, "loss": 1.9357, "step": 436 }, { "epoch": 0.009711111111111111, "grad_norm": 1.2890658378601074, "learning_rate": 0.00019810180040008893, "loss": 2.3707, "step": 437 }, { "epoch": 0.009733333333333333, "grad_norm": 1.2537641525268555, "learning_rate": 0.00019809735496777062, "loss": 2.1404, "step": 438 }, { "epoch": 0.009755555555555556, "grad_norm": 1.3065662384033203, "learning_rate": 0.00019809290953545235, "loss": 1.8732, "step": 439 }, { "epoch": 0.009777777777777778, "grad_norm": 1.2419967651367188, "learning_rate": 0.00019808846410313403, "loss": 2.0917, "step": 440 }, { "epoch": 0.0098, "grad_norm": 1.2205204963684082, "learning_rate": 0.00019808401867081574, "loss": 1.8757, "step": 441 }, { "epoch": 0.009822222222222222, "grad_norm": 1.2660763263702393, "learning_rate": 0.00019807957323849745, "loss": 2.0742, "step": 442 }, { "epoch": 0.009844444444444444, "grad_norm": 1.4117144346237183, "learning_rate": 0.00019807512780617916, "loss": 2.214, "step": 443 }, { "epoch": 0.009866666666666666, "grad_norm": 1.4298971891403198, "learning_rate": 0.00019807068237386087, "loss": 2.3438, "step": 444 }, { "epoch": 0.009888888888888888, "grad_norm": 1.215808391571045, "learning_rate": 0.00019806623694154258, "loss": 1.895, "step": 445 }, { "epoch": 0.009911111111111112, "grad_norm": 1.3122926950454712, "learning_rate": 0.0001980617915092243, "loss": 2.0398, "step": 446 }, { "epoch": 0.009933333333333334, "grad_norm": 1.1686663627624512, "learning_rate": 0.00019805734607690597, "loss": 1.7546, "step": 447 }, { "epoch": 0.009955555555555556, "grad_norm": 1.2826588153839111, "learning_rate": 0.0001980529006445877, "loss": 1.5605, "step": 448 }, { "epoch": 0.009977777777777778, "grad_norm": 1.3911142349243164, "learning_rate": 0.0001980484552122694, "loss": 2.1493, "step": 449 }, { "epoch": 0.01, "grad_norm": 1.1573456525802612, "learning_rate": 0.0001980440097799511, "loss": 1.0559, "step": 450 }, { "epoch": 0.010022222222222222, "grad_norm": 0.9642929434776306, "learning_rate": 0.0001980395643476328, "loss": 2.429, "step": 451 }, { "epoch": 0.010044444444444444, "grad_norm": 1.0742043256759644, "learning_rate": 0.00019803511891531452, "loss": 2.8014, "step": 452 }, { "epoch": 0.010066666666666666, "grad_norm": 1.0266245603561401, "learning_rate": 0.00019803067348299623, "loss": 2.243, "step": 453 }, { "epoch": 0.010088888888888889, "grad_norm": 1.0255544185638428, "learning_rate": 0.00019802622805067794, "loss": 2.6152, "step": 454 }, { "epoch": 0.01011111111111111, "grad_norm": 1.0187287330627441, "learning_rate": 0.00019802178261835965, "loss": 2.5966, "step": 455 }, { "epoch": 0.010133333333333333, "grad_norm": 1.1178388595581055, "learning_rate": 0.00019801733718604136, "loss": 2.3659, "step": 456 }, { "epoch": 0.010155555555555555, "grad_norm": 0.8631261587142944, "learning_rate": 0.00019801289175372307, "loss": 2.3432, "step": 457 }, { "epoch": 0.010177777777777779, "grad_norm": 1.211785912513733, "learning_rate": 0.00019800844632140475, "loss": 3.0955, "step": 458 }, { "epoch": 0.0102, "grad_norm": 0.940540075302124, "learning_rate": 0.0001980040008890865, "loss": 2.066, "step": 459 }, { "epoch": 0.010222222222222223, "grad_norm": 1.0023077726364136, "learning_rate": 0.00019799955545676817, "loss": 2.7285, "step": 460 }, { "epoch": 0.010244444444444445, "grad_norm": 0.9289823174476624, "learning_rate": 0.00019799511002444988, "loss": 2.2766, "step": 461 }, { "epoch": 0.010266666666666667, "grad_norm": 1.1237691640853882, "learning_rate": 0.0001979906645921316, "loss": 2.2359, "step": 462 }, { "epoch": 0.010288888888888889, "grad_norm": 1.0011184215545654, "learning_rate": 0.0001979862191598133, "loss": 2.1984, "step": 463 }, { "epoch": 0.010311111111111111, "grad_norm": 1.146254301071167, "learning_rate": 0.000197981773727495, "loss": 2.2411, "step": 464 }, { "epoch": 0.010333333333333333, "grad_norm": 0.9433885812759399, "learning_rate": 0.00019797732829517672, "loss": 1.904, "step": 465 }, { "epoch": 0.010355555555555555, "grad_norm": 1.004146695137024, "learning_rate": 0.00019797288286285843, "loss": 2.2064, "step": 466 }, { "epoch": 0.010377777777777777, "grad_norm": 1.0210295915603638, "learning_rate": 0.0001979684374305401, "loss": 1.5308, "step": 467 }, { "epoch": 0.0104, "grad_norm": 0.9375552535057068, "learning_rate": 0.00019796399199822185, "loss": 1.8823, "step": 468 }, { "epoch": 0.010422222222222222, "grad_norm": 1.146342396736145, "learning_rate": 0.00019795954656590353, "loss": 2.1973, "step": 469 }, { "epoch": 0.010444444444444444, "grad_norm": 1.3529064655303955, "learning_rate": 0.00019795510113358524, "loss": 2.1686, "step": 470 }, { "epoch": 0.010466666666666668, "grad_norm": 1.20050847530365, "learning_rate": 0.00019795065570126695, "loss": 2.375, "step": 471 }, { "epoch": 0.01048888888888889, "grad_norm": 1.1357581615447998, "learning_rate": 0.00019794621026894866, "loss": 2.0837, "step": 472 }, { "epoch": 0.010511111111111112, "grad_norm": 1.2051777839660645, "learning_rate": 0.00019794176483663037, "loss": 2.2979, "step": 473 }, { "epoch": 0.010533333333333334, "grad_norm": 1.0995031595230103, "learning_rate": 0.00019793731940431208, "loss": 1.9967, "step": 474 }, { "epoch": 0.010555555555555556, "grad_norm": 0.9710855484008789, "learning_rate": 0.0001979328739719938, "loss": 1.8624, "step": 475 }, { "epoch": 0.010577777777777778, "grad_norm": 0.9975488781929016, "learning_rate": 0.0001979284285396755, "loss": 1.9911, "step": 476 }, { "epoch": 0.0106, "grad_norm": 1.172976016998291, "learning_rate": 0.0001979239831073572, "loss": 2.2303, "step": 477 }, { "epoch": 0.010622222222222222, "grad_norm": 1.2332903146743774, "learning_rate": 0.0001979195376750389, "loss": 2.0349, "step": 478 }, { "epoch": 0.010644444444444444, "grad_norm": 1.2118853330612183, "learning_rate": 0.00019791509224272063, "loss": 2.0179, "step": 479 }, { "epoch": 0.010666666666666666, "grad_norm": 1.274030327796936, "learning_rate": 0.0001979106468104023, "loss": 2.2792, "step": 480 }, { "epoch": 0.010688888888888888, "grad_norm": 1.137203335762024, "learning_rate": 0.00019790620137808402, "loss": 2.1596, "step": 481 }, { "epoch": 0.01071111111111111, "grad_norm": 1.1505786180496216, "learning_rate": 0.00019790175594576573, "loss": 2.1158, "step": 482 }, { "epoch": 0.010733333333333333, "grad_norm": 1.4947055578231812, "learning_rate": 0.00019789731051344744, "loss": 2.2569, "step": 483 }, { "epoch": 0.010755555555555556, "grad_norm": 1.2543015480041504, "learning_rate": 0.00019789286508112915, "loss": 2.5869, "step": 484 }, { "epoch": 0.010777777777777778, "grad_norm": 1.3077988624572754, "learning_rate": 0.00019788841964881086, "loss": 2.4492, "step": 485 }, { "epoch": 0.0108, "grad_norm": 1.2072759866714478, "learning_rate": 0.00019788397421649257, "loss": 1.8196, "step": 486 }, { "epoch": 0.010822222222222223, "grad_norm": 1.24198579788208, "learning_rate": 0.00019787952878417425, "loss": 1.8827, "step": 487 }, { "epoch": 0.010844444444444445, "grad_norm": 1.1785317659378052, "learning_rate": 0.000197875083351856, "loss": 2.1422, "step": 488 }, { "epoch": 0.010866666666666667, "grad_norm": 1.1350680589675903, "learning_rate": 0.00019787063791953767, "loss": 2.3487, "step": 489 }, { "epoch": 0.010888888888888889, "grad_norm": 1.1342957019805908, "learning_rate": 0.00019786619248721938, "loss": 2.0963, "step": 490 }, { "epoch": 0.010911111111111111, "grad_norm": 1.143448829650879, "learning_rate": 0.00019786174705490112, "loss": 1.944, "step": 491 }, { "epoch": 0.010933333333333333, "grad_norm": 1.3490346670150757, "learning_rate": 0.0001978573016225828, "loss": 2.3935, "step": 492 }, { "epoch": 0.010955555555555555, "grad_norm": 1.3346196413040161, "learning_rate": 0.0001978528561902645, "loss": 1.898, "step": 493 }, { "epoch": 0.010977777777777777, "grad_norm": 1.2539373636245728, "learning_rate": 0.00019784841075794622, "loss": 1.9348, "step": 494 }, { "epoch": 0.011, "grad_norm": 1.1212438344955444, "learning_rate": 0.00019784396532562793, "loss": 1.7501, "step": 495 }, { "epoch": 0.011022222222222221, "grad_norm": 1.1676902770996094, "learning_rate": 0.00019783951989330964, "loss": 1.8469, "step": 496 }, { "epoch": 0.011044444444444445, "grad_norm": 1.299802303314209, "learning_rate": 0.00019783507446099135, "loss": 2.1494, "step": 497 }, { "epoch": 0.011066666666666667, "grad_norm": 1.1392693519592285, "learning_rate": 0.00019783062902867303, "loss": 1.6344, "step": 498 }, { "epoch": 0.01108888888888889, "grad_norm": 1.3532847166061401, "learning_rate": 0.00019782618359635477, "loss": 2.4302, "step": 499 }, { "epoch": 0.011111111111111112, "grad_norm": 1.3752100467681885, "learning_rate": 0.00019782173816403648, "loss": 1.621, "step": 500 }, { "epoch": 0.011133333333333334, "grad_norm": 1.0528823137283325, "learning_rate": 0.00019781729273171816, "loss": 2.8213, "step": 501 }, { "epoch": 0.011155555555555556, "grad_norm": 0.9636852741241455, "learning_rate": 0.0001978128472993999, "loss": 2.6139, "step": 502 }, { "epoch": 0.011177777777777778, "grad_norm": 0.8850682973861694, "learning_rate": 0.00019780840186708158, "loss": 2.2437, "step": 503 }, { "epoch": 0.0112, "grad_norm": 0.8470168113708496, "learning_rate": 0.0001978039564347633, "loss": 2.3191, "step": 504 }, { "epoch": 0.011222222222222222, "grad_norm": 0.8107976317405701, "learning_rate": 0.000197799511002445, "loss": 2.0328, "step": 505 }, { "epoch": 0.011244444444444444, "grad_norm": 1.0478322505950928, "learning_rate": 0.0001977950655701267, "loss": 2.484, "step": 506 }, { "epoch": 0.011266666666666666, "grad_norm": 0.9263590574264526, "learning_rate": 0.0001977906201378084, "loss": 2.2178, "step": 507 }, { "epoch": 0.011288888888888888, "grad_norm": 1.0026721954345703, "learning_rate": 0.00019778617470549013, "loss": 2.5007, "step": 508 }, { "epoch": 0.01131111111111111, "grad_norm": 1.0698866844177246, "learning_rate": 0.00019778172927317184, "loss": 2.7865, "step": 509 }, { "epoch": 0.011333333333333334, "grad_norm": 0.9517433047294617, "learning_rate": 0.00019777728384085352, "loss": 2.2822, "step": 510 }, { "epoch": 0.011355555555555556, "grad_norm": 1.3576043844223022, "learning_rate": 0.00019777283840853525, "loss": 2.4233, "step": 511 }, { "epoch": 0.011377777777777778, "grad_norm": 1.0271457433700562, "learning_rate": 0.00019776839297621694, "loss": 1.9884, "step": 512 }, { "epoch": 0.0114, "grad_norm": 0.9532172679901123, "learning_rate": 0.00019776394754389867, "loss": 2.2577, "step": 513 }, { "epoch": 0.011422222222222222, "grad_norm": 0.9463943243026733, "learning_rate": 0.00019775950211158036, "loss": 2.0965, "step": 514 }, { "epoch": 0.011444444444444445, "grad_norm": 0.9251181483268738, "learning_rate": 0.00019775505667926207, "loss": 2.067, "step": 515 }, { "epoch": 0.011466666666666667, "grad_norm": 1.0688096284866333, "learning_rate": 0.00019775061124694378, "loss": 1.8894, "step": 516 }, { "epoch": 0.011488888888888889, "grad_norm": 1.0997282266616821, "learning_rate": 0.00019774616581462549, "loss": 2.1035, "step": 517 }, { "epoch": 0.01151111111111111, "grad_norm": 0.9962407350540161, "learning_rate": 0.0001977417203823072, "loss": 2.0402, "step": 518 }, { "epoch": 0.011533333333333333, "grad_norm": 1.348712682723999, "learning_rate": 0.0001977372749499889, "loss": 2.0119, "step": 519 }, { "epoch": 0.011555555555555555, "grad_norm": 1.1667520999908447, "learning_rate": 0.00019773282951767061, "loss": 2.2905, "step": 520 }, { "epoch": 0.011577777777777777, "grad_norm": 1.2998605966567993, "learning_rate": 0.0001977283840853523, "loss": 2.41, "step": 521 }, { "epoch": 0.0116, "grad_norm": 1.2200543880462646, "learning_rate": 0.00019772393865303403, "loss": 2.1653, "step": 522 }, { "epoch": 0.011622222222222223, "grad_norm": 1.22711980342865, "learning_rate": 0.00019771949322071572, "loss": 2.3273, "step": 523 }, { "epoch": 0.011644444444444445, "grad_norm": 1.0310214757919312, "learning_rate": 0.00019771504778839743, "loss": 1.9963, "step": 524 }, { "epoch": 0.011666666666666667, "grad_norm": 1.083256721496582, "learning_rate": 0.00019771060235607914, "loss": 2.3606, "step": 525 }, { "epoch": 0.01168888888888889, "grad_norm": 1.2202749252319336, "learning_rate": 0.00019770615692376084, "loss": 2.631, "step": 526 }, { "epoch": 0.011711111111111111, "grad_norm": 1.06405508518219, "learning_rate": 0.00019770171149144255, "loss": 2.4102, "step": 527 }, { "epoch": 0.011733333333333333, "grad_norm": 1.1642934083938599, "learning_rate": 0.00019769726605912426, "loss": 2.237, "step": 528 }, { "epoch": 0.011755555555555556, "grad_norm": 1.1670068502426147, "learning_rate": 0.00019769282062680597, "loss": 2.4295, "step": 529 }, { "epoch": 0.011777777777777778, "grad_norm": 0.9800331592559814, "learning_rate": 0.00019768837519448766, "loss": 2.1423, "step": 530 }, { "epoch": 0.0118, "grad_norm": 0.9930852055549622, "learning_rate": 0.0001976839297621694, "loss": 1.8156, "step": 531 }, { "epoch": 0.011822222222222222, "grad_norm": 1.056531548500061, "learning_rate": 0.00019767948432985108, "loss": 1.8047, "step": 532 }, { "epoch": 0.011844444444444444, "grad_norm": 1.2376655340194702, "learning_rate": 0.0001976750388975328, "loss": 2.5516, "step": 533 }, { "epoch": 0.011866666666666666, "grad_norm": 1.1320395469665527, "learning_rate": 0.0001976705934652145, "loss": 2.0158, "step": 534 }, { "epoch": 0.011888888888888888, "grad_norm": 1.2286890745162964, "learning_rate": 0.0001976661480328962, "loss": 2.076, "step": 535 }, { "epoch": 0.011911111111111112, "grad_norm": 1.0306121110916138, "learning_rate": 0.00019766170260057791, "loss": 2.0124, "step": 536 }, { "epoch": 0.011933333333333334, "grad_norm": 1.0622620582580566, "learning_rate": 0.00019765725716825962, "loss": 1.5545, "step": 537 }, { "epoch": 0.011955555555555556, "grad_norm": 1.341714859008789, "learning_rate": 0.00019765281173594133, "loss": 2.3409, "step": 538 }, { "epoch": 0.011977777777777778, "grad_norm": 1.1659297943115234, "learning_rate": 0.00019764836630362304, "loss": 2.2122, "step": 539 }, { "epoch": 0.012, "grad_norm": 1.3139978647232056, "learning_rate": 0.00019764392087130475, "loss": 2.2616, "step": 540 }, { "epoch": 0.012022222222222222, "grad_norm": 1.2108430862426758, "learning_rate": 0.00019763947543898643, "loss": 1.9457, "step": 541 }, { "epoch": 0.012044444444444444, "grad_norm": 1.1554898023605347, "learning_rate": 0.00019763503000666817, "loss": 1.8838, "step": 542 }, { "epoch": 0.012066666666666667, "grad_norm": 1.2730211019515991, "learning_rate": 0.00019763058457434985, "loss": 1.956, "step": 543 }, { "epoch": 0.012088888888888889, "grad_norm": 1.1034775972366333, "learning_rate": 0.00019762613914203156, "loss": 1.8911, "step": 544 }, { "epoch": 0.01211111111111111, "grad_norm": 1.2222429513931274, "learning_rate": 0.00019762169370971327, "loss": 2.1464, "step": 545 }, { "epoch": 0.012133333333333333, "grad_norm": 1.1918668746948242, "learning_rate": 0.00019761724827739498, "loss": 1.9456, "step": 546 }, { "epoch": 0.012155555555555555, "grad_norm": 1.3241868019104004, "learning_rate": 0.0001976128028450767, "loss": 2.0008, "step": 547 }, { "epoch": 0.012177777777777777, "grad_norm": 1.350508689880371, "learning_rate": 0.0001976083574127584, "loss": 1.3506, "step": 548 }, { "epoch": 0.0122, "grad_norm": 1.172800898551941, "learning_rate": 0.0001976039119804401, "loss": 1.9213, "step": 549 }, { "epoch": 0.012222222222222223, "grad_norm": 1.1749026775360107, "learning_rate": 0.0001975994665481218, "loss": 1.7579, "step": 550 }, { "epoch": 0.012244444444444445, "grad_norm": 0.9225996136665344, "learning_rate": 0.00019759502111580353, "loss": 2.291, "step": 551 }, { "epoch": 0.012266666666666667, "grad_norm": 0.9325944185256958, "learning_rate": 0.00019759057568348521, "loss": 2.2216, "step": 552 }, { "epoch": 0.012288888888888889, "grad_norm": 0.9500211477279663, "learning_rate": 0.00019758613025116695, "loss": 2.5704, "step": 553 }, { "epoch": 0.012311111111111111, "grad_norm": 1.1819994449615479, "learning_rate": 0.00019758168481884863, "loss": 2.5077, "step": 554 }, { "epoch": 0.012333333333333333, "grad_norm": 0.9431033134460449, "learning_rate": 0.00019757723938653034, "loss": 2.3682, "step": 555 }, { "epoch": 0.012355555555555555, "grad_norm": 0.9775313138961792, "learning_rate": 0.00019757279395421205, "loss": 2.4359, "step": 556 }, { "epoch": 0.012377777777777777, "grad_norm": 0.9984149932861328, "learning_rate": 0.00019756834852189376, "loss": 2.5361, "step": 557 }, { "epoch": 0.0124, "grad_norm": 0.906059741973877, "learning_rate": 0.00019756390308957547, "loss": 2.3952, "step": 558 }, { "epoch": 0.012422222222222222, "grad_norm": 0.9690796136856079, "learning_rate": 0.00019755945765725718, "loss": 2.397, "step": 559 }, { "epoch": 0.012444444444444444, "grad_norm": 0.9722429513931274, "learning_rate": 0.0001975550122249389, "loss": 1.8349, "step": 560 }, { "epoch": 0.012466666666666666, "grad_norm": 0.9823850393295288, "learning_rate": 0.00019755056679262057, "loss": 2.2631, "step": 561 }, { "epoch": 0.01248888888888889, "grad_norm": 0.9302381873130798, "learning_rate": 0.0001975461213603023, "loss": 2.1919, "step": 562 }, { "epoch": 0.012511111111111112, "grad_norm": 0.8757230043411255, "learning_rate": 0.000197541675927984, "loss": 1.6037, "step": 563 }, { "epoch": 0.012533333333333334, "grad_norm": 1.046424388885498, "learning_rate": 0.0001975372304956657, "loss": 2.2169, "step": 564 }, { "epoch": 0.012555555555555556, "grad_norm": 0.9741431474685669, "learning_rate": 0.00019753278506334744, "loss": 2.0183, "step": 565 }, { "epoch": 0.012577777777777778, "grad_norm": 1.3711148500442505, "learning_rate": 0.00019752833963102912, "loss": 2.6775, "step": 566 }, { "epoch": 0.0126, "grad_norm": 0.8870599865913391, "learning_rate": 0.00019752389419871083, "loss": 1.7707, "step": 567 }, { "epoch": 0.012622222222222222, "grad_norm": 1.0855683088302612, "learning_rate": 0.00019751944876639254, "loss": 1.799, "step": 568 }, { "epoch": 0.012644444444444444, "grad_norm": 0.9656704068183899, "learning_rate": 0.00019751500333407425, "loss": 1.7359, "step": 569 }, { "epoch": 0.012666666666666666, "grad_norm": 1.2054580450057983, "learning_rate": 0.00019751055790175596, "loss": 2.5957, "step": 570 }, { "epoch": 0.012688888888888888, "grad_norm": 1.1266636848449707, "learning_rate": 0.00019750611246943767, "loss": 2.3791, "step": 571 }, { "epoch": 0.01271111111111111, "grad_norm": 1.1475385427474976, "learning_rate": 0.00019750166703711935, "loss": 1.9109, "step": 572 }, { "epoch": 0.012733333333333333, "grad_norm": 1.1101495027542114, "learning_rate": 0.0001974972216048011, "loss": 2.52, "step": 573 }, { "epoch": 0.012755555555555555, "grad_norm": 1.0961709022521973, "learning_rate": 0.0001974927761724828, "loss": 1.8186, "step": 574 }, { "epoch": 0.012777777777777779, "grad_norm": 1.013954758644104, "learning_rate": 0.00019748833074016448, "loss": 1.8662, "step": 575 }, { "epoch": 0.0128, "grad_norm": 1.2467371225357056, "learning_rate": 0.00019748388530784622, "loss": 2.2989, "step": 576 }, { "epoch": 0.012822222222222223, "grad_norm": 0.9631433486938477, "learning_rate": 0.0001974794398755279, "loss": 1.9812, "step": 577 }, { "epoch": 0.012844444444444445, "grad_norm": 1.0559232234954834, "learning_rate": 0.0001974749944432096, "loss": 2.0645, "step": 578 }, { "epoch": 0.012866666666666667, "grad_norm": 1.1318047046661377, "learning_rate": 0.00019747054901089132, "loss": 1.435, "step": 579 }, { "epoch": 0.012888888888888889, "grad_norm": 1.2401933670043945, "learning_rate": 0.00019746610357857303, "loss": 2.2909, "step": 580 }, { "epoch": 0.012911111111111111, "grad_norm": 1.312298059463501, "learning_rate": 0.0001974616581462547, "loss": 2.3061, "step": 581 }, { "epoch": 0.012933333333333333, "grad_norm": 1.2518435716629028, "learning_rate": 0.00019745721271393645, "loss": 2.206, "step": 582 }, { "epoch": 0.012955555555555555, "grad_norm": 1.06098210811615, "learning_rate": 0.00019745276728161816, "loss": 1.7114, "step": 583 }, { "epoch": 0.012977777777777777, "grad_norm": 1.3275994062423706, "learning_rate": 0.00019744832184929984, "loss": 2.2089, "step": 584 }, { "epoch": 0.013, "grad_norm": 1.2673600912094116, "learning_rate": 0.00019744387641698158, "loss": 2.2679, "step": 585 }, { "epoch": 0.013022222222222221, "grad_norm": 1.2805787324905396, "learning_rate": 0.00019743943098466326, "loss": 2.2918, "step": 586 }, { "epoch": 0.013044444444444444, "grad_norm": 1.1600666046142578, "learning_rate": 0.00019743498555234497, "loss": 1.2676, "step": 587 }, { "epoch": 0.013066666666666667, "grad_norm": 1.1756904125213623, "learning_rate": 0.00019743054012002668, "loss": 2.1211, "step": 588 }, { "epoch": 0.01308888888888889, "grad_norm": 1.272376298904419, "learning_rate": 0.0001974260946877084, "loss": 2.335, "step": 589 }, { "epoch": 0.013111111111111112, "grad_norm": 1.4618241786956787, "learning_rate": 0.0001974216492553901, "loss": 1.4798, "step": 590 }, { "epoch": 0.013133333333333334, "grad_norm": 1.2375410795211792, "learning_rate": 0.0001974172038230718, "loss": 1.9871, "step": 591 }, { "epoch": 0.013155555555555556, "grad_norm": 1.113440990447998, "learning_rate": 0.00019741275839075352, "loss": 2.031, "step": 592 }, { "epoch": 0.013177777777777778, "grad_norm": 1.2986788749694824, "learning_rate": 0.00019740831295843523, "loss": 2.1056, "step": 593 }, { "epoch": 0.0132, "grad_norm": 1.5188066959381104, "learning_rate": 0.00019740386752611694, "loss": 2.1861, "step": 594 }, { "epoch": 0.013222222222222222, "grad_norm": 1.3240394592285156, "learning_rate": 0.00019739942209379862, "loss": 2.1017, "step": 595 }, { "epoch": 0.013244444444444444, "grad_norm": 1.2840043306350708, "learning_rate": 0.00019739497666148036, "loss": 2.1652, "step": 596 }, { "epoch": 0.013266666666666666, "grad_norm": 1.364159107208252, "learning_rate": 0.00019739053122916204, "loss": 1.9971, "step": 597 }, { "epoch": 0.013288888888888888, "grad_norm": 1.1430398225784302, "learning_rate": 0.00019738608579684375, "loss": 1.9919, "step": 598 }, { "epoch": 0.01331111111111111, "grad_norm": 1.3228200674057007, "learning_rate": 0.00019738164036452546, "loss": 1.8816, "step": 599 }, { "epoch": 0.013333333333333334, "grad_norm": 1.4547879695892334, "learning_rate": 0.00019737719493220717, "loss": 1.5917, "step": 600 }, { "epoch": 0.013355555555555556, "grad_norm": 0.9293891787528992, "learning_rate": 0.00019737274949988888, "loss": 2.4767, "step": 601 }, { "epoch": 0.013377777777777778, "grad_norm": 0.9814039468765259, "learning_rate": 0.00019736830406757059, "loss": 2.2821, "step": 602 }, { "epoch": 0.0134, "grad_norm": 0.9720081090927124, "learning_rate": 0.0001973638586352523, "loss": 2.1433, "step": 603 }, { "epoch": 0.013422222222222223, "grad_norm": 0.9438430666923523, "learning_rate": 0.00019735941320293398, "loss": 2.3608, "step": 604 }, { "epoch": 0.013444444444444445, "grad_norm": 1.006701946258545, "learning_rate": 0.00019735496777061571, "loss": 2.5349, "step": 605 }, { "epoch": 0.013466666666666667, "grad_norm": 1.0583053827285767, "learning_rate": 0.0001973505223382974, "loss": 2.5001, "step": 606 }, { "epoch": 0.013488888888888889, "grad_norm": 1.0254452228546143, "learning_rate": 0.00019734607690597913, "loss": 2.2549, "step": 607 }, { "epoch": 0.013511111111111111, "grad_norm": 1.2084726095199585, "learning_rate": 0.00019734163147366082, "loss": 2.4463, "step": 608 }, { "epoch": 0.013533333333333333, "grad_norm": 0.9051474332809448, "learning_rate": 0.00019733718604134253, "loss": 2.1048, "step": 609 }, { "epoch": 0.013555555555555555, "grad_norm": 1.0502593517303467, "learning_rate": 0.00019733274060902424, "loss": 2.311, "step": 610 }, { "epoch": 0.013577777777777777, "grad_norm": 1.096829891204834, "learning_rate": 0.00019732829517670595, "loss": 2.7433, "step": 611 }, { "epoch": 0.0136, "grad_norm": 0.9817884564399719, "learning_rate": 0.00019732384974438766, "loss": 2.0434, "step": 612 }, { "epoch": 0.013622222222222223, "grad_norm": 0.9800563454627991, "learning_rate": 0.00019731940431206936, "loss": 2.0227, "step": 613 }, { "epoch": 0.013644444444444445, "grad_norm": 1.216512680053711, "learning_rate": 0.00019731495887975107, "loss": 2.2587, "step": 614 }, { "epoch": 0.013666666666666667, "grad_norm": 1.0319756269454956, "learning_rate": 0.00019731051344743276, "loss": 1.9165, "step": 615 }, { "epoch": 0.01368888888888889, "grad_norm": 1.0077224969863892, "learning_rate": 0.0001973060680151145, "loss": 2.0971, "step": 616 }, { "epoch": 0.013711111111111111, "grad_norm": 1.3256494998931885, "learning_rate": 0.00019730162258279618, "loss": 1.4384, "step": 617 }, { "epoch": 0.013733333333333334, "grad_norm": 1.2625467777252197, "learning_rate": 0.00019729717715047789, "loss": 2.4546, "step": 618 }, { "epoch": 0.013755555555555556, "grad_norm": 0.9197932481765747, "learning_rate": 0.0001972927317181596, "loss": 1.7022, "step": 619 }, { "epoch": 0.013777777777777778, "grad_norm": 1.1302087306976318, "learning_rate": 0.0001972882862858413, "loss": 2.2369, "step": 620 }, { "epoch": 0.0138, "grad_norm": 1.1746357679367065, "learning_rate": 0.00019728384085352301, "loss": 1.9065, "step": 621 }, { "epoch": 0.013822222222222222, "grad_norm": 0.9957026243209839, "learning_rate": 0.00019727939542120472, "loss": 2.0097, "step": 622 }, { "epoch": 0.013844444444444444, "grad_norm": 1.36981999874115, "learning_rate": 0.00019727494998888643, "loss": 2.2754, "step": 623 }, { "epoch": 0.013866666666666666, "grad_norm": 1.234215259552002, "learning_rate": 0.00019727050455656812, "loss": 1.9893, "step": 624 }, { "epoch": 0.013888888888888888, "grad_norm": 1.3092060089111328, "learning_rate": 0.00019726605912424985, "loss": 2.0953, "step": 625 }, { "epoch": 0.013911111111111112, "grad_norm": 1.4026519060134888, "learning_rate": 0.00019726161369193154, "loss": 2.1843, "step": 626 }, { "epoch": 0.013933333333333334, "grad_norm": 1.152025580406189, "learning_rate": 0.00019725716825961327, "loss": 1.5955, "step": 627 }, { "epoch": 0.013955555555555556, "grad_norm": 1.158659815788269, "learning_rate": 0.00019725272282729495, "loss": 1.8902, "step": 628 }, { "epoch": 0.013977777777777778, "grad_norm": 1.1227903366088867, "learning_rate": 0.00019724827739497666, "loss": 1.876, "step": 629 }, { "epoch": 0.014, "grad_norm": 1.273788571357727, "learning_rate": 0.00019724383196265837, "loss": 2.251, "step": 630 }, { "epoch": 0.014022222222222222, "grad_norm": 1.1840415000915527, "learning_rate": 0.00019723938653034008, "loss": 2.3503, "step": 631 }, { "epoch": 0.014044444444444444, "grad_norm": 1.2534960508346558, "learning_rate": 0.0001972349410980218, "loss": 2.174, "step": 632 }, { "epoch": 0.014066666666666667, "grad_norm": 1.0638322830200195, "learning_rate": 0.0001972304956657035, "loss": 1.886, "step": 633 }, { "epoch": 0.014088888888888889, "grad_norm": 1.2099584341049194, "learning_rate": 0.0001972260502333852, "loss": 1.9944, "step": 634 }, { "epoch": 0.01411111111111111, "grad_norm": 1.2023608684539795, "learning_rate": 0.0001972216048010669, "loss": 1.9364, "step": 635 }, { "epoch": 0.014133333333333333, "grad_norm": 1.1572262048721313, "learning_rate": 0.00019721715936874863, "loss": 2.1014, "step": 636 }, { "epoch": 0.014155555555555555, "grad_norm": 1.0198612213134766, "learning_rate": 0.00019721271393643031, "loss": 1.833, "step": 637 }, { "epoch": 0.014177777777777777, "grad_norm": 1.3424072265625, "learning_rate": 0.00019720826850411202, "loss": 2.4898, "step": 638 }, { "epoch": 0.0142, "grad_norm": 1.2197932004928589, "learning_rate": 0.00019720382307179376, "loss": 2.2606, "step": 639 }, { "epoch": 0.014222222222222223, "grad_norm": 1.3500276803970337, "learning_rate": 0.00019719937763947544, "loss": 1.7025, "step": 640 }, { "epoch": 0.014244444444444445, "grad_norm": 1.1504669189453125, "learning_rate": 0.00019719493220715715, "loss": 2.2101, "step": 641 }, { "epoch": 0.014266666666666667, "grad_norm": 1.2708158493041992, "learning_rate": 0.00019719048677483886, "loss": 1.8772, "step": 642 }, { "epoch": 0.01428888888888889, "grad_norm": 1.2431827783584595, "learning_rate": 0.00019718604134252057, "loss": 2.4282, "step": 643 }, { "epoch": 0.014311111111111111, "grad_norm": 1.0196614265441895, "learning_rate": 0.00019718159591020225, "loss": 1.5048, "step": 644 }, { "epoch": 0.014333333333333333, "grad_norm": 1.1712734699249268, "learning_rate": 0.000197177150477884, "loss": 1.8576, "step": 645 }, { "epoch": 0.014355555555555555, "grad_norm": 1.1533782482147217, "learning_rate": 0.00019717270504556567, "loss": 2.02, "step": 646 }, { "epoch": 0.014377777777777778, "grad_norm": 1.6188006401062012, "learning_rate": 0.0001971682596132474, "loss": 1.8601, "step": 647 }, { "epoch": 0.0144, "grad_norm": 1.3643068075180054, "learning_rate": 0.00019716381418092912, "loss": 1.4255, "step": 648 }, { "epoch": 0.014422222222222222, "grad_norm": 1.3484489917755127, "learning_rate": 0.0001971593687486108, "loss": 1.8002, "step": 649 }, { "epoch": 0.014444444444444444, "grad_norm": 1.403101921081543, "learning_rate": 0.00019715492331629254, "loss": 1.7269, "step": 650 }, { "epoch": 0.014466666666666666, "grad_norm": 0.9351359605789185, "learning_rate": 0.00019715047788397422, "loss": 2.1206, "step": 651 }, { "epoch": 0.01448888888888889, "grad_norm": 0.9588861465454102, "learning_rate": 0.00019714603245165593, "loss": 2.3429, "step": 652 }, { "epoch": 0.014511111111111112, "grad_norm": 1.1111140251159668, "learning_rate": 0.00019714158701933764, "loss": 1.4592, "step": 653 }, { "epoch": 0.014533333333333334, "grad_norm": 1.1909570693969727, "learning_rate": 0.00019713714158701935, "loss": 3.3025, "step": 654 }, { "epoch": 0.014555555555555556, "grad_norm": 1.0534789562225342, "learning_rate": 0.00019713269615470103, "loss": 2.5017, "step": 655 }, { "epoch": 0.014577777777777778, "grad_norm": 0.9852713346481323, "learning_rate": 0.00019712825072238277, "loss": 2.2406, "step": 656 }, { "epoch": 0.0146, "grad_norm": 1.0007407665252686, "learning_rate": 0.00019712380529006448, "loss": 2.4341, "step": 657 }, { "epoch": 0.014622222222222222, "grad_norm": 1.042779803276062, "learning_rate": 0.00019711935985774616, "loss": 2.7508, "step": 658 }, { "epoch": 0.014644444444444444, "grad_norm": 1.1719785928726196, "learning_rate": 0.0001971149144254279, "loss": 2.4725, "step": 659 }, { "epoch": 0.014666666666666666, "grad_norm": 1.1312509775161743, "learning_rate": 0.00019711046899310958, "loss": 2.785, "step": 660 }, { "epoch": 0.014688888888888888, "grad_norm": 0.9337582588195801, "learning_rate": 0.0001971060235607913, "loss": 1.9317, "step": 661 }, { "epoch": 0.01471111111111111, "grad_norm": 1.0465712547302246, "learning_rate": 0.000197101578128473, "loss": 2.4791, "step": 662 }, { "epoch": 0.014733333333333333, "grad_norm": 1.153633713722229, "learning_rate": 0.0001970971326961547, "loss": 2.2393, "step": 663 }, { "epoch": 0.014755555555555555, "grad_norm": 1.0808809995651245, "learning_rate": 0.00019709268726383642, "loss": 2.2079, "step": 664 }, { "epoch": 0.014777777777777779, "grad_norm": 0.9384297728538513, "learning_rate": 0.00019708824183151813, "loss": 2.0951, "step": 665 }, { "epoch": 0.0148, "grad_norm": 1.1360176801681519, "learning_rate": 0.00019708379639919984, "loss": 2.3019, "step": 666 }, { "epoch": 0.014822222222222223, "grad_norm": 1.0996544361114502, "learning_rate": 0.00019707935096688155, "loss": 2.898, "step": 667 }, { "epoch": 0.014844444444444445, "grad_norm": 1.4694558382034302, "learning_rate": 0.00019707490553456326, "loss": 1.0145, "step": 668 }, { "epoch": 0.014866666666666667, "grad_norm": 1.1620367765426636, "learning_rate": 0.00019707046010224494, "loss": 2.2568, "step": 669 }, { "epoch": 0.014888888888888889, "grad_norm": 1.0012505054473877, "learning_rate": 0.00019706601466992668, "loss": 1.8907, "step": 670 }, { "epoch": 0.014911111111111111, "grad_norm": 1.0330564975738525, "learning_rate": 0.00019706156923760836, "loss": 2.2003, "step": 671 }, { "epoch": 0.014933333333333333, "grad_norm": 1.0624566078186035, "learning_rate": 0.00019705712380529007, "loss": 2.2616, "step": 672 }, { "epoch": 0.014955555555555555, "grad_norm": 1.1532998085021973, "learning_rate": 0.00019705267837297178, "loss": 2.2152, "step": 673 }, { "epoch": 0.014977777777777777, "grad_norm": 1.1985361576080322, "learning_rate": 0.0001970482329406535, "loss": 2.2832, "step": 674 }, { "epoch": 0.015, "grad_norm": 1.1824263334274292, "learning_rate": 0.0001970437875083352, "loss": 2.2331, "step": 675 }, { "epoch": 0.015022222222222222, "grad_norm": 1.146777868270874, "learning_rate": 0.0001970393420760169, "loss": 2.0233, "step": 676 }, { "epoch": 0.015044444444444444, "grad_norm": 1.541884183883667, "learning_rate": 0.00019703489664369862, "loss": 2.4609, "step": 677 }, { "epoch": 0.015066666666666667, "grad_norm": 1.0570106506347656, "learning_rate": 0.0001970304512113803, "loss": 1.8679, "step": 678 }, { "epoch": 0.01508888888888889, "grad_norm": 1.243215799331665, "learning_rate": 0.00019702600577906204, "loss": 1.6684, "step": 679 }, { "epoch": 0.015111111111111112, "grad_norm": 1.1231662034988403, "learning_rate": 0.00019702156034674372, "loss": 2.2193, "step": 680 }, { "epoch": 0.015133333333333334, "grad_norm": 1.2087405920028687, "learning_rate": 0.00019701711491442543, "loss": 2.0532, "step": 681 }, { "epoch": 0.015155555555555556, "grad_norm": 1.1215788125991821, "learning_rate": 0.00019701266948210714, "loss": 1.9981, "step": 682 }, { "epoch": 0.015177777777777778, "grad_norm": 1.0537729263305664, "learning_rate": 0.00019700822404978885, "loss": 2.0095, "step": 683 }, { "epoch": 0.0152, "grad_norm": 1.1330578327178955, "learning_rate": 0.00019700377861747056, "loss": 2.028, "step": 684 }, { "epoch": 0.015222222222222222, "grad_norm": 1.1553888320922852, "learning_rate": 0.00019699933318515227, "loss": 1.5913, "step": 685 }, { "epoch": 0.015244444444444444, "grad_norm": 1.0828315019607544, "learning_rate": 0.00019699488775283398, "loss": 1.6112, "step": 686 }, { "epoch": 0.015266666666666666, "grad_norm": 1.225699782371521, "learning_rate": 0.0001969904423205157, "loss": 2.3407, "step": 687 }, { "epoch": 0.015288888888888888, "grad_norm": 1.2007973194122314, "learning_rate": 0.0001969859968881974, "loss": 2.3212, "step": 688 }, { "epoch": 0.01531111111111111, "grad_norm": 1.386231780052185, "learning_rate": 0.00019698155145587908, "loss": 2.0497, "step": 689 }, { "epoch": 0.015333333333333332, "grad_norm": 1.2499487400054932, "learning_rate": 0.00019697710602356082, "loss": 2.276, "step": 690 }, { "epoch": 0.015355555555555556, "grad_norm": 1.2209858894348145, "learning_rate": 0.0001969726605912425, "loss": 1.89, "step": 691 }, { "epoch": 0.015377777777777778, "grad_norm": 1.2517179250717163, "learning_rate": 0.0001969682151589242, "loss": 2.0313, "step": 692 }, { "epoch": 0.0154, "grad_norm": 1.2715023756027222, "learning_rate": 0.00019696376972660592, "loss": 2.2077, "step": 693 }, { "epoch": 0.015422222222222223, "grad_norm": 1.231107473373413, "learning_rate": 0.00019695932429428763, "loss": 2.2723, "step": 694 }, { "epoch": 0.015444444444444445, "grad_norm": 1.2120702266693115, "learning_rate": 0.00019695487886196934, "loss": 2.1168, "step": 695 }, { "epoch": 0.015466666666666667, "grad_norm": 1.1936527490615845, "learning_rate": 0.00019695043342965105, "loss": 2.0022, "step": 696 }, { "epoch": 0.015488888888888889, "grad_norm": 1.2992490530014038, "learning_rate": 0.00019694598799733276, "loss": 1.9607, "step": 697 }, { "epoch": 0.015511111111111111, "grad_norm": 1.205354928970337, "learning_rate": 0.00019694154256501444, "loss": 1.748, "step": 698 }, { "epoch": 0.015533333333333333, "grad_norm": 1.3571568727493286, "learning_rate": 0.00019693709713269618, "loss": 1.795, "step": 699 }, { "epoch": 0.015555555555555555, "grad_norm": 1.4771002531051636, "learning_rate": 0.00019693265170037786, "loss": 2.1537, "step": 700 }, { "epoch": 0.015577777777777777, "grad_norm": 1.1767499446868896, "learning_rate": 0.00019692820626805957, "loss": 2.5639, "step": 701 }, { "epoch": 0.0156, "grad_norm": 1.3834136724472046, "learning_rate": 0.00019692376083574128, "loss": 1.7281, "step": 702 }, { "epoch": 0.015622222222222221, "grad_norm": 0.7690825462341309, "learning_rate": 0.000196919315403423, "loss": 2.0467, "step": 703 }, { "epoch": 0.015644444444444443, "grad_norm": 0.8094202280044556, "learning_rate": 0.0001969148699711047, "loss": 2.2269, "step": 704 }, { "epoch": 0.015666666666666666, "grad_norm": 0.8339313268661499, "learning_rate": 0.0001969104245387864, "loss": 2.0145, "step": 705 }, { "epoch": 0.015688888888888888, "grad_norm": 1.0422499179840088, "learning_rate": 0.00019690597910646812, "loss": 2.2106, "step": 706 }, { "epoch": 0.01571111111111111, "grad_norm": 0.9235741496086121, "learning_rate": 0.00019690153367414983, "loss": 2.2554, "step": 707 }, { "epoch": 0.015733333333333332, "grad_norm": 1.0492695569992065, "learning_rate": 0.00019689708824183153, "loss": 2.2707, "step": 708 }, { "epoch": 0.015755555555555554, "grad_norm": 1.0586918592453003, "learning_rate": 0.00019689264280951322, "loss": 2.4847, "step": 709 }, { "epoch": 0.01577777777777778, "grad_norm": 1.087799072265625, "learning_rate": 0.00019688819737719495, "loss": 2.6584, "step": 710 }, { "epoch": 0.0158, "grad_norm": 0.9089024066925049, "learning_rate": 0.00019688375194487664, "loss": 2.463, "step": 711 }, { "epoch": 0.015822222222222224, "grad_norm": 1.0169419050216675, "learning_rate": 0.00019687930651255835, "loss": 2.562, "step": 712 }, { "epoch": 0.015844444444444446, "grad_norm": 0.9576930999755859, "learning_rate": 0.00019687486108024008, "loss": 2.0399, "step": 713 }, { "epoch": 0.015866666666666668, "grad_norm": 1.0270696878433228, "learning_rate": 0.00019687041564792177, "loss": 2.3984, "step": 714 }, { "epoch": 0.01588888888888889, "grad_norm": 1.1256415843963623, "learning_rate": 0.00019686597021560347, "loss": 2.1972, "step": 715 }, { "epoch": 0.015911111111111112, "grad_norm": 1.1607558727264404, "learning_rate": 0.00019686152478328518, "loss": 2.1832, "step": 716 }, { "epoch": 0.015933333333333334, "grad_norm": 1.0180697441101074, "learning_rate": 0.0001968570793509669, "loss": 1.897, "step": 717 }, { "epoch": 0.015955555555555556, "grad_norm": 1.1228909492492676, "learning_rate": 0.00019685263391864858, "loss": 1.6522, "step": 718 }, { "epoch": 0.015977777777777778, "grad_norm": 1.1269443035125732, "learning_rate": 0.0001968481884863303, "loss": 2.1708, "step": 719 }, { "epoch": 0.016, "grad_norm": 1.2360373735427856, "learning_rate": 0.000196843743054012, "loss": 2.2552, "step": 720 }, { "epoch": 0.016022222222222222, "grad_norm": 1.2020705938339233, "learning_rate": 0.00019683929762169373, "loss": 2.0644, "step": 721 }, { "epoch": 0.016044444444444445, "grad_norm": 1.1314325332641602, "learning_rate": 0.00019683485218937544, "loss": 2.1421, "step": 722 }, { "epoch": 0.016066666666666667, "grad_norm": 1.1173206567764282, "learning_rate": 0.00019683040675705712, "loss": 2.0589, "step": 723 }, { "epoch": 0.01608888888888889, "grad_norm": 1.234604001045227, "learning_rate": 0.00019682596132473886, "loss": 2.1747, "step": 724 }, { "epoch": 0.01611111111111111, "grad_norm": 1.0637574195861816, "learning_rate": 0.00019682151589242054, "loss": 2.2928, "step": 725 }, { "epoch": 0.016133333333333333, "grad_norm": 1.1036534309387207, "learning_rate": 0.00019681707046010225, "loss": 2.4124, "step": 726 }, { "epoch": 0.016155555555555555, "grad_norm": 1.160920262336731, "learning_rate": 0.00019681262502778396, "loss": 2.1769, "step": 727 }, { "epoch": 0.016177777777777777, "grad_norm": 0.9460611939430237, "learning_rate": 0.00019680817959546567, "loss": 2.0493, "step": 728 }, { "epoch": 0.0162, "grad_norm": 1.0128278732299805, "learning_rate": 0.00019680373416314736, "loss": 1.8745, "step": 729 }, { "epoch": 0.01622222222222222, "grad_norm": 1.1487228870391846, "learning_rate": 0.0001967992887308291, "loss": 2.0736, "step": 730 }, { "epoch": 0.016244444444444443, "grad_norm": 1.1187260150909424, "learning_rate": 0.0001967948432985108, "loss": 1.9883, "step": 731 }, { "epoch": 0.016266666666666665, "grad_norm": 1.276348352432251, "learning_rate": 0.00019679039786619248, "loss": 1.7453, "step": 732 }, { "epoch": 0.016288888888888887, "grad_norm": 1.0150865316390991, "learning_rate": 0.00019678595243387422, "loss": 1.7307, "step": 733 }, { "epoch": 0.01631111111111111, "grad_norm": 1.0547184944152832, "learning_rate": 0.0001967815070015559, "loss": 1.8055, "step": 734 }, { "epoch": 0.01633333333333333, "grad_norm": 1.1808862686157227, "learning_rate": 0.0001967770615692376, "loss": 2.0142, "step": 735 }, { "epoch": 0.016355555555555557, "grad_norm": 1.3099372386932373, "learning_rate": 0.00019677261613691932, "loss": 2.3656, "step": 736 }, { "epoch": 0.01637777777777778, "grad_norm": 1.294157862663269, "learning_rate": 0.00019676817070460103, "loss": 2.0817, "step": 737 }, { "epoch": 0.0164, "grad_norm": 1.13506281375885, "learning_rate": 0.00019676372527228274, "loss": 1.9877, "step": 738 }, { "epoch": 0.016422222222222223, "grad_norm": 1.2554447650909424, "learning_rate": 0.00019675927983996445, "loss": 2.3157, "step": 739 }, { "epoch": 0.016444444444444446, "grad_norm": 1.1055458784103394, "learning_rate": 0.00019675483440764616, "loss": 2.1281, "step": 740 }, { "epoch": 0.016466666666666668, "grad_norm": 1.5507477521896362, "learning_rate": 0.00019675038897532787, "loss": 1.7193, "step": 741 }, { "epoch": 0.01648888888888889, "grad_norm": 1.3108044862747192, "learning_rate": 0.00019674594354300958, "loss": 1.5882, "step": 742 }, { "epoch": 0.016511111111111112, "grad_norm": 1.2059918642044067, "learning_rate": 0.00019674149811069126, "loss": 1.9798, "step": 743 }, { "epoch": 0.016533333333333334, "grad_norm": 1.1982961893081665, "learning_rate": 0.000196737052678373, "loss": 1.8826, "step": 744 }, { "epoch": 0.016555555555555556, "grad_norm": 1.2684075832366943, "learning_rate": 0.00019673260724605468, "loss": 2.2258, "step": 745 }, { "epoch": 0.016577777777777778, "grad_norm": 1.0842028856277466, "learning_rate": 0.0001967281618137364, "loss": 1.7994, "step": 746 }, { "epoch": 0.0166, "grad_norm": 1.293434739112854, "learning_rate": 0.0001967237163814181, "loss": 2.0513, "step": 747 }, { "epoch": 0.016622222222222222, "grad_norm": 1.282414197921753, "learning_rate": 0.0001967192709490998, "loss": 1.9613, "step": 748 }, { "epoch": 0.016644444444444444, "grad_norm": 1.408108115196228, "learning_rate": 0.00019671482551678152, "loss": 1.9771, "step": 749 }, { "epoch": 0.016666666666666666, "grad_norm": 1.5824871063232422, "learning_rate": 0.00019671038008446323, "loss": 1.9777, "step": 750 }, { "epoch": 0.01668888888888889, "grad_norm": 1.7164340019226074, "learning_rate": 0.00019670593465214494, "loss": 1.7608, "step": 751 }, { "epoch": 0.01671111111111111, "grad_norm": 1.0201396942138672, "learning_rate": 0.00019670148921982662, "loss": 2.8536, "step": 752 }, { "epoch": 0.016733333333333333, "grad_norm": 1.1302566528320312, "learning_rate": 0.00019669704378750836, "loss": 3.0723, "step": 753 }, { "epoch": 0.016755555555555555, "grad_norm": 0.9833186268806458, "learning_rate": 0.00019669259835519004, "loss": 2.5592, "step": 754 }, { "epoch": 0.016777777777777777, "grad_norm": 1.1132311820983887, "learning_rate": 0.00019668815292287175, "loss": 2.5013, "step": 755 }, { "epoch": 0.0168, "grad_norm": 1.0777004957199097, "learning_rate": 0.00019668370749055346, "loss": 2.578, "step": 756 }, { "epoch": 0.01682222222222222, "grad_norm": 0.9996433258056641, "learning_rate": 0.00019667926205823517, "loss": 2.6638, "step": 757 }, { "epoch": 0.016844444444444443, "grad_norm": 0.9491451382637024, "learning_rate": 0.00019667481662591688, "loss": 2.2324, "step": 758 }, { "epoch": 0.016866666666666665, "grad_norm": 1.1342917680740356, "learning_rate": 0.0001966703711935986, "loss": 2.2155, "step": 759 }, { "epoch": 0.016888888888888887, "grad_norm": 1.0377998352050781, "learning_rate": 0.0001966659257612803, "loss": 2.0908, "step": 760 }, { "epoch": 0.01691111111111111, "grad_norm": 1.5156100988388062, "learning_rate": 0.000196661480328962, "loss": 1.7761, "step": 761 }, { "epoch": 0.016933333333333335, "grad_norm": 1.339430570602417, "learning_rate": 0.00019665703489664372, "loss": 2.4221, "step": 762 }, { "epoch": 0.016955555555555557, "grad_norm": 1.0605875253677368, "learning_rate": 0.0001966525894643254, "loss": 2.3038, "step": 763 }, { "epoch": 0.01697777777777778, "grad_norm": 1.099420428276062, "learning_rate": 0.00019664814403200714, "loss": 1.8862, "step": 764 }, { "epoch": 0.017, "grad_norm": 0.9548482894897461, "learning_rate": 0.00019664369859968882, "loss": 1.9038, "step": 765 }, { "epoch": 0.017022222222222223, "grad_norm": 1.0867154598236084, "learning_rate": 0.00019663925316737053, "loss": 2.3261, "step": 766 }, { "epoch": 0.017044444444444445, "grad_norm": 1.0911372900009155, "learning_rate": 0.00019663480773505224, "loss": 2.1344, "step": 767 }, { "epoch": 0.017066666666666667, "grad_norm": 1.2783464193344116, "learning_rate": 0.00019663036230273395, "loss": 2.0554, "step": 768 }, { "epoch": 0.01708888888888889, "grad_norm": 1.0362484455108643, "learning_rate": 0.00019662591687041566, "loss": 1.9389, "step": 769 }, { "epoch": 0.01711111111111111, "grad_norm": 1.4606289863586426, "learning_rate": 0.00019662147143809737, "loss": 1.4451, "step": 770 }, { "epoch": 0.017133333333333334, "grad_norm": 1.1501736640930176, "learning_rate": 0.00019661702600577908, "loss": 2.4976, "step": 771 }, { "epoch": 0.017155555555555556, "grad_norm": 1.2100738286972046, "learning_rate": 0.00019661258057346076, "loss": 2.1542, "step": 772 }, { "epoch": 0.017177777777777778, "grad_norm": 1.2099733352661133, "learning_rate": 0.0001966081351411425, "loss": 2.2964, "step": 773 }, { "epoch": 0.0172, "grad_norm": 0.9988672137260437, "learning_rate": 0.00019660368970882418, "loss": 1.6329, "step": 774 }, { "epoch": 0.017222222222222222, "grad_norm": 1.2203208208084106, "learning_rate": 0.0001965992442765059, "loss": 1.9813, "step": 775 }, { "epoch": 0.017244444444444444, "grad_norm": 1.2115823030471802, "learning_rate": 0.0001965947988441876, "loss": 2.5386, "step": 776 }, { "epoch": 0.017266666666666666, "grad_norm": 1.1591236591339111, "learning_rate": 0.0001965903534118693, "loss": 2.2034, "step": 777 }, { "epoch": 0.01728888888888889, "grad_norm": 1.2802622318267822, "learning_rate": 0.00019658590797955102, "loss": 1.9755, "step": 778 }, { "epoch": 0.01731111111111111, "grad_norm": 1.5906323194503784, "learning_rate": 0.00019658146254723273, "loss": 2.1452, "step": 779 }, { "epoch": 0.017333333333333333, "grad_norm": 1.6918163299560547, "learning_rate": 0.00019657701711491444, "loss": 2.0825, "step": 780 }, { "epoch": 0.017355555555555555, "grad_norm": 1.3963426351547241, "learning_rate": 0.00019657257168259615, "loss": 2.6064, "step": 781 }, { "epoch": 0.017377777777777777, "grad_norm": 1.2364081144332886, "learning_rate": 0.00019656812625027786, "loss": 2.3085, "step": 782 }, { "epoch": 0.0174, "grad_norm": 1.233431339263916, "learning_rate": 0.00019656368081795954, "loss": 1.4694, "step": 783 }, { "epoch": 0.01742222222222222, "grad_norm": 1.1503186225891113, "learning_rate": 0.00019655923538564128, "loss": 1.8187, "step": 784 }, { "epoch": 0.017444444444444443, "grad_norm": 1.1116048097610474, "learning_rate": 0.00019655478995332296, "loss": 1.8397, "step": 785 }, { "epoch": 0.017466666666666665, "grad_norm": 1.279958963394165, "learning_rate": 0.00019655034452100467, "loss": 2.1105, "step": 786 }, { "epoch": 0.01748888888888889, "grad_norm": 1.1690638065338135, "learning_rate": 0.0001965458990886864, "loss": 1.8329, "step": 787 }, { "epoch": 0.017511111111111113, "grad_norm": 1.4253699779510498, "learning_rate": 0.0001965414536563681, "loss": 2.4336, "step": 788 }, { "epoch": 0.017533333333333335, "grad_norm": 1.2776070833206177, "learning_rate": 0.0001965370082240498, "loss": 2.4518, "step": 789 }, { "epoch": 0.017555555555555557, "grad_norm": 1.512034296989441, "learning_rate": 0.0001965325627917315, "loss": 2.1827, "step": 790 }, { "epoch": 0.01757777777777778, "grad_norm": 1.1982293128967285, "learning_rate": 0.00019652811735941322, "loss": 1.9153, "step": 791 }, { "epoch": 0.0176, "grad_norm": 1.2013659477233887, "learning_rate": 0.0001965236719270949, "loss": 2.081, "step": 792 }, { "epoch": 0.017622222222222223, "grad_norm": 1.1781667470932007, "learning_rate": 0.00019651922649477664, "loss": 2.0006, "step": 793 }, { "epoch": 0.017644444444444445, "grad_norm": 1.2165113687515259, "learning_rate": 0.00019651478106245832, "loss": 1.7922, "step": 794 }, { "epoch": 0.017666666666666667, "grad_norm": 1.2281546592712402, "learning_rate": 0.00019651033563014003, "loss": 2.0171, "step": 795 }, { "epoch": 0.01768888888888889, "grad_norm": 1.2754110097885132, "learning_rate": 0.00019650589019782176, "loss": 1.662, "step": 796 }, { "epoch": 0.01771111111111111, "grad_norm": 1.219094157218933, "learning_rate": 0.00019650144476550345, "loss": 1.9778, "step": 797 }, { "epoch": 0.017733333333333334, "grad_norm": 1.177097201347351, "learning_rate": 0.00019649699933318518, "loss": 1.9318, "step": 798 }, { "epoch": 0.017755555555555556, "grad_norm": 1.5781985521316528, "learning_rate": 0.00019649255390086687, "loss": 1.7374, "step": 799 }, { "epoch": 0.017777777777777778, "grad_norm": 1.26176118850708, "learning_rate": 0.00019648810846854858, "loss": 1.6688, "step": 800 }, { "epoch": 0.0178, "grad_norm": 1.1339136362075806, "learning_rate": 0.00019648366303623029, "loss": 1.5807, "step": 801 }, { "epoch": 0.017822222222222222, "grad_norm": 1.3230016231536865, "learning_rate": 0.000196479217603912, "loss": 3.0471, "step": 802 }, { "epoch": 0.017844444444444444, "grad_norm": 1.4688678979873657, "learning_rate": 0.00019647477217159368, "loss": 1.3478, "step": 803 }, { "epoch": 0.017866666666666666, "grad_norm": 1.306009292602539, "learning_rate": 0.00019647032673927541, "loss": 2.7983, "step": 804 }, { "epoch": 0.017888888888888888, "grad_norm": 1.1074703931808472, "learning_rate": 0.00019646588130695712, "loss": 2.3747, "step": 805 }, { "epoch": 0.01791111111111111, "grad_norm": 1.3425999879837036, "learning_rate": 0.0001964614358746388, "loss": 2.726, "step": 806 }, { "epoch": 0.017933333333333332, "grad_norm": 1.1015830039978027, "learning_rate": 0.00019645699044232054, "loss": 2.3845, "step": 807 }, { "epoch": 0.017955555555555554, "grad_norm": 0.9824787378311157, "learning_rate": 0.00019645254501000223, "loss": 2.2274, "step": 808 }, { "epoch": 0.017977777777777777, "grad_norm": 1.1457710266113281, "learning_rate": 0.00019644809957768394, "loss": 2.5331, "step": 809 }, { "epoch": 0.018, "grad_norm": 1.09781014919281, "learning_rate": 0.00019644365414536564, "loss": 2.2203, "step": 810 }, { "epoch": 0.01802222222222222, "grad_norm": 1.3251962661743164, "learning_rate": 0.00019643920871304735, "loss": 2.3068, "step": 811 }, { "epoch": 0.018044444444444443, "grad_norm": 1.0364882946014404, "learning_rate": 0.00019643476328072906, "loss": 2.0702, "step": 812 }, { "epoch": 0.01806666666666667, "grad_norm": 1.027541160583496, "learning_rate": 0.00019643031784841077, "loss": 2.3624, "step": 813 }, { "epoch": 0.01808888888888889, "grad_norm": 1.0804171562194824, "learning_rate": 0.00019642587241609248, "loss": 2.2597, "step": 814 }, { "epoch": 0.018111111111111113, "grad_norm": 0.9873744249343872, "learning_rate": 0.00019642142698377417, "loss": 2.0124, "step": 815 }, { "epoch": 0.018133333333333335, "grad_norm": 1.2539011240005493, "learning_rate": 0.0001964169815514559, "loss": 1.6722, "step": 816 }, { "epoch": 0.018155555555555557, "grad_norm": 1.0545837879180908, "learning_rate": 0.00019641253611913758, "loss": 1.9449, "step": 817 }, { "epoch": 0.01817777777777778, "grad_norm": 1.0569536685943604, "learning_rate": 0.00019640809068681932, "loss": 2.1474, "step": 818 }, { "epoch": 0.0182, "grad_norm": 1.0982191562652588, "learning_rate": 0.000196403645254501, "loss": 2.0039, "step": 819 }, { "epoch": 0.018222222222222223, "grad_norm": 1.1790661811828613, "learning_rate": 0.00019639919982218271, "loss": 2.2475, "step": 820 }, { "epoch": 0.018244444444444445, "grad_norm": 1.2144410610198975, "learning_rate": 0.00019639475438986442, "loss": 2.005, "step": 821 }, { "epoch": 0.018266666666666667, "grad_norm": 1.3091073036193848, "learning_rate": 0.00019639030895754613, "loss": 2.2285, "step": 822 }, { "epoch": 0.01828888888888889, "grad_norm": 1.0567389726638794, "learning_rate": 0.00019638586352522784, "loss": 1.681, "step": 823 }, { "epoch": 0.01831111111111111, "grad_norm": 1.2873115539550781, "learning_rate": 0.00019638141809290955, "loss": 2.4649, "step": 824 }, { "epoch": 0.018333333333333333, "grad_norm": 1.1891435384750366, "learning_rate": 0.00019637697266059126, "loss": 2.0758, "step": 825 }, { "epoch": 0.018355555555555556, "grad_norm": 1.301710605621338, "learning_rate": 0.00019637252722827294, "loss": 2.2872, "step": 826 }, { "epoch": 0.018377777777777778, "grad_norm": 1.0890244245529175, "learning_rate": 0.00019636808179595468, "loss": 1.8396, "step": 827 }, { "epoch": 0.0184, "grad_norm": 1.1202166080474854, "learning_rate": 0.00019636363636363636, "loss": 2.0805, "step": 828 }, { "epoch": 0.018422222222222222, "grad_norm": 2.2393441200256348, "learning_rate": 0.00019635919093131807, "loss": 0.5444, "step": 829 }, { "epoch": 0.018444444444444444, "grad_norm": 1.2420040369033813, "learning_rate": 0.00019635474549899978, "loss": 1.9836, "step": 830 }, { "epoch": 0.018466666666666666, "grad_norm": 1.038867473602295, "learning_rate": 0.0001963503000666815, "loss": 1.7146, "step": 831 }, { "epoch": 0.018488888888888888, "grad_norm": 1.1635878086090088, "learning_rate": 0.0001963458546343632, "loss": 1.7218, "step": 832 }, { "epoch": 0.01851111111111111, "grad_norm": 1.0368382930755615, "learning_rate": 0.0001963414092020449, "loss": 1.3076, "step": 833 }, { "epoch": 0.018533333333333332, "grad_norm": 0.943245530128479, "learning_rate": 0.00019633696376972662, "loss": 1.1374, "step": 834 }, { "epoch": 0.018555555555555554, "grad_norm": 1.2916659116744995, "learning_rate": 0.00019633251833740833, "loss": 2.3984, "step": 835 }, { "epoch": 0.018577777777777776, "grad_norm": 1.0505813360214233, "learning_rate": 0.00019632807290509004, "loss": 1.6111, "step": 836 }, { "epoch": 0.0186, "grad_norm": 1.16885244846344, "learning_rate": 0.00019632362747277172, "loss": 1.683, "step": 837 }, { "epoch": 0.01862222222222222, "grad_norm": 1.203165054321289, "learning_rate": 0.00019631918204045346, "loss": 2.2429, "step": 838 }, { "epoch": 0.018644444444444446, "grad_norm": 2.2412188053131104, "learning_rate": 0.00019631473660813514, "loss": 2.1415, "step": 839 }, { "epoch": 0.018666666666666668, "grad_norm": 1.2367819547653198, "learning_rate": 0.00019631029117581685, "loss": 2.2188, "step": 840 }, { "epoch": 0.01868888888888889, "grad_norm": 1.673090934753418, "learning_rate": 0.00019630584574349856, "loss": 1.4442, "step": 841 }, { "epoch": 0.018711111111111112, "grad_norm": 1.2908966541290283, "learning_rate": 0.00019630140031118027, "loss": 2.2486, "step": 842 }, { "epoch": 0.018733333333333334, "grad_norm": 1.2924500703811646, "learning_rate": 0.00019629695487886198, "loss": 1.9328, "step": 843 }, { "epoch": 0.018755555555555557, "grad_norm": 1.275480031967163, "learning_rate": 0.0001962925094465437, "loss": 1.7754, "step": 844 }, { "epoch": 0.01877777777777778, "grad_norm": 1.1931178569793701, "learning_rate": 0.0001962880640142254, "loss": 2.1881, "step": 845 }, { "epoch": 0.0188, "grad_norm": 2.039440393447876, "learning_rate": 0.00019628361858190708, "loss": 1.644, "step": 846 }, { "epoch": 0.018822222222222223, "grad_norm": 1.3467886447906494, "learning_rate": 0.00019627917314958882, "loss": 2.2548, "step": 847 }, { "epoch": 0.018844444444444445, "grad_norm": 1.3075599670410156, "learning_rate": 0.0001962747277172705, "loss": 2.0337, "step": 848 }, { "epoch": 0.018866666666666667, "grad_norm": 1.1949859857559204, "learning_rate": 0.0001962702822849522, "loss": 1.9284, "step": 849 }, { "epoch": 0.01888888888888889, "grad_norm": 1.2792781591415405, "learning_rate": 0.00019626583685263392, "loss": 1.0456, "step": 850 }, { "epoch": 0.01891111111111111, "grad_norm": 1.4490439891815186, "learning_rate": 0.00019626139142031563, "loss": 1.6746, "step": 851 }, { "epoch": 0.018933333333333333, "grad_norm": 1.1604878902435303, "learning_rate": 0.00019625694598799734, "loss": 1.7505, "step": 852 }, { "epoch": 0.018955555555555555, "grad_norm": 0.9291083812713623, "learning_rate": 0.00019625250055567905, "loss": 2.5427, "step": 853 }, { "epoch": 0.018977777777777777, "grad_norm": 1.5711733102798462, "learning_rate": 0.00019624805512336076, "loss": 0.2669, "step": 854 }, { "epoch": 0.019, "grad_norm": 1.1600127220153809, "learning_rate": 0.00019624360969104247, "loss": 2.9463, "step": 855 }, { "epoch": 0.01902222222222222, "grad_norm": 1.0230916738510132, "learning_rate": 0.00019623916425872418, "loss": 2.6563, "step": 856 }, { "epoch": 0.019044444444444444, "grad_norm": 0.9486801028251648, "learning_rate": 0.00019623471882640586, "loss": 1.8925, "step": 857 }, { "epoch": 0.019066666666666666, "grad_norm": 1.044983983039856, "learning_rate": 0.0001962302733940876, "loss": 2.311, "step": 858 }, { "epoch": 0.019088888888888888, "grad_norm": 1.4333350658416748, "learning_rate": 0.00019622582796176928, "loss": 1.7861, "step": 859 }, { "epoch": 0.01911111111111111, "grad_norm": 1.5485827922821045, "learning_rate": 0.000196221382529451, "loss": 1.7814, "step": 860 }, { "epoch": 0.019133333333333332, "grad_norm": 1.0253639221191406, "learning_rate": 0.00019621693709713273, "loss": 2.3211, "step": 861 }, { "epoch": 0.019155555555555554, "grad_norm": 1.0021156072616577, "learning_rate": 0.0001962124916648144, "loss": 2.2516, "step": 862 }, { "epoch": 0.019177777777777776, "grad_norm": 1.083513855934143, "learning_rate": 0.00019620804623249612, "loss": 2.483, "step": 863 }, { "epoch": 0.0192, "grad_norm": 1.0141162872314453, "learning_rate": 0.00019620360080017783, "loss": 2.1131, "step": 864 }, { "epoch": 0.019222222222222224, "grad_norm": 1.1440132856369019, "learning_rate": 0.00019619915536785954, "loss": 2.3115, "step": 865 }, { "epoch": 0.019244444444444446, "grad_norm": 1.368955373764038, "learning_rate": 0.00019619470993554122, "loss": 2.438, "step": 866 }, { "epoch": 0.019266666666666668, "grad_norm": 1.09905207157135, "learning_rate": 0.00019619026450322296, "loss": 2.1312, "step": 867 }, { "epoch": 0.01928888888888889, "grad_norm": 1.049364686012268, "learning_rate": 0.00019618581907090464, "loss": 2.0062, "step": 868 }, { "epoch": 0.019311111111111112, "grad_norm": 0.9739032983779907, "learning_rate": 0.00019618137363858635, "loss": 1.693, "step": 869 }, { "epoch": 0.019333333333333334, "grad_norm": 0.9700818061828613, "learning_rate": 0.00019617692820626809, "loss": 2.0532, "step": 870 }, { "epoch": 0.019355555555555556, "grad_norm": 1.3672065734863281, "learning_rate": 0.00019617248277394977, "loss": 1.429, "step": 871 }, { "epoch": 0.01937777777777778, "grad_norm": 1.079664707183838, "learning_rate": 0.00019616803734163148, "loss": 2.0825, "step": 872 }, { "epoch": 0.0194, "grad_norm": 1.2146960496902466, "learning_rate": 0.0001961635919093132, "loss": 2.2426, "step": 873 }, { "epoch": 0.019422222222222223, "grad_norm": 1.24970543384552, "learning_rate": 0.0001961591464769949, "loss": 2.6886, "step": 874 }, { "epoch": 0.019444444444444445, "grad_norm": 1.195928931236267, "learning_rate": 0.0001961547010446766, "loss": 2.4466, "step": 875 }, { "epoch": 0.019466666666666667, "grad_norm": 1.179833173751831, "learning_rate": 0.00019615025561235832, "loss": 2.2829, "step": 876 }, { "epoch": 0.01948888888888889, "grad_norm": 1.1945130825042725, "learning_rate": 0.00019614581018004, "loss": 2.418, "step": 877 }, { "epoch": 0.01951111111111111, "grad_norm": 1.167978286743164, "learning_rate": 0.00019614136474772174, "loss": 2.4884, "step": 878 }, { "epoch": 0.019533333333333333, "grad_norm": 1.125403642654419, "learning_rate": 0.00019613691931540345, "loss": 2.1588, "step": 879 }, { "epoch": 0.019555555555555555, "grad_norm": 1.150924801826477, "learning_rate": 0.00019613247388308513, "loss": 2.1924, "step": 880 }, { "epoch": 0.019577777777777777, "grad_norm": 1.2554140090942383, "learning_rate": 0.00019612802845076687, "loss": 2.2575, "step": 881 }, { "epoch": 0.0196, "grad_norm": 1.0867589712142944, "learning_rate": 0.00019612358301844855, "loss": 1.9348, "step": 882 }, { "epoch": 0.01962222222222222, "grad_norm": 1.228159785270691, "learning_rate": 0.00019611913758613026, "loss": 2.1239, "step": 883 }, { "epoch": 0.019644444444444444, "grad_norm": 1.3001697063446045, "learning_rate": 0.00019611469215381197, "loss": 2.0723, "step": 884 }, { "epoch": 0.019666666666666666, "grad_norm": 1.325709581375122, "learning_rate": 0.00019611024672149368, "loss": 2.3303, "step": 885 }, { "epoch": 0.019688888888888888, "grad_norm": 1.2864207029342651, "learning_rate": 0.00019610580128917539, "loss": 1.96, "step": 886 }, { "epoch": 0.01971111111111111, "grad_norm": 1.255982756614685, "learning_rate": 0.0001961013558568571, "loss": 1.8032, "step": 887 }, { "epoch": 0.019733333333333332, "grad_norm": 1.2519142627716064, "learning_rate": 0.0001960969104245388, "loss": 1.9856, "step": 888 }, { "epoch": 0.019755555555555554, "grad_norm": 1.3303425312042236, "learning_rate": 0.0001960924649922205, "loss": 0.3838, "step": 889 }, { "epoch": 0.019777777777777776, "grad_norm": 1.2367528676986694, "learning_rate": 0.00019608801955990222, "loss": 2.0583, "step": 890 }, { "epoch": 0.0198, "grad_norm": 1.3811371326446533, "learning_rate": 0.0001960835741275839, "loss": 2.1395, "step": 891 }, { "epoch": 0.019822222222222224, "grad_norm": 1.7128000259399414, "learning_rate": 0.00019607912869526564, "loss": 2.0093, "step": 892 }, { "epoch": 0.019844444444444446, "grad_norm": 1.5509915351867676, "learning_rate": 0.00019607468326294733, "loss": 2.571, "step": 893 }, { "epoch": 0.019866666666666668, "grad_norm": 1.2489700317382812, "learning_rate": 0.00019607023783062904, "loss": 1.582, "step": 894 }, { "epoch": 0.01988888888888889, "grad_norm": 1.2955539226531982, "learning_rate": 0.00019606579239831075, "loss": 1.6916, "step": 895 }, { "epoch": 0.019911111111111112, "grad_norm": 1.4643043279647827, "learning_rate": 0.00019606134696599246, "loss": 2.022, "step": 896 }, { "epoch": 0.019933333333333334, "grad_norm": 1.5307050943374634, "learning_rate": 0.00019605690153367416, "loss": 2.0634, "step": 897 }, { "epoch": 0.019955555555555556, "grad_norm": 1.3590905666351318, "learning_rate": 0.00019605245610135587, "loss": 1.5713, "step": 898 }, { "epoch": 0.01997777777777778, "grad_norm": 1.562294602394104, "learning_rate": 0.00019604801066903758, "loss": 1.7607, "step": 899 }, { "epoch": 0.02, "grad_norm": 1.8767348527908325, "learning_rate": 0.00019604356523671927, "loss": 2.1073, "step": 900 }, { "epoch": 0.020022222222222223, "grad_norm": 1.0802743434906006, "learning_rate": 0.000196039119804401, "loss": 2.7056, "step": 901 }, { "epoch": 0.020044444444444445, "grad_norm": 2.3722715377807617, "learning_rate": 0.00019603467437208269, "loss": 1.38, "step": 902 }, { "epoch": 0.020066666666666667, "grad_norm": 1.0593788623809814, "learning_rate": 0.0001960302289397644, "loss": 2.5719, "step": 903 }, { "epoch": 0.02008888888888889, "grad_norm": 1.0191380977630615, "learning_rate": 0.0001960257835074461, "loss": 2.4799, "step": 904 }, { "epoch": 0.02011111111111111, "grad_norm": 0.9760773777961731, "learning_rate": 0.00019602133807512781, "loss": 2.1631, "step": 905 }, { "epoch": 0.020133333333333333, "grad_norm": 1.1734133958816528, "learning_rate": 0.00019601689264280952, "loss": 2.8479, "step": 906 }, { "epoch": 0.020155555555555555, "grad_norm": 1.0349823236465454, "learning_rate": 0.00019601244721049123, "loss": 2.4701, "step": 907 }, { "epoch": 0.020177777777777777, "grad_norm": 1.1129311323165894, "learning_rate": 0.00019600800177817294, "loss": 3.0119, "step": 908 }, { "epoch": 0.0202, "grad_norm": 0.8805875778198242, "learning_rate": 0.00019600355634585463, "loss": 2.0471, "step": 909 }, { "epoch": 0.02022222222222222, "grad_norm": 0.9662013649940491, "learning_rate": 0.00019599911091353636, "loss": 2.1242, "step": 910 }, { "epoch": 0.020244444444444443, "grad_norm": 1.1028411388397217, "learning_rate": 0.00019599466548121805, "loss": 2.1906, "step": 911 }, { "epoch": 0.020266666666666665, "grad_norm": 1.1514785289764404, "learning_rate": 0.00019599022004889978, "loss": 2.4322, "step": 912 }, { "epoch": 0.020288888888888888, "grad_norm": 1.16688871383667, "learning_rate": 0.00019598577461658146, "loss": 2.4395, "step": 913 }, { "epoch": 0.02031111111111111, "grad_norm": 1.4184373617172241, "learning_rate": 0.00019598132918426317, "loss": 1.2305, "step": 914 }, { "epoch": 0.02033333333333333, "grad_norm": 1.03030264377594, "learning_rate": 0.00019597688375194488, "loss": 2.2355, "step": 915 }, { "epoch": 0.020355555555555557, "grad_norm": 1.3763560056686401, "learning_rate": 0.0001959724383196266, "loss": 1.1956, "step": 916 }, { "epoch": 0.02037777777777778, "grad_norm": 1.0465972423553467, "learning_rate": 0.0001959679928873083, "loss": 1.8871, "step": 917 }, { "epoch": 0.0204, "grad_norm": 1.0120636224746704, "learning_rate": 0.00019596354745499, "loss": 1.9974, "step": 918 }, { "epoch": 0.020422222222222224, "grad_norm": 1.0328166484832764, "learning_rate": 0.00019595910202267172, "loss": 2.0037, "step": 919 }, { "epoch": 0.020444444444444446, "grad_norm": 1.0897443294525146, "learning_rate": 0.0001959546565903534, "loss": 1.7993, "step": 920 }, { "epoch": 0.020466666666666668, "grad_norm": 1.1461929082870483, "learning_rate": 0.00019595021115803514, "loss": 1.8812, "step": 921 }, { "epoch": 0.02048888888888889, "grad_norm": 1.2209994792938232, "learning_rate": 0.00019594576572571682, "loss": 2.072, "step": 922 }, { "epoch": 0.020511111111111112, "grad_norm": 1.172695279121399, "learning_rate": 0.00019594132029339853, "loss": 2.1074, "step": 923 }, { "epoch": 0.020533333333333334, "grad_norm": 1.0516802072525024, "learning_rate": 0.00019593687486108024, "loss": 2.0596, "step": 924 }, { "epoch": 0.020555555555555556, "grad_norm": 1.3836328983306885, "learning_rate": 0.00019593242942876195, "loss": 1.7834, "step": 925 }, { "epoch": 0.020577777777777778, "grad_norm": 1.0988030433654785, "learning_rate": 0.00019592798399644366, "loss": 2.4386, "step": 926 }, { "epoch": 0.0206, "grad_norm": 1.2603306770324707, "learning_rate": 0.00019592353856412537, "loss": 1.9224, "step": 927 }, { "epoch": 0.020622222222222222, "grad_norm": 1.2427294254302979, "learning_rate": 0.00019591909313180708, "loss": 2.0508, "step": 928 }, { "epoch": 0.020644444444444444, "grad_norm": 1.2592589855194092, "learning_rate": 0.00019591464769948876, "loss": 0.9818, "step": 929 }, { "epoch": 0.020666666666666667, "grad_norm": 1.216002106666565, "learning_rate": 0.0001959102022671705, "loss": 1.968, "step": 930 }, { "epoch": 0.02068888888888889, "grad_norm": 1.0482780933380127, "learning_rate": 0.00019590575683485218, "loss": 1.9463, "step": 931 }, { "epoch": 0.02071111111111111, "grad_norm": 1.1712830066680908, "learning_rate": 0.00019590131140253392, "loss": 2.2402, "step": 932 }, { "epoch": 0.020733333333333333, "grad_norm": 1.2022780179977417, "learning_rate": 0.0001958968659702156, "loss": 2.2141, "step": 933 }, { "epoch": 0.020755555555555555, "grad_norm": 1.3972703218460083, "learning_rate": 0.0001958924205378973, "loss": 2.5702, "step": 934 }, { "epoch": 0.020777777777777777, "grad_norm": 1.3721685409545898, "learning_rate": 0.00019588797510557905, "loss": 1.9768, "step": 935 }, { "epoch": 0.0208, "grad_norm": 1.477299690246582, "learning_rate": 0.00019588352967326073, "loss": 2.271, "step": 936 }, { "epoch": 0.02082222222222222, "grad_norm": 1.2655388116836548, "learning_rate": 0.00019587908424094244, "loss": 2.1486, "step": 937 }, { "epoch": 0.020844444444444443, "grad_norm": 1.2654677629470825, "learning_rate": 0.00019587463880862415, "loss": 2.1803, "step": 938 }, { "epoch": 0.020866666666666665, "grad_norm": 1.217732548713684, "learning_rate": 0.00019587019337630586, "loss": 1.8073, "step": 939 }, { "epoch": 0.020888888888888887, "grad_norm": 1.2355321645736694, "learning_rate": 0.00019586574794398754, "loss": 2.1258, "step": 940 }, { "epoch": 0.02091111111111111, "grad_norm": 1.1818342208862305, "learning_rate": 0.00019586130251166928, "loss": 1.8276, "step": 941 }, { "epoch": 0.020933333333333335, "grad_norm": 1.1487818956375122, "learning_rate": 0.00019585685707935096, "loss": 1.6831, "step": 942 }, { "epoch": 0.020955555555555557, "grad_norm": 1.2802660465240479, "learning_rate": 0.00019585241164703267, "loss": 1.6609, "step": 943 }, { "epoch": 0.02097777777777778, "grad_norm": 1.1527976989746094, "learning_rate": 0.0001958479662147144, "loss": 1.6833, "step": 944 }, { "epoch": 0.021, "grad_norm": 1.3876123428344727, "learning_rate": 0.0001958435207823961, "loss": 2.3983, "step": 945 }, { "epoch": 0.021022222222222223, "grad_norm": 1.2040034532546997, "learning_rate": 0.0001958390753500778, "loss": 1.846, "step": 946 }, { "epoch": 0.021044444444444445, "grad_norm": 1.370119571685791, "learning_rate": 0.0001958346299177595, "loss": 1.8897, "step": 947 }, { "epoch": 0.021066666666666668, "grad_norm": 1.3019564151763916, "learning_rate": 0.00019583018448544122, "loss": 1.8344, "step": 948 }, { "epoch": 0.02108888888888889, "grad_norm": 1.4427218437194824, "learning_rate": 0.00019582573905312293, "loss": 1.7637, "step": 949 }, { "epoch": 0.021111111111111112, "grad_norm": 1.5034881830215454, "learning_rate": 0.00019582129362080464, "loss": 1.0761, "step": 950 }, { "epoch": 0.021133333333333334, "grad_norm": 1.1429578065872192, "learning_rate": 0.00019581684818848632, "loss": 2.7195, "step": 951 }, { "epoch": 0.021155555555555556, "grad_norm": 0.976854681968689, "learning_rate": 0.00019581240275616806, "loss": 2.3101, "step": 952 }, { "epoch": 0.021177777777777778, "grad_norm": 1.206167221069336, "learning_rate": 0.00019580795732384977, "loss": 1.7676, "step": 953 }, { "epoch": 0.0212, "grad_norm": 0.972571849822998, "learning_rate": 0.00019580351189153145, "loss": 2.54, "step": 954 }, { "epoch": 0.021222222222222222, "grad_norm": 1.1512590646743774, "learning_rate": 0.0001957990664592132, "loss": 2.24, "step": 955 }, { "epoch": 0.021244444444444444, "grad_norm": 1.3974167108535767, "learning_rate": 0.00019579462102689487, "loss": 2.0927, "step": 956 }, { "epoch": 0.021266666666666666, "grad_norm": 1.048025131225586, "learning_rate": 0.00019579017559457658, "loss": 2.2076, "step": 957 }, { "epoch": 0.02128888888888889, "grad_norm": 1.2170542478561401, "learning_rate": 0.0001957857301622583, "loss": 2.3151, "step": 958 }, { "epoch": 0.02131111111111111, "grad_norm": 1.132617712020874, "learning_rate": 0.00019578128472994, "loss": 2.5876, "step": 959 }, { "epoch": 0.021333333333333333, "grad_norm": 1.075210690498352, "learning_rate": 0.0001957768392976217, "loss": 2.1453, "step": 960 }, { "epoch": 0.021355555555555555, "grad_norm": 1.2410504817962646, "learning_rate": 0.00019577239386530342, "loss": 2.6506, "step": 961 }, { "epoch": 0.021377777777777777, "grad_norm": 1.3010751008987427, "learning_rate": 0.00019576794843298513, "loss": 2.4697, "step": 962 }, { "epoch": 0.0214, "grad_norm": 1.0129830837249756, "learning_rate": 0.0001957635030006668, "loss": 1.4227, "step": 963 }, { "epoch": 0.02142222222222222, "grad_norm": 0.6315566897392273, "learning_rate": 0.00019575905756834855, "loss": 0.0922, "step": 964 }, { "epoch": 0.021444444444444443, "grad_norm": 1.1320451498031616, "learning_rate": 0.00019575461213603023, "loss": 2.1428, "step": 965 }, { "epoch": 0.021466666666666665, "grad_norm": 1.2234382629394531, "learning_rate": 0.00019575016670371194, "loss": 2.1096, "step": 966 }, { "epoch": 0.021488888888888887, "grad_norm": 0.9147301912307739, "learning_rate": 0.00019574572127139365, "loss": 1.7953, "step": 967 }, { "epoch": 0.021511111111111113, "grad_norm": 1.356390118598938, "learning_rate": 0.00019574127583907536, "loss": 2.2897, "step": 968 }, { "epoch": 0.021533333333333335, "grad_norm": 1.0729771852493286, "learning_rate": 0.00019573683040675707, "loss": 1.756, "step": 969 }, { "epoch": 0.021555555555555557, "grad_norm": 1.4511117935180664, "learning_rate": 0.00019573238497443878, "loss": 2.6018, "step": 970 }, { "epoch": 0.02157777777777778, "grad_norm": 1.0890446901321411, "learning_rate": 0.0001957279395421205, "loss": 1.9825, "step": 971 }, { "epoch": 0.0216, "grad_norm": 1.0413049459457397, "learning_rate": 0.0001957234941098022, "loss": 1.881, "step": 972 }, { "epoch": 0.021622222222222223, "grad_norm": 1.1469613313674927, "learning_rate": 0.0001957190486774839, "loss": 2.1205, "step": 973 }, { "epoch": 0.021644444444444445, "grad_norm": 1.2220079898834229, "learning_rate": 0.0001957146032451656, "loss": 1.8111, "step": 974 }, { "epoch": 0.021666666666666667, "grad_norm": 1.2006953954696655, "learning_rate": 0.00019571015781284733, "loss": 2.1679, "step": 975 }, { "epoch": 0.02168888888888889, "grad_norm": 1.1270962953567505, "learning_rate": 0.000195705712380529, "loss": 1.0779, "step": 976 }, { "epoch": 0.02171111111111111, "grad_norm": 1.1960642337799072, "learning_rate": 0.00019570126694821072, "loss": 2.047, "step": 977 }, { "epoch": 0.021733333333333334, "grad_norm": 1.4884071350097656, "learning_rate": 0.00019569682151589243, "loss": 2.0778, "step": 978 }, { "epoch": 0.021755555555555556, "grad_norm": 1.5839117765426636, "learning_rate": 0.00019569237608357414, "loss": 1.7589, "step": 979 }, { "epoch": 0.021777777777777778, "grad_norm": 1.19338858127594, "learning_rate": 0.00019568793065125585, "loss": 2.1839, "step": 980 }, { "epoch": 0.0218, "grad_norm": 1.2875008583068848, "learning_rate": 0.00019568348521893756, "loss": 1.7998, "step": 981 }, { "epoch": 0.021822222222222222, "grad_norm": 1.341842770576477, "learning_rate": 0.00019567903978661927, "loss": 1.8036, "step": 982 }, { "epoch": 0.021844444444444444, "grad_norm": 1.2057856321334839, "learning_rate": 0.00019567459435430095, "loss": 2.4206, "step": 983 }, { "epoch": 0.021866666666666666, "grad_norm": 1.2523908615112305, "learning_rate": 0.00019567014892198268, "loss": 2.2547, "step": 984 }, { "epoch": 0.02188888888888889, "grad_norm": 1.0343761444091797, "learning_rate": 0.00019566570348966437, "loss": 1.8124, "step": 985 }, { "epoch": 0.02191111111111111, "grad_norm": 1.5447239875793457, "learning_rate": 0.0001956612580573461, "loss": 2.615, "step": 986 }, { "epoch": 0.021933333333333332, "grad_norm": 1.5843077898025513, "learning_rate": 0.0001956568126250278, "loss": 2.2762, "step": 987 }, { "epoch": 0.021955555555555555, "grad_norm": 1.115618109703064, "learning_rate": 0.0001956523671927095, "loss": 1.8599, "step": 988 }, { "epoch": 0.021977777777777777, "grad_norm": 1.467014193534851, "learning_rate": 0.0001956479217603912, "loss": 2.2977, "step": 989 }, { "epoch": 0.022, "grad_norm": 1.3508834838867188, "learning_rate": 0.00019564347632807292, "loss": 2.311, "step": 990 }, { "epoch": 0.02202222222222222, "grad_norm": 1.1721075773239136, "learning_rate": 0.00019563903089575462, "loss": 1.8702, "step": 991 }, { "epoch": 0.022044444444444443, "grad_norm": 1.4061206579208374, "learning_rate": 0.00019563458546343633, "loss": 1.9824, "step": 992 }, { "epoch": 0.022066666666666665, "grad_norm": 1.1400818824768066, "learning_rate": 0.00019563014003111804, "loss": 1.8775, "step": 993 }, { "epoch": 0.02208888888888889, "grad_norm": 1.2500072717666626, "learning_rate": 0.00019562569459879973, "loss": 2.1389, "step": 994 }, { "epoch": 0.022111111111111113, "grad_norm": 1.1026194095611572, "learning_rate": 0.00019562124916648146, "loss": 1.8361, "step": 995 }, { "epoch": 0.022133333333333335, "grad_norm": 1.262624740600586, "learning_rate": 0.00019561680373416315, "loss": 1.9002, "step": 996 }, { "epoch": 0.022155555555555557, "grad_norm": 1.2566834688186646, "learning_rate": 0.00019561235830184486, "loss": 1.7795, "step": 997 }, { "epoch": 0.02217777777777778, "grad_norm": 1.3451493978500366, "learning_rate": 0.00019560791286952657, "loss": 2.1366, "step": 998 }, { "epoch": 0.0222, "grad_norm": 1.2510582208633423, "learning_rate": 0.00019560346743720827, "loss": 1.6197, "step": 999 }, { "epoch": 0.022222222222222223, "grad_norm": 1.2556939125061035, "learning_rate": 0.00019559902200488998, "loss": 1.3633, "step": 1000 }, { "epoch": 0.022244444444444445, "grad_norm": 0.848939061164856, "learning_rate": 0.0001955945765725717, "loss": 2.5007, "step": 1001 }, { "epoch": 0.022266666666666667, "grad_norm": 1.0787360668182373, "learning_rate": 0.0001955901311402534, "loss": 2.1481, "step": 1002 }, { "epoch": 0.02228888888888889, "grad_norm": 1.044460654258728, "learning_rate": 0.00019558568570793509, "loss": 2.3699, "step": 1003 }, { "epoch": 0.02231111111111111, "grad_norm": 0.9113267660140991, "learning_rate": 0.00019558124027561682, "loss": 2.1719, "step": 1004 }, { "epoch": 0.022333333333333334, "grad_norm": 1.0063265562057495, "learning_rate": 0.0001955767948432985, "loss": 2.3777, "step": 1005 }, { "epoch": 0.022355555555555556, "grad_norm": 0.9605908393859863, "learning_rate": 0.00019557234941098024, "loss": 2.2322, "step": 1006 }, { "epoch": 0.022377777777777778, "grad_norm": 0.9526219367980957, "learning_rate": 0.00019556790397866192, "loss": 2.1858, "step": 1007 }, { "epoch": 0.0224, "grad_norm": 0.9146535992622375, "learning_rate": 0.00019556345854634363, "loss": 2.2971, "step": 1008 }, { "epoch": 0.022422222222222222, "grad_norm": 0.973808765411377, "learning_rate": 0.00019555901311402537, "loss": 2.1981, "step": 1009 }, { "epoch": 0.022444444444444444, "grad_norm": 1.3780828714370728, "learning_rate": 0.00019555456768170705, "loss": 1.4589, "step": 1010 }, { "epoch": 0.022466666666666666, "grad_norm": 1.200380802154541, "learning_rate": 0.00019555012224938876, "loss": 2.0646, "step": 1011 }, { "epoch": 0.022488888888888888, "grad_norm": 1.0672061443328857, "learning_rate": 0.00019554567681707047, "loss": 2.0919, "step": 1012 }, { "epoch": 0.02251111111111111, "grad_norm": 1.0158803462982178, "learning_rate": 0.00019554123138475218, "loss": 2.165, "step": 1013 }, { "epoch": 0.022533333333333332, "grad_norm": 1.2931088209152222, "learning_rate": 0.00019553678595243386, "loss": 1.9598, "step": 1014 }, { "epoch": 0.022555555555555554, "grad_norm": 1.1174200773239136, "learning_rate": 0.0001955323405201156, "loss": 1.8869, "step": 1015 }, { "epoch": 0.022577777777777776, "grad_norm": 1.2968811988830566, "learning_rate": 0.00019552789508779728, "loss": 1.8709, "step": 1016 }, { "epoch": 0.0226, "grad_norm": 1.1070488691329956, "learning_rate": 0.000195523449655479, "loss": 1.5826, "step": 1017 }, { "epoch": 0.02262222222222222, "grad_norm": 1.1246074438095093, "learning_rate": 0.00019551900422316073, "loss": 1.9008, "step": 1018 }, { "epoch": 0.022644444444444443, "grad_norm": 1.4724538326263428, "learning_rate": 0.0001955145587908424, "loss": 1.9687, "step": 1019 }, { "epoch": 0.02266666666666667, "grad_norm": 1.1362316608428955, "learning_rate": 0.00019551011335852412, "loss": 2.2574, "step": 1020 }, { "epoch": 0.02268888888888889, "grad_norm": 1.030013918876648, "learning_rate": 0.00019550566792620583, "loss": 1.8649, "step": 1021 }, { "epoch": 0.022711111111111112, "grad_norm": 1.0296804904937744, "learning_rate": 0.00019550122249388754, "loss": 1.9746, "step": 1022 }, { "epoch": 0.022733333333333335, "grad_norm": 1.0721232891082764, "learning_rate": 0.00019549677706156922, "loss": 2.0352, "step": 1023 }, { "epoch": 0.022755555555555557, "grad_norm": 1.4004583358764648, "learning_rate": 0.00019549233162925096, "loss": 2.079, "step": 1024 }, { "epoch": 0.02277777777777778, "grad_norm": 1.5219146013259888, "learning_rate": 0.00019548788619693264, "loss": 2.554, "step": 1025 }, { "epoch": 0.0228, "grad_norm": 1.1802712678909302, "learning_rate": 0.00019548344076461438, "loss": 1.3831, "step": 1026 }, { "epoch": 0.022822222222222223, "grad_norm": 1.1997747421264648, "learning_rate": 0.0001954789953322961, "loss": 2.23, "step": 1027 }, { "epoch": 0.022844444444444445, "grad_norm": 1.3436768054962158, "learning_rate": 0.00019547454989997777, "loss": 2.1588, "step": 1028 }, { "epoch": 0.022866666666666667, "grad_norm": 1.6653196811676025, "learning_rate": 0.0001954701044676595, "loss": 2.0499, "step": 1029 }, { "epoch": 0.02288888888888889, "grad_norm": 1.479083776473999, "learning_rate": 0.0001954656590353412, "loss": 2.1749, "step": 1030 }, { "epoch": 0.02291111111111111, "grad_norm": 1.25801420211792, "learning_rate": 0.0001954612136030229, "loss": 2.3237, "step": 1031 }, { "epoch": 0.022933333333333333, "grad_norm": 1.2146965265274048, "learning_rate": 0.0001954567681707046, "loss": 1.9281, "step": 1032 }, { "epoch": 0.022955555555555555, "grad_norm": 1.1866048574447632, "learning_rate": 0.00019545232273838632, "loss": 2.1571, "step": 1033 }, { "epoch": 0.022977777777777778, "grad_norm": 1.1639046669006348, "learning_rate": 0.00019544787730606803, "loss": 1.5634, "step": 1034 }, { "epoch": 0.023, "grad_norm": 1.333937644958496, "learning_rate": 0.00019544343187374974, "loss": 2.0379, "step": 1035 }, { "epoch": 0.02302222222222222, "grad_norm": 1.1640256643295288, "learning_rate": 0.00019543898644143145, "loss": 1.8631, "step": 1036 }, { "epoch": 0.023044444444444444, "grad_norm": 1.238248586654663, "learning_rate": 0.00019543454100911313, "loss": 1.7345, "step": 1037 }, { "epoch": 0.023066666666666666, "grad_norm": 1.0815786123275757, "learning_rate": 0.00019543009557679487, "loss": 1.1185, "step": 1038 }, { "epoch": 0.023088888888888888, "grad_norm": 1.4080270528793335, "learning_rate": 0.00019542565014447655, "loss": 2.1232, "step": 1039 }, { "epoch": 0.02311111111111111, "grad_norm": 1.3079044818878174, "learning_rate": 0.00019542120471215826, "loss": 2.1561, "step": 1040 }, { "epoch": 0.023133333333333332, "grad_norm": 1.2550265789031982, "learning_rate": 0.00019541675927983997, "loss": 1.8651, "step": 1041 }, { "epoch": 0.023155555555555554, "grad_norm": 1.2704882621765137, "learning_rate": 0.00019541231384752168, "loss": 1.7722, "step": 1042 }, { "epoch": 0.023177777777777776, "grad_norm": 1.1533430814743042, "learning_rate": 0.0001954078684152034, "loss": 1.7708, "step": 1043 }, { "epoch": 0.0232, "grad_norm": 1.2300595045089722, "learning_rate": 0.0001954034229828851, "loss": 1.8022, "step": 1044 }, { "epoch": 0.02322222222222222, "grad_norm": 1.298561930656433, "learning_rate": 0.0001953989775505668, "loss": 1.8205, "step": 1045 }, { "epoch": 0.023244444444444446, "grad_norm": 1.3184154033660889, "learning_rate": 0.00019539453211824852, "loss": 2.1188, "step": 1046 }, { "epoch": 0.023266666666666668, "grad_norm": 1.3662607669830322, "learning_rate": 0.00019539008668593023, "loss": 2.0165, "step": 1047 }, { "epoch": 0.02328888888888889, "grad_norm": 1.4113154411315918, "learning_rate": 0.0001953856412536119, "loss": 1.8712, "step": 1048 }, { "epoch": 0.023311111111111112, "grad_norm": 1.5894526243209839, "learning_rate": 0.00019538119582129365, "loss": 2.2097, "step": 1049 }, { "epoch": 0.023333333333333334, "grad_norm": 1.606162428855896, "learning_rate": 0.00019537675038897533, "loss": 1.7208, "step": 1050 }, { "epoch": 0.023355555555555556, "grad_norm": 1.8017663955688477, "learning_rate": 0.00019537230495665704, "loss": 1.6968, "step": 1051 }, { "epoch": 0.02337777777777778, "grad_norm": 0.898545503616333, "learning_rate": 0.00019536785952433875, "loss": 2.2294, "step": 1052 }, { "epoch": 0.0234, "grad_norm": 1.1432520151138306, "learning_rate": 0.00019536341409202046, "loss": 2.3774, "step": 1053 }, { "epoch": 0.023422222222222223, "grad_norm": 0.9966428875923157, "learning_rate": 0.00019535896865970217, "loss": 2.0966, "step": 1054 }, { "epoch": 0.023444444444444445, "grad_norm": 1.1529353857040405, "learning_rate": 0.00019535452322738388, "loss": 2.9607, "step": 1055 }, { "epoch": 0.023466666666666667, "grad_norm": 1.0590641498565674, "learning_rate": 0.0001953500777950656, "loss": 2.3729, "step": 1056 }, { "epoch": 0.02348888888888889, "grad_norm": 1.1788803339004517, "learning_rate": 0.00019534563236274727, "loss": 2.0186, "step": 1057 }, { "epoch": 0.02351111111111111, "grad_norm": 1.3938393592834473, "learning_rate": 0.000195341186930429, "loss": 1.4386, "step": 1058 }, { "epoch": 0.023533333333333333, "grad_norm": 1.0461190938949585, "learning_rate": 0.0001953367414981107, "loss": 2.2823, "step": 1059 }, { "epoch": 0.023555555555555555, "grad_norm": 1.4732369184494019, "learning_rate": 0.0001953322960657924, "loss": 2.0163, "step": 1060 }, { "epoch": 0.023577777777777777, "grad_norm": 1.1343518495559692, "learning_rate": 0.0001953278506334741, "loss": 2.1538, "step": 1061 }, { "epoch": 0.0236, "grad_norm": 1.224971890449524, "learning_rate": 0.00019532340520115582, "loss": 2.4465, "step": 1062 }, { "epoch": 0.02362222222222222, "grad_norm": 1.2219271659851074, "learning_rate": 0.00019531895976883753, "loss": 2.0159, "step": 1063 }, { "epoch": 0.023644444444444444, "grad_norm": 1.1038373708724976, "learning_rate": 0.00019531451433651924, "loss": 1.9716, "step": 1064 }, { "epoch": 0.023666666666666666, "grad_norm": 1.0893348455429077, "learning_rate": 0.00019531006890420095, "loss": 1.7639, "step": 1065 }, { "epoch": 0.023688888888888888, "grad_norm": 1.0139858722686768, "learning_rate": 0.00019530562347188266, "loss": 2.218, "step": 1066 }, { "epoch": 0.02371111111111111, "grad_norm": 1.2331516742706299, "learning_rate": 0.00019530117803956437, "loss": 2.3592, "step": 1067 }, { "epoch": 0.023733333333333332, "grad_norm": 1.1039979457855225, "learning_rate": 0.00019529673260724605, "loss": 1.9273, "step": 1068 }, { "epoch": 0.023755555555555554, "grad_norm": 1.436119794845581, "learning_rate": 0.00019529228717492779, "loss": 2.1083, "step": 1069 }, { "epoch": 0.023777777777777776, "grad_norm": 1.0804810523986816, "learning_rate": 0.00019528784174260947, "loss": 1.7501, "step": 1070 }, { "epoch": 0.0238, "grad_norm": 1.2185988426208496, "learning_rate": 0.00019528339631029118, "loss": 2.149, "step": 1071 }, { "epoch": 0.023822222222222224, "grad_norm": 1.1719928979873657, "learning_rate": 0.0001952789508779729, "loss": 1.993, "step": 1072 }, { "epoch": 0.023844444444444446, "grad_norm": 1.6356178522109985, "learning_rate": 0.0001952745054456546, "loss": 2.8068, "step": 1073 }, { "epoch": 0.023866666666666668, "grad_norm": 1.1543465852737427, "learning_rate": 0.0001952700600133363, "loss": 2.0547, "step": 1074 }, { "epoch": 0.02388888888888889, "grad_norm": 1.1319878101348877, "learning_rate": 0.00019526561458101802, "loss": 2.0876, "step": 1075 }, { "epoch": 0.023911111111111112, "grad_norm": 1.2772685289382935, "learning_rate": 0.00019526116914869973, "loss": 2.2336, "step": 1076 }, { "epoch": 0.023933333333333334, "grad_norm": 0.9529381394386292, "learning_rate": 0.0001952567237163814, "loss": 1.6518, "step": 1077 }, { "epoch": 0.023955555555555556, "grad_norm": 1.26215660572052, "learning_rate": 0.00019525227828406315, "loss": 2.3245, "step": 1078 }, { "epoch": 0.02397777777777778, "grad_norm": 1.1040377616882324, "learning_rate": 0.00019524783285174483, "loss": 1.9655, "step": 1079 }, { "epoch": 0.024, "grad_norm": 1.2873084545135498, "learning_rate": 0.00019524338741942654, "loss": 2.0115, "step": 1080 }, { "epoch": 0.024022222222222223, "grad_norm": 1.0961894989013672, "learning_rate": 0.00019523894198710825, "loss": 1.806, "step": 1081 }, { "epoch": 0.024044444444444445, "grad_norm": 1.0821303129196167, "learning_rate": 0.00019523449655478996, "loss": 2.027, "step": 1082 }, { "epoch": 0.024066666666666667, "grad_norm": 1.16420578956604, "learning_rate": 0.0001952300511224717, "loss": 2.0187, "step": 1083 }, { "epoch": 0.02408888888888889, "grad_norm": 1.0927135944366455, "learning_rate": 0.00019522560569015338, "loss": 1.5185, "step": 1084 }, { "epoch": 0.02411111111111111, "grad_norm": 1.2788599729537964, "learning_rate": 0.00019522116025783509, "loss": 1.8329, "step": 1085 }, { "epoch": 0.024133333333333333, "grad_norm": 0.9920259714126587, "learning_rate": 0.0001952167148255168, "loss": 0.8753, "step": 1086 }, { "epoch": 0.024155555555555555, "grad_norm": 1.2359035015106201, "learning_rate": 0.0001952122693931985, "loss": 2.3306, "step": 1087 }, { "epoch": 0.024177777777777777, "grad_norm": 1.3450963497161865, "learning_rate": 0.0001952078239608802, "loss": 1.969, "step": 1088 }, { "epoch": 0.0242, "grad_norm": 1.2884758710861206, "learning_rate": 0.00019520337852856192, "loss": 1.687, "step": 1089 }, { "epoch": 0.02422222222222222, "grad_norm": 1.1487677097320557, "learning_rate": 0.0001951989330962436, "loss": 1.9651, "step": 1090 }, { "epoch": 0.024244444444444443, "grad_norm": 1.2130123376846313, "learning_rate": 0.00019519448766392532, "loss": 2.0887, "step": 1091 }, { "epoch": 0.024266666666666666, "grad_norm": 1.3776239156723022, "learning_rate": 0.00019519004223160705, "loss": 1.8375, "step": 1092 }, { "epoch": 0.024288888888888888, "grad_norm": 1.2455872297286987, "learning_rate": 0.00019518559679928874, "loss": 1.9519, "step": 1093 }, { "epoch": 0.02431111111111111, "grad_norm": 1.3093212842941284, "learning_rate": 0.00019518115136697044, "loss": 2.0387, "step": 1094 }, { "epoch": 0.024333333333333332, "grad_norm": 1.227171778678894, "learning_rate": 0.00019517670593465215, "loss": 1.9908, "step": 1095 }, { "epoch": 0.024355555555555554, "grad_norm": 1.207175374031067, "learning_rate": 0.00019517226050233386, "loss": 1.8354, "step": 1096 }, { "epoch": 0.02437777777777778, "grad_norm": 1.1748722791671753, "learning_rate": 0.00019516781507001555, "loss": 1.6467, "step": 1097 }, { "epoch": 0.0244, "grad_norm": 1.3979183435440063, "learning_rate": 0.00019516336963769728, "loss": 1.6041, "step": 1098 }, { "epoch": 0.024422222222222224, "grad_norm": 1.6925382614135742, "learning_rate": 0.00019515892420537897, "loss": 0.7031, "step": 1099 }, { "epoch": 0.024444444444444446, "grad_norm": 1.2615066766738892, "learning_rate": 0.0001951544787730607, "loss": 1.1416, "step": 1100 }, { "epoch": 0.024466666666666668, "grad_norm": 1.1813077926635742, "learning_rate": 0.0001951500333407424, "loss": 1.403, "step": 1101 }, { "epoch": 0.02448888888888889, "grad_norm": 1.0336699485778809, "learning_rate": 0.0001951455879084241, "loss": 2.6675, "step": 1102 }, { "epoch": 0.024511111111111112, "grad_norm": 1.214032769203186, "learning_rate": 0.00019514114247610583, "loss": 1.8028, "step": 1103 }, { "epoch": 0.024533333333333334, "grad_norm": 0.963882327079773, "learning_rate": 0.00019513669704378751, "loss": 1.9305, "step": 1104 }, { "epoch": 0.024555555555555556, "grad_norm": 1.1044516563415527, "learning_rate": 0.00019513225161146922, "loss": 2.3171, "step": 1105 }, { "epoch": 0.024577777777777778, "grad_norm": 0.985139012336731, "learning_rate": 0.00019512780617915093, "loss": 2.2231, "step": 1106 }, { "epoch": 0.0246, "grad_norm": 0.9848358631134033, "learning_rate": 0.00019512336074683264, "loss": 2.3816, "step": 1107 }, { "epoch": 0.024622222222222222, "grad_norm": 0.980165421962738, "learning_rate": 0.00019511891531451435, "loss": 2.2091, "step": 1108 }, { "epoch": 0.024644444444444445, "grad_norm": 1.1980235576629639, "learning_rate": 0.00019511446988219606, "loss": 2.369, "step": 1109 }, { "epoch": 0.024666666666666667, "grad_norm": 1.3036571741104126, "learning_rate": 0.00019511002444987777, "loss": 2.2841, "step": 1110 }, { "epoch": 0.02468888888888889, "grad_norm": 1.1008864641189575, "learning_rate": 0.00019510557901755945, "loss": 2.2994, "step": 1111 }, { "epoch": 0.02471111111111111, "grad_norm": 1.2121913433074951, "learning_rate": 0.0001951011335852412, "loss": 2.4577, "step": 1112 }, { "epoch": 0.024733333333333333, "grad_norm": 1.0463905334472656, "learning_rate": 0.00019509668815292287, "loss": 2.0624, "step": 1113 }, { "epoch": 0.024755555555555555, "grad_norm": 1.2892800569534302, "learning_rate": 0.00019509224272060458, "loss": 2.353, "step": 1114 }, { "epoch": 0.024777777777777777, "grad_norm": 1.0605815649032593, "learning_rate": 0.0001950877972882863, "loss": 2.1136, "step": 1115 }, { "epoch": 0.0248, "grad_norm": 1.5927958488464355, "learning_rate": 0.000195083351855968, "loss": 1.126, "step": 1116 }, { "epoch": 0.02482222222222222, "grad_norm": 1.2583246231079102, "learning_rate": 0.0001950789064236497, "loss": 2.3797, "step": 1117 }, { "epoch": 0.024844444444444443, "grad_norm": 1.2638978958129883, "learning_rate": 0.00019507446099133142, "loss": 2.0774, "step": 1118 }, { "epoch": 0.024866666666666665, "grad_norm": 1.0343905687332153, "learning_rate": 0.00019507001555901313, "loss": 1.9243, "step": 1119 }, { "epoch": 0.024888888888888887, "grad_norm": 1.281557321548462, "learning_rate": 0.00019506557012669484, "loss": 2.2395, "step": 1120 }, { "epoch": 0.02491111111111111, "grad_norm": 1.052554726600647, "learning_rate": 0.00019506112469437655, "loss": 2.0102, "step": 1121 }, { "epoch": 0.02493333333333333, "grad_norm": 1.2490876913070679, "learning_rate": 0.00019505667926205823, "loss": 2.4319, "step": 1122 }, { "epoch": 0.024955555555555557, "grad_norm": 1.3211621046066284, "learning_rate": 0.00019505223382973997, "loss": 2.3475, "step": 1123 }, { "epoch": 0.02497777777777778, "grad_norm": 0.9402294754981995, "learning_rate": 0.00019504778839742165, "loss": 1.7655, "step": 1124 }, { "epoch": 0.025, "grad_norm": 1.2580010890960693, "learning_rate": 0.00019504334296510336, "loss": 2.4544, "step": 1125 }, { "epoch": 0.025022222222222223, "grad_norm": 1.1899590492248535, "learning_rate": 0.00019503889753278507, "loss": 2.1395, "step": 1126 }, { "epoch": 0.025044444444444446, "grad_norm": 1.2790266275405884, "learning_rate": 0.00019503445210046678, "loss": 2.4838, "step": 1127 }, { "epoch": 0.025066666666666668, "grad_norm": 1.245686650276184, "learning_rate": 0.0001950300066681485, "loss": 2.0529, "step": 1128 }, { "epoch": 0.02508888888888889, "grad_norm": 1.2443344593048096, "learning_rate": 0.0001950255612358302, "loss": 2.2989, "step": 1129 }, { "epoch": 0.025111111111111112, "grad_norm": 1.1254640817642212, "learning_rate": 0.0001950211158035119, "loss": 1.0433, "step": 1130 }, { "epoch": 0.025133333333333334, "grad_norm": 1.1890602111816406, "learning_rate": 0.0001950166703711936, "loss": 1.9323, "step": 1131 }, { "epoch": 0.025155555555555556, "grad_norm": 1.330928921699524, "learning_rate": 0.00019501222493887533, "loss": 2.1855, "step": 1132 }, { "epoch": 0.025177777777777778, "grad_norm": 1.2115062475204468, "learning_rate": 0.000195007779506557, "loss": 2.4286, "step": 1133 }, { "epoch": 0.0252, "grad_norm": 1.2747929096221924, "learning_rate": 0.00019500333407423872, "loss": 2.3222, "step": 1134 }, { "epoch": 0.025222222222222222, "grad_norm": 1.1796200275421143, "learning_rate": 0.00019499888864192043, "loss": 1.74, "step": 1135 }, { "epoch": 0.025244444444444444, "grad_norm": 1.188921332359314, "learning_rate": 0.00019499444320960214, "loss": 1.9163, "step": 1136 }, { "epoch": 0.025266666666666666, "grad_norm": 1.1332416534423828, "learning_rate": 0.00019498999777728385, "loss": 2.3866, "step": 1137 }, { "epoch": 0.02528888888888889, "grad_norm": 1.1673275232315063, "learning_rate": 0.00019498555234496556, "loss": 1.9911, "step": 1138 }, { "epoch": 0.02531111111111111, "grad_norm": 1.134661078453064, "learning_rate": 0.00019498110691264727, "loss": 2.1997, "step": 1139 }, { "epoch": 0.025333333333333333, "grad_norm": 1.2574539184570312, "learning_rate": 0.00019497666148032898, "loss": 1.9596, "step": 1140 }, { "epoch": 0.025355555555555555, "grad_norm": 1.228989601135254, "learning_rate": 0.0001949722160480107, "loss": 2.1093, "step": 1141 }, { "epoch": 0.025377777777777777, "grad_norm": 1.3804113864898682, "learning_rate": 0.00019496777061569237, "loss": 1.8141, "step": 1142 }, { "epoch": 0.0254, "grad_norm": 1.1694203615188599, "learning_rate": 0.0001949633251833741, "loss": 1.8447, "step": 1143 }, { "epoch": 0.02542222222222222, "grad_norm": 1.310980200767517, "learning_rate": 0.0001949588797510558, "loss": 1.9746, "step": 1144 }, { "epoch": 0.025444444444444443, "grad_norm": 1.3951598405838013, "learning_rate": 0.0001949544343187375, "loss": 1.2972, "step": 1145 }, { "epoch": 0.025466666666666665, "grad_norm": 1.416224718093872, "learning_rate": 0.0001949499888864192, "loss": 2.1878, "step": 1146 }, { "epoch": 0.025488888888888887, "grad_norm": 1.3105324506759644, "learning_rate": 0.00019494554345410092, "loss": 1.8619, "step": 1147 }, { "epoch": 0.02551111111111111, "grad_norm": 1.3476706743240356, "learning_rate": 0.00019494109802178263, "loss": 1.8611, "step": 1148 }, { "epoch": 0.025533333333333335, "grad_norm": 1.3699945211410522, "learning_rate": 0.00019493665258946434, "loss": 1.6287, "step": 1149 }, { "epoch": 0.025555555555555557, "grad_norm": 1.2437164783477783, "learning_rate": 0.00019493220715714605, "loss": 0.8335, "step": 1150 }, { "epoch": 0.02557777777777778, "grad_norm": 1.1608917713165283, "learning_rate": 0.00019492776172482773, "loss": 2.7488, "step": 1151 }, { "epoch": 0.0256, "grad_norm": 1.418111801147461, "learning_rate": 0.00019492331629250947, "loss": 1.6998, "step": 1152 }, { "epoch": 0.025622222222222223, "grad_norm": 1.16179621219635, "learning_rate": 0.00019491887086019115, "loss": 2.8624, "step": 1153 }, { "epoch": 0.025644444444444445, "grad_norm": 1.1213630437850952, "learning_rate": 0.00019491442542787286, "loss": 2.5019, "step": 1154 }, { "epoch": 0.025666666666666667, "grad_norm": 1.0603446960449219, "learning_rate": 0.00019490997999555457, "loss": 2.2936, "step": 1155 }, { "epoch": 0.02568888888888889, "grad_norm": 1.340588927268982, "learning_rate": 0.00019490553456323628, "loss": 2.6255, "step": 1156 }, { "epoch": 0.02571111111111111, "grad_norm": 1.236148715019226, "learning_rate": 0.00019490108913091802, "loss": 3.0501, "step": 1157 }, { "epoch": 0.025733333333333334, "grad_norm": 1.0395097732543945, "learning_rate": 0.0001948966436985997, "loss": 2.1866, "step": 1158 }, { "epoch": 0.025755555555555556, "grad_norm": 1.3539642095565796, "learning_rate": 0.0001948921982662814, "loss": 1.3182, "step": 1159 }, { "epoch": 0.025777777777777778, "grad_norm": 1.3083500862121582, "learning_rate": 0.00019488775283396312, "loss": 2.6018, "step": 1160 }, { "epoch": 0.0258, "grad_norm": 1.0796172618865967, "learning_rate": 0.00019488330740164483, "loss": 2.6513, "step": 1161 }, { "epoch": 0.025822222222222222, "grad_norm": 1.2697334289550781, "learning_rate": 0.0001948788619693265, "loss": 2.2013, "step": 1162 }, { "epoch": 0.025844444444444444, "grad_norm": 1.0582184791564941, "learning_rate": 0.00019487441653700825, "loss": 2.0292, "step": 1163 }, { "epoch": 0.025866666666666666, "grad_norm": 1.3058019876480103, "learning_rate": 0.00019486997110468993, "loss": 2.8424, "step": 1164 }, { "epoch": 0.02588888888888889, "grad_norm": 1.2775273323059082, "learning_rate": 0.00019486552567237164, "loss": 2.2763, "step": 1165 }, { "epoch": 0.02591111111111111, "grad_norm": 1.0722092390060425, "learning_rate": 0.00019486108024005337, "loss": 2.1916, "step": 1166 }, { "epoch": 0.025933333333333333, "grad_norm": 1.059139609336853, "learning_rate": 0.00019485663480773506, "loss": 1.8808, "step": 1167 }, { "epoch": 0.025955555555555555, "grad_norm": 1.2093608379364014, "learning_rate": 0.00019485218937541677, "loss": 1.1219, "step": 1168 }, { "epoch": 0.025977777777777777, "grad_norm": 1.1014114618301392, "learning_rate": 0.00019484774394309848, "loss": 1.9382, "step": 1169 }, { "epoch": 0.026, "grad_norm": 1.217060923576355, "learning_rate": 0.00019484329851078019, "loss": 1.9028, "step": 1170 }, { "epoch": 0.02602222222222222, "grad_norm": 1.2138227224349976, "learning_rate": 0.00019483885307846187, "loss": 1.6307, "step": 1171 }, { "epoch": 0.026044444444444443, "grad_norm": 1.1286808252334595, "learning_rate": 0.0001948344076461436, "loss": 2.0932, "step": 1172 }, { "epoch": 0.026066666666666665, "grad_norm": 1.077871322631836, "learning_rate": 0.0001948299622138253, "loss": 2.1862, "step": 1173 }, { "epoch": 0.026088888888888887, "grad_norm": 1.0957635641098022, "learning_rate": 0.000194825516781507, "loss": 2.355, "step": 1174 }, { "epoch": 0.026111111111111113, "grad_norm": 1.175184726715088, "learning_rate": 0.00019482107134918873, "loss": 2.2048, "step": 1175 }, { "epoch": 0.026133333333333335, "grad_norm": 1.0757033824920654, "learning_rate": 0.00019481662591687042, "loss": 1.9491, "step": 1176 }, { "epoch": 0.026155555555555557, "grad_norm": 1.245074987411499, "learning_rate": 0.00019481218048455215, "loss": 2.4058, "step": 1177 }, { "epoch": 0.02617777777777778, "grad_norm": 1.2693395614624023, "learning_rate": 0.00019480773505223384, "loss": 1.8193, "step": 1178 }, { "epoch": 0.0262, "grad_norm": 3.4802279472351074, "learning_rate": 0.00019480328961991555, "loss": 2.3058, "step": 1179 }, { "epoch": 0.026222222222222223, "grad_norm": 1.3163621425628662, "learning_rate": 0.00019479884418759726, "loss": 1.9709, "step": 1180 }, { "epoch": 0.026244444444444445, "grad_norm": 1.238189697265625, "learning_rate": 0.00019479439875527896, "loss": 2.1445, "step": 1181 }, { "epoch": 0.026266666666666667, "grad_norm": 1.2765611410140991, "learning_rate": 0.00019478995332296067, "loss": 2.4536, "step": 1182 }, { "epoch": 0.02628888888888889, "grad_norm": 1.5361064672470093, "learning_rate": 0.00019478550789064238, "loss": 2.2518, "step": 1183 }, { "epoch": 0.02631111111111111, "grad_norm": 1.3082013130187988, "learning_rate": 0.0001947810624583241, "loss": 2.1818, "step": 1184 }, { "epoch": 0.026333333333333334, "grad_norm": 1.2827892303466797, "learning_rate": 0.00019477661702600578, "loss": 2.4141, "step": 1185 }, { "epoch": 0.026355555555555556, "grad_norm": 1.220987319946289, "learning_rate": 0.0001947721715936875, "loss": 1.9836, "step": 1186 }, { "epoch": 0.026377777777777778, "grad_norm": 1.1629095077514648, "learning_rate": 0.0001947677261613692, "loss": 1.8445, "step": 1187 }, { "epoch": 0.0264, "grad_norm": 1.3694647550582886, "learning_rate": 0.0001947632807290509, "loss": 2.7007, "step": 1188 }, { "epoch": 0.026422222222222222, "grad_norm": 1.1854382753372192, "learning_rate": 0.00019475883529673261, "loss": 1.6938, "step": 1189 }, { "epoch": 0.026444444444444444, "grad_norm": 1.101824402809143, "learning_rate": 0.00019475438986441432, "loss": 1.7714, "step": 1190 }, { "epoch": 0.026466666666666666, "grad_norm": 1.2787611484527588, "learning_rate": 0.00019474994443209603, "loss": 2.2184, "step": 1191 }, { "epoch": 0.026488888888888888, "grad_norm": 1.3073357343673706, "learning_rate": 0.00019474549899977774, "loss": 1.6379, "step": 1192 }, { "epoch": 0.02651111111111111, "grad_norm": 1.2038830518722534, "learning_rate": 0.00019474105356745945, "loss": 1.8835, "step": 1193 }, { "epoch": 0.026533333333333332, "grad_norm": 1.2815767526626587, "learning_rate": 0.00019473660813514114, "loss": 1.9622, "step": 1194 }, { "epoch": 0.026555555555555554, "grad_norm": 1.0407130718231201, "learning_rate": 0.00019473216270282287, "loss": 1.5951, "step": 1195 }, { "epoch": 0.026577777777777777, "grad_norm": 1.453759789466858, "learning_rate": 0.00019472771727050455, "loss": 1.038, "step": 1196 }, { "epoch": 0.0266, "grad_norm": 1.2668274641036987, "learning_rate": 0.0001947232718381863, "loss": 1.9063, "step": 1197 }, { "epoch": 0.02662222222222222, "grad_norm": 1.4073950052261353, "learning_rate": 0.00019471882640586797, "loss": 2.1085, "step": 1198 }, { "epoch": 0.026644444444444443, "grad_norm": 1.3361334800720215, "learning_rate": 0.00019471438097354968, "loss": 1.3393, "step": 1199 }, { "epoch": 0.02666666666666667, "grad_norm": 0.722981333732605, "learning_rate": 0.0001947099355412314, "loss": 0.0912, "step": 1200 }, { "epoch": 0.02668888888888889, "grad_norm": 0.9477525949478149, "learning_rate": 0.0001947054901089131, "loss": 2.5653, "step": 1201 }, { "epoch": 0.026711111111111113, "grad_norm": 1.0072487592697144, "learning_rate": 0.0001947010446765948, "loss": 2.4661, "step": 1202 }, { "epoch": 0.026733333333333335, "grad_norm": 1.0508699417114258, "learning_rate": 0.00019469659924427652, "loss": 1.3733, "step": 1203 }, { "epoch": 0.026755555555555557, "grad_norm": 1.0274931192398071, "learning_rate": 0.00019469215381195823, "loss": 2.2663, "step": 1204 }, { "epoch": 0.02677777777777778, "grad_norm": 0.8572414517402649, "learning_rate": 0.00019468770837963991, "loss": 2.1395, "step": 1205 }, { "epoch": 0.0268, "grad_norm": 1.1803396940231323, "learning_rate": 0.00019468326294732165, "loss": 2.0215, "step": 1206 }, { "epoch": 0.026822222222222223, "grad_norm": 1.150394082069397, "learning_rate": 0.00019467881751500333, "loss": 2.0467, "step": 1207 }, { "epoch": 0.026844444444444445, "grad_norm": 1.0651057958602905, "learning_rate": 0.00019467437208268504, "loss": 2.5328, "step": 1208 }, { "epoch": 0.026866666666666667, "grad_norm": 1.0690408945083618, "learning_rate": 0.00019466992665036675, "loss": 2.4902, "step": 1209 }, { "epoch": 0.02688888888888889, "grad_norm": 1.0403834581375122, "learning_rate": 0.00019466548121804846, "loss": 2.024, "step": 1210 }, { "epoch": 0.02691111111111111, "grad_norm": 1.1264804601669312, "learning_rate": 0.00019466103578573017, "loss": 2.1916, "step": 1211 }, { "epoch": 0.026933333333333333, "grad_norm": 1.1276426315307617, "learning_rate": 0.00019465659035341188, "loss": 1.9421, "step": 1212 }, { "epoch": 0.026955555555555556, "grad_norm": 1.0314738750457764, "learning_rate": 0.0001946521449210936, "loss": 2.1186, "step": 1213 }, { "epoch": 0.026977777777777778, "grad_norm": 1.1098157167434692, "learning_rate": 0.0001946476994887753, "loss": 2.3507, "step": 1214 }, { "epoch": 0.027, "grad_norm": 1.0965838432312012, "learning_rate": 0.000194643254056457, "loss": 2.2288, "step": 1215 }, { "epoch": 0.027022222222222222, "grad_norm": 1.1094284057617188, "learning_rate": 0.0001946388086241387, "loss": 1.9247, "step": 1216 }, { "epoch": 0.027044444444444444, "grad_norm": 1.1005126237869263, "learning_rate": 0.00019463436319182043, "loss": 2.0896, "step": 1217 }, { "epoch": 0.027066666666666666, "grad_norm": 1.2850568294525146, "learning_rate": 0.0001946299177595021, "loss": 2.2682, "step": 1218 }, { "epoch": 0.027088888888888888, "grad_norm": 1.1261446475982666, "learning_rate": 0.00019462547232718382, "loss": 2.4721, "step": 1219 }, { "epoch": 0.02711111111111111, "grad_norm": 1.5027034282684326, "learning_rate": 0.00019462102689486553, "loss": 2.1297, "step": 1220 }, { "epoch": 0.027133333333333332, "grad_norm": 1.2198916673660278, "learning_rate": 0.00019461658146254724, "loss": 2.3307, "step": 1221 }, { "epoch": 0.027155555555555554, "grad_norm": 1.075852394104004, "learning_rate": 0.00019461213603022895, "loss": 2.0701, "step": 1222 }, { "epoch": 0.027177777777777776, "grad_norm": 1.1298670768737793, "learning_rate": 0.00019460769059791066, "loss": 1.991, "step": 1223 }, { "epoch": 0.0272, "grad_norm": 1.411704421043396, "learning_rate": 0.00019460324516559237, "loss": 2.2112, "step": 1224 }, { "epoch": 0.02722222222222222, "grad_norm": 1.1783915758132935, "learning_rate": 0.00019459879973327405, "loss": 2.4095, "step": 1225 }, { "epoch": 0.027244444444444446, "grad_norm": 1.1365594863891602, "learning_rate": 0.0001945943543009558, "loss": 2.2751, "step": 1226 }, { "epoch": 0.027266666666666668, "grad_norm": 1.2395154237747192, "learning_rate": 0.00019458990886863747, "loss": 2.1341, "step": 1227 }, { "epoch": 0.02728888888888889, "grad_norm": 1.252860188484192, "learning_rate": 0.00019458546343631918, "loss": 2.3777, "step": 1228 }, { "epoch": 0.027311111111111112, "grad_norm": 1.1773203611373901, "learning_rate": 0.0001945810180040009, "loss": 2.0601, "step": 1229 }, { "epoch": 0.027333333333333334, "grad_norm": 1.3787094354629517, "learning_rate": 0.0001945765725716826, "loss": 2.1147, "step": 1230 }, { "epoch": 0.027355555555555557, "grad_norm": 1.217552900314331, "learning_rate": 0.0001945721271393643, "loss": 2.2812, "step": 1231 }, { "epoch": 0.02737777777777778, "grad_norm": 1.1576565504074097, "learning_rate": 0.00019456768170704602, "loss": 2.1256, "step": 1232 }, { "epoch": 0.0274, "grad_norm": 1.292887806892395, "learning_rate": 0.00019456323627472773, "loss": 0.8771, "step": 1233 }, { "epoch": 0.027422222222222223, "grad_norm": 1.1745291948318481, "learning_rate": 0.00019455879084240944, "loss": 2.2621, "step": 1234 }, { "epoch": 0.027444444444444445, "grad_norm": 1.247001051902771, "learning_rate": 0.00019455434541009115, "loss": 2.1468, "step": 1235 }, { "epoch": 0.027466666666666667, "grad_norm": 1.190625786781311, "learning_rate": 0.00019454989997777283, "loss": 2.0587, "step": 1236 }, { "epoch": 0.02748888888888889, "grad_norm": 1.2214797735214233, "learning_rate": 0.00019454545454545457, "loss": 1.781, "step": 1237 }, { "epoch": 0.02751111111111111, "grad_norm": 1.5960838794708252, "learning_rate": 0.00019454100911313625, "loss": 1.8179, "step": 1238 }, { "epoch": 0.027533333333333333, "grad_norm": 1.4947317838668823, "learning_rate": 0.00019453656368081796, "loss": 2.188, "step": 1239 }, { "epoch": 0.027555555555555555, "grad_norm": 1.273147702217102, "learning_rate": 0.0001945321182484997, "loss": 2.0963, "step": 1240 }, { "epoch": 0.027577777777777777, "grad_norm": 1.2269686460494995, "learning_rate": 0.00019452767281618138, "loss": 1.8463, "step": 1241 }, { "epoch": 0.0276, "grad_norm": 1.2647767066955566, "learning_rate": 0.0001945232273838631, "loss": 1.8809, "step": 1242 }, { "epoch": 0.02762222222222222, "grad_norm": 1.1288484334945679, "learning_rate": 0.0001945187819515448, "loss": 1.906, "step": 1243 }, { "epoch": 0.027644444444444444, "grad_norm": 1.302137017250061, "learning_rate": 0.0001945143365192265, "loss": 2.0066, "step": 1244 }, { "epoch": 0.027666666666666666, "grad_norm": 1.2215266227722168, "learning_rate": 0.0001945098910869082, "loss": 1.9374, "step": 1245 }, { "epoch": 0.027688888888888888, "grad_norm": 1.2269611358642578, "learning_rate": 0.00019450544565458993, "loss": 2.0781, "step": 1246 }, { "epoch": 0.02771111111111111, "grad_norm": 1.2925721406936646, "learning_rate": 0.0001945010002222716, "loss": 1.8259, "step": 1247 }, { "epoch": 0.027733333333333332, "grad_norm": 1.4025661945343018, "learning_rate": 0.00019449655478995332, "loss": 2.0066, "step": 1248 }, { "epoch": 0.027755555555555554, "grad_norm": 1.3912101984024048, "learning_rate": 0.00019449210935763506, "loss": 1.9679, "step": 1249 }, { "epoch": 0.027777777777777776, "grad_norm": 1.420652985572815, "learning_rate": 0.00019448766392531674, "loss": 1.7046, "step": 1250 }, { "epoch": 0.0278, "grad_norm": 0.873573362827301, "learning_rate": 0.00019448321849299845, "loss": 2.1924, "step": 1251 }, { "epoch": 0.027822222222222224, "grad_norm": 1.0372943878173828, "learning_rate": 0.00019447877306068016, "loss": 2.2954, "step": 1252 }, { "epoch": 0.027844444444444446, "grad_norm": 1.1162431240081787, "learning_rate": 0.00019447432762836187, "loss": 2.8007, "step": 1253 }, { "epoch": 0.027866666666666668, "grad_norm": 0.9934016466140747, "learning_rate": 0.00019446988219604358, "loss": 2.2842, "step": 1254 }, { "epoch": 0.02788888888888889, "grad_norm": 1.0474344491958618, "learning_rate": 0.0001944654367637253, "loss": 2.2648, "step": 1255 }, { "epoch": 0.027911111111111112, "grad_norm": 0.996784508228302, "learning_rate": 0.000194460991331407, "loss": 2.2121, "step": 1256 }, { "epoch": 0.027933333333333334, "grad_norm": 1.0645532608032227, "learning_rate": 0.0001944565458990887, "loss": 2.2929, "step": 1257 }, { "epoch": 0.027955555555555556, "grad_norm": 0.9318027496337891, "learning_rate": 0.00019445210046677042, "loss": 1.7996, "step": 1258 }, { "epoch": 0.02797777777777778, "grad_norm": 1.061118483543396, "learning_rate": 0.0001944476550344521, "loss": 2.3344, "step": 1259 }, { "epoch": 0.028, "grad_norm": 0.9383622407913208, "learning_rate": 0.00019444320960213383, "loss": 2.1927, "step": 1260 }, { "epoch": 0.028022222222222223, "grad_norm": 1.0568608045578003, "learning_rate": 0.00019443876416981552, "loss": 2.3142, "step": 1261 }, { "epoch": 0.028044444444444445, "grad_norm": 1.0255627632141113, "learning_rate": 0.00019443431873749723, "loss": 2.3116, "step": 1262 }, { "epoch": 0.028066666666666667, "grad_norm": 1.041566014289856, "learning_rate": 0.00019442987330517894, "loss": 2.3714, "step": 1263 }, { "epoch": 0.02808888888888889, "grad_norm": 0.9897044897079468, "learning_rate": 0.00019442542787286065, "loss": 1.7907, "step": 1264 }, { "epoch": 0.02811111111111111, "grad_norm": 1.1739486455917358, "learning_rate": 0.00019442098244054236, "loss": 2.2275, "step": 1265 }, { "epoch": 0.028133333333333333, "grad_norm": 1.1079760789871216, "learning_rate": 0.00019441653700822407, "loss": 1.8037, "step": 1266 }, { "epoch": 0.028155555555555555, "grad_norm": 1.1482577323913574, "learning_rate": 0.00019441209157590578, "loss": 2.6314, "step": 1267 }, { "epoch": 0.028177777777777777, "grad_norm": 1.2702312469482422, "learning_rate": 0.00019440764614358746, "loss": 2.4174, "step": 1268 }, { "epoch": 0.0282, "grad_norm": 1.071201205253601, "learning_rate": 0.0001944032007112692, "loss": 2.1592, "step": 1269 }, { "epoch": 0.02822222222222222, "grad_norm": 1.2168118953704834, "learning_rate": 0.00019439875527895088, "loss": 1.3144, "step": 1270 }, { "epoch": 0.028244444444444444, "grad_norm": 0.9309527277946472, "learning_rate": 0.00019439430984663261, "loss": 0.9456, "step": 1271 }, { "epoch": 0.028266666666666666, "grad_norm": 1.0577387809753418, "learning_rate": 0.0001943898644143143, "loss": 1.7066, "step": 1272 }, { "epoch": 0.028288888888888888, "grad_norm": 1.4418216943740845, "learning_rate": 0.000194385418981996, "loss": 1.0888, "step": 1273 }, { "epoch": 0.02831111111111111, "grad_norm": 1.1914469003677368, "learning_rate": 0.00019438097354967772, "loss": 2.3328, "step": 1274 }, { "epoch": 0.028333333333333332, "grad_norm": 1.2854276895523071, "learning_rate": 0.00019437652811735942, "loss": 2.004, "step": 1275 }, { "epoch": 0.028355555555555554, "grad_norm": 1.3212635517120361, "learning_rate": 0.00019437208268504113, "loss": 2.2386, "step": 1276 }, { "epoch": 0.028377777777777776, "grad_norm": 1.329047441482544, "learning_rate": 0.00019436763725272284, "loss": 2.1721, "step": 1277 }, { "epoch": 0.0284, "grad_norm": 1.1866283416748047, "learning_rate": 0.00019436319182040455, "loss": 1.9114, "step": 1278 }, { "epoch": 0.028422222222222224, "grad_norm": 1.1386148929595947, "learning_rate": 0.00019435874638808624, "loss": 2.1556, "step": 1279 }, { "epoch": 0.028444444444444446, "grad_norm": 1.3197382688522339, "learning_rate": 0.00019435430095576797, "loss": 2.1826, "step": 1280 }, { "epoch": 0.028466666666666668, "grad_norm": 1.2695705890655518, "learning_rate": 0.00019434985552344966, "loss": 2.3299, "step": 1281 }, { "epoch": 0.02848888888888889, "grad_norm": 1.1248879432678223, "learning_rate": 0.00019434541009113137, "loss": 1.991, "step": 1282 }, { "epoch": 0.028511111111111112, "grad_norm": 1.207562804222107, "learning_rate": 0.00019434096465881307, "loss": 1.9923, "step": 1283 }, { "epoch": 0.028533333333333334, "grad_norm": 1.2124333381652832, "learning_rate": 0.00019433651922649478, "loss": 1.8989, "step": 1284 }, { "epoch": 0.028555555555555556, "grad_norm": 1.1476439237594604, "learning_rate": 0.0001943320737941765, "loss": 2.1744, "step": 1285 }, { "epoch": 0.02857777777777778, "grad_norm": 1.2253168821334839, "learning_rate": 0.0001943276283618582, "loss": 1.6782, "step": 1286 }, { "epoch": 0.0286, "grad_norm": 1.1378833055496216, "learning_rate": 0.0001943231829295399, "loss": 1.8959, "step": 1287 }, { "epoch": 0.028622222222222223, "grad_norm": 1.2446284294128418, "learning_rate": 0.0001943187374972216, "loss": 1.6362, "step": 1288 }, { "epoch": 0.028644444444444445, "grad_norm": 1.1923396587371826, "learning_rate": 0.00019431429206490333, "loss": 1.9344, "step": 1289 }, { "epoch": 0.028666666666666667, "grad_norm": 1.3250138759613037, "learning_rate": 0.00019430984663258502, "loss": 2.1485, "step": 1290 }, { "epoch": 0.02868888888888889, "grad_norm": 1.3882908821105957, "learning_rate": 0.00019430540120026675, "loss": 2.0631, "step": 1291 }, { "epoch": 0.02871111111111111, "grad_norm": 1.109960675239563, "learning_rate": 0.00019430095576794843, "loss": 1.7864, "step": 1292 }, { "epoch": 0.028733333333333333, "grad_norm": 1.1570818424224854, "learning_rate": 0.00019429651033563014, "loss": 1.874, "step": 1293 }, { "epoch": 0.028755555555555555, "grad_norm": 1.2383424043655396, "learning_rate": 0.00019429206490331185, "loss": 1.7137, "step": 1294 }, { "epoch": 0.028777777777777777, "grad_norm": 1.4392592906951904, "learning_rate": 0.00019428761947099356, "loss": 2.069, "step": 1295 }, { "epoch": 0.0288, "grad_norm": 1.1795039176940918, "learning_rate": 0.00019428317403867527, "loss": 1.9236, "step": 1296 }, { "epoch": 0.02882222222222222, "grad_norm": 1.4787060022354126, "learning_rate": 0.00019427872860635698, "loss": 1.7577, "step": 1297 }, { "epoch": 0.028844444444444443, "grad_norm": 1.6893764734268188, "learning_rate": 0.0001942742831740387, "loss": 1.1434, "step": 1298 }, { "epoch": 0.028866666666666665, "grad_norm": 1.3988735675811768, "learning_rate": 0.00019426983774172037, "loss": 2.3227, "step": 1299 }, { "epoch": 0.028888888888888888, "grad_norm": 1.283385992050171, "learning_rate": 0.0001942653923094021, "loss": 1.8439, "step": 1300 }, { "epoch": 0.02891111111111111, "grad_norm": 1.0307422876358032, "learning_rate": 0.0001942609468770838, "loss": 2.5915, "step": 1301 }, { "epoch": 0.028933333333333332, "grad_norm": 0.9281454086303711, "learning_rate": 0.0001942565014447655, "loss": 2.0899, "step": 1302 }, { "epoch": 0.028955555555555554, "grad_norm": 1.477432370185852, "learning_rate": 0.0001942520560124472, "loss": 1.8982, "step": 1303 }, { "epoch": 0.02897777777777778, "grad_norm": 1.2103277444839478, "learning_rate": 0.00019424761058012892, "loss": 2.3121, "step": 1304 }, { "epoch": 0.029, "grad_norm": 1.067357063293457, "learning_rate": 0.00019424316514781063, "loss": 2.3956, "step": 1305 }, { "epoch": 0.029022222222222224, "grad_norm": 1.192233681678772, "learning_rate": 0.00019423871971549234, "loss": 2.455, "step": 1306 }, { "epoch": 0.029044444444444446, "grad_norm": 0.9351183176040649, "learning_rate": 0.00019423427428317405, "loss": 2.0264, "step": 1307 }, { "epoch": 0.029066666666666668, "grad_norm": 1.0555620193481445, "learning_rate": 0.00019422982885085573, "loss": 2.33, "step": 1308 }, { "epoch": 0.02908888888888889, "grad_norm": 1.138730764389038, "learning_rate": 0.00019422538341853747, "loss": 2.3118, "step": 1309 }, { "epoch": 0.029111111111111112, "grad_norm": 1.0002659559249878, "learning_rate": 0.00019422093798621915, "loss": 2.0643, "step": 1310 }, { "epoch": 0.029133333333333334, "grad_norm": 1.4970694780349731, "learning_rate": 0.0001942164925539009, "loss": 2.5997, "step": 1311 }, { "epoch": 0.029155555555555556, "grad_norm": 1.0206420421600342, "learning_rate": 0.00019421204712158257, "loss": 1.9943, "step": 1312 }, { "epoch": 0.029177777777777778, "grad_norm": 1.2522320747375488, "learning_rate": 0.00019420760168926428, "loss": 1.8723, "step": 1313 }, { "epoch": 0.0292, "grad_norm": 1.070694088935852, "learning_rate": 0.00019420315625694602, "loss": 1.824, "step": 1314 }, { "epoch": 0.029222222222222222, "grad_norm": 1.1262892484664917, "learning_rate": 0.0001941987108246277, "loss": 2.2919, "step": 1315 }, { "epoch": 0.029244444444444444, "grad_norm": 1.1852346658706665, "learning_rate": 0.0001941942653923094, "loss": 2.0717, "step": 1316 }, { "epoch": 0.029266666666666667, "grad_norm": 1.2012149095535278, "learning_rate": 0.00019418981995999112, "loss": 1.5736, "step": 1317 }, { "epoch": 0.02928888888888889, "grad_norm": 1.2120734453201294, "learning_rate": 0.00019418537452767283, "loss": 2.1194, "step": 1318 }, { "epoch": 0.02931111111111111, "grad_norm": 1.255656123161316, "learning_rate": 0.0001941809290953545, "loss": 1.9347, "step": 1319 }, { "epoch": 0.029333333333333333, "grad_norm": 1.1959623098373413, "learning_rate": 0.00019417648366303625, "loss": 1.9494, "step": 1320 }, { "epoch": 0.029355555555555555, "grad_norm": 1.16342031955719, "learning_rate": 0.00019417203823071793, "loss": 1.9815, "step": 1321 }, { "epoch": 0.029377777777777777, "grad_norm": 1.1828595399856567, "learning_rate": 0.00019416759279839964, "loss": 2.1597, "step": 1322 }, { "epoch": 0.0294, "grad_norm": 1.2549855709075928, "learning_rate": 0.00019416314736608138, "loss": 1.7943, "step": 1323 }, { "epoch": 0.02942222222222222, "grad_norm": 1.229993224143982, "learning_rate": 0.00019415870193376306, "loss": 2.6202, "step": 1324 }, { "epoch": 0.029444444444444443, "grad_norm": 1.1661776304244995, "learning_rate": 0.00019415425650144477, "loss": 1.9805, "step": 1325 }, { "epoch": 0.029466666666666665, "grad_norm": 1.3411319255828857, "learning_rate": 0.00019414981106912648, "loss": 2.3422, "step": 1326 }, { "epoch": 0.029488888888888887, "grad_norm": 1.3102893829345703, "learning_rate": 0.0001941453656368082, "loss": 2.0509, "step": 1327 }, { "epoch": 0.02951111111111111, "grad_norm": 1.2834891080856323, "learning_rate": 0.0001941409202044899, "loss": 2.0528, "step": 1328 }, { "epoch": 0.029533333333333335, "grad_norm": 1.2266889810562134, "learning_rate": 0.0001941364747721716, "loss": 1.7905, "step": 1329 }, { "epoch": 0.029555555555555557, "grad_norm": 1.1042407751083374, "learning_rate": 0.00019413202933985332, "loss": 2.0377, "step": 1330 }, { "epoch": 0.02957777777777778, "grad_norm": 1.2236758470535278, "learning_rate": 0.00019412758390753503, "loss": 1.6366, "step": 1331 }, { "epoch": 0.0296, "grad_norm": 1.1336673498153687, "learning_rate": 0.00019412313847521674, "loss": 1.9529, "step": 1332 }, { "epoch": 0.029622222222222223, "grad_norm": 1.3581266403198242, "learning_rate": 0.00019411869304289842, "loss": 1.6828, "step": 1333 }, { "epoch": 0.029644444444444445, "grad_norm": 1.4858201742172241, "learning_rate": 0.00019411424761058016, "loss": 2.3644, "step": 1334 }, { "epoch": 0.029666666666666668, "grad_norm": 1.1644988059997559, "learning_rate": 0.00019410980217826184, "loss": 1.9407, "step": 1335 }, { "epoch": 0.02968888888888889, "grad_norm": 1.2442271709442139, "learning_rate": 0.00019410535674594355, "loss": 1.9879, "step": 1336 }, { "epoch": 0.029711111111111112, "grad_norm": 1.237561821937561, "learning_rate": 0.00019410091131362526, "loss": 1.9786, "step": 1337 }, { "epoch": 0.029733333333333334, "grad_norm": 1.1545387506484985, "learning_rate": 0.00019409646588130697, "loss": 2.0242, "step": 1338 }, { "epoch": 0.029755555555555556, "grad_norm": 1.2471667528152466, "learning_rate": 0.00019409202044898868, "loss": 2.0459, "step": 1339 }, { "epoch": 0.029777777777777778, "grad_norm": 1.1206274032592773, "learning_rate": 0.0001940875750166704, "loss": 1.5895, "step": 1340 }, { "epoch": 0.0298, "grad_norm": 1.1637393236160278, "learning_rate": 0.0001940831295843521, "loss": 1.8555, "step": 1341 }, { "epoch": 0.029822222222222222, "grad_norm": 1.1165112257003784, "learning_rate": 0.00019407868415203378, "loss": 1.8365, "step": 1342 }, { "epoch": 0.029844444444444444, "grad_norm": 1.1864840984344482, "learning_rate": 0.00019407423871971552, "loss": 1.9016, "step": 1343 }, { "epoch": 0.029866666666666666, "grad_norm": 1.2702369689941406, "learning_rate": 0.0001940697932873972, "loss": 2.1275, "step": 1344 }, { "epoch": 0.02988888888888889, "grad_norm": 1.359662413597107, "learning_rate": 0.0001940653478550789, "loss": 1.8477, "step": 1345 }, { "epoch": 0.02991111111111111, "grad_norm": 1.097072720527649, "learning_rate": 0.00019406090242276062, "loss": 1.0999, "step": 1346 }, { "epoch": 0.029933333333333333, "grad_norm": 1.7537930011749268, "learning_rate": 0.00019405645699044233, "loss": 1.8284, "step": 1347 }, { "epoch": 0.029955555555555555, "grad_norm": 1.150568962097168, "learning_rate": 0.00019405201155812404, "loss": 1.2282, "step": 1348 }, { "epoch": 0.029977777777777777, "grad_norm": 1.365552544593811, "learning_rate": 0.00019404756612580575, "loss": 1.7724, "step": 1349 }, { "epoch": 0.03, "grad_norm": 1.4891812801361084, "learning_rate": 0.00019404312069348746, "loss": 1.3562, "step": 1350 }, { "epoch": 0.03002222222222222, "grad_norm": 1.115997552871704, "learning_rate": 0.00019403867526116917, "loss": 2.498, "step": 1351 }, { "epoch": 0.030044444444444443, "grad_norm": 1.1016743183135986, "learning_rate": 0.00019403422982885088, "loss": 2.6421, "step": 1352 }, { "epoch": 0.030066666666666665, "grad_norm": 0.9888730645179749, "learning_rate": 0.00019402978439653256, "loss": 2.4058, "step": 1353 }, { "epoch": 0.030088888888888887, "grad_norm": 1.0507988929748535, "learning_rate": 0.0001940253389642143, "loss": 2.3708, "step": 1354 }, { "epoch": 0.030111111111111113, "grad_norm": 1.081277847290039, "learning_rate": 0.00019402089353189598, "loss": 2.4283, "step": 1355 }, { "epoch": 0.030133333333333335, "grad_norm": 1.2856868505477905, "learning_rate": 0.0001940164480995777, "loss": 1.3402, "step": 1356 }, { "epoch": 0.030155555555555557, "grad_norm": 1.392534613609314, "learning_rate": 0.0001940120026672594, "loss": 2.6431, "step": 1357 }, { "epoch": 0.03017777777777778, "grad_norm": 1.1537054777145386, "learning_rate": 0.0001940075572349411, "loss": 2.6096, "step": 1358 }, { "epoch": 0.0302, "grad_norm": 1.141494631767273, "learning_rate": 0.00019400311180262282, "loss": 2.3316, "step": 1359 }, { "epoch": 0.030222222222222223, "grad_norm": 1.0294886827468872, "learning_rate": 0.00019399866637030453, "loss": 2.3628, "step": 1360 }, { "epoch": 0.030244444444444445, "grad_norm": 1.2637041807174683, "learning_rate": 0.00019399422093798624, "loss": 2.7852, "step": 1361 }, { "epoch": 0.030266666666666667, "grad_norm": 1.108982801437378, "learning_rate": 0.00019398977550566792, "loss": 2.4429, "step": 1362 }, { "epoch": 0.03028888888888889, "grad_norm": 1.092390537261963, "learning_rate": 0.00019398533007334965, "loss": 2.3518, "step": 1363 }, { "epoch": 0.03031111111111111, "grad_norm": 1.0303348302841187, "learning_rate": 0.00019398088464103134, "loss": 2.0581, "step": 1364 }, { "epoch": 0.030333333333333334, "grad_norm": 1.130509376525879, "learning_rate": 0.00019397643920871305, "loss": 2.103, "step": 1365 }, { "epoch": 0.030355555555555556, "grad_norm": 1.0822972059249878, "learning_rate": 0.00019397199377639476, "loss": 2.2136, "step": 1366 }, { "epoch": 0.030377777777777778, "grad_norm": 1.0611470937728882, "learning_rate": 0.00019396754834407647, "loss": 1.9926, "step": 1367 }, { "epoch": 0.0304, "grad_norm": 1.2307448387145996, "learning_rate": 0.00019396310291175818, "loss": 2.3068, "step": 1368 }, { "epoch": 0.030422222222222222, "grad_norm": 1.085154414176941, "learning_rate": 0.00019395865747943989, "loss": 2.1078, "step": 1369 }, { "epoch": 0.030444444444444444, "grad_norm": 1.1920729875564575, "learning_rate": 0.0001939542120471216, "loss": 2.3139, "step": 1370 }, { "epoch": 0.030466666666666666, "grad_norm": 1.1662993431091309, "learning_rate": 0.0001939497666148033, "loss": 1.7898, "step": 1371 }, { "epoch": 0.03048888888888889, "grad_norm": 1.177247166633606, "learning_rate": 0.00019394532118248501, "loss": 2.6138, "step": 1372 }, { "epoch": 0.03051111111111111, "grad_norm": 1.038445234298706, "learning_rate": 0.0001939408757501667, "loss": 1.9209, "step": 1373 }, { "epoch": 0.030533333333333332, "grad_norm": 1.1034603118896484, "learning_rate": 0.00019393643031784843, "loss": 1.927, "step": 1374 }, { "epoch": 0.030555555555555555, "grad_norm": 1.2844098806381226, "learning_rate": 0.00019393198488553012, "loss": 2.6916, "step": 1375 }, { "epoch": 0.030577777777777777, "grad_norm": 1.2443362474441528, "learning_rate": 0.00019392753945321183, "loss": 1.9068, "step": 1376 }, { "epoch": 0.0306, "grad_norm": 1.121250867843628, "learning_rate": 0.00019392309402089354, "loss": 2.5058, "step": 1377 }, { "epoch": 0.03062222222222222, "grad_norm": 1.1697667837142944, "learning_rate": 0.00019391864858857524, "loss": 2.2245, "step": 1378 }, { "epoch": 0.030644444444444443, "grad_norm": 1.1083139181137085, "learning_rate": 0.00019391420315625695, "loss": 1.7106, "step": 1379 }, { "epoch": 0.030666666666666665, "grad_norm": 1.138747215270996, "learning_rate": 0.00019390975772393866, "loss": 2.186, "step": 1380 }, { "epoch": 0.03068888888888889, "grad_norm": 1.1454265117645264, "learning_rate": 0.00019390531229162037, "loss": 1.867, "step": 1381 }, { "epoch": 0.030711111111111113, "grad_norm": 1.1329401731491089, "learning_rate": 0.00019390086685930206, "loss": 2.0394, "step": 1382 }, { "epoch": 0.030733333333333335, "grad_norm": 1.2314701080322266, "learning_rate": 0.0001938964214269838, "loss": 2.3292, "step": 1383 }, { "epoch": 0.030755555555555557, "grad_norm": 1.2723467350006104, "learning_rate": 0.00019389197599466548, "loss": 1.9802, "step": 1384 }, { "epoch": 0.03077777777777778, "grad_norm": 1.1512049436569214, "learning_rate": 0.0001938875305623472, "loss": 1.9535, "step": 1385 }, { "epoch": 0.0308, "grad_norm": 1.3449974060058594, "learning_rate": 0.0001938830851300289, "loss": 2.2411, "step": 1386 }, { "epoch": 0.030822222222222223, "grad_norm": 1.0658458471298218, "learning_rate": 0.0001938786396977106, "loss": 1.4589, "step": 1387 }, { "epoch": 0.030844444444444445, "grad_norm": 1.0926259756088257, "learning_rate": 0.00019387419426539234, "loss": 1.9042, "step": 1388 }, { "epoch": 0.030866666666666667, "grad_norm": 1.460528016090393, "learning_rate": 0.00019386974883307402, "loss": 1.1386, "step": 1389 }, { "epoch": 0.03088888888888889, "grad_norm": 1.5868712663650513, "learning_rate": 0.00019386530340075573, "loss": 1.9883, "step": 1390 }, { "epoch": 0.03091111111111111, "grad_norm": 1.166711449623108, "learning_rate": 0.00019386085796843744, "loss": 2.0818, "step": 1391 }, { "epoch": 0.030933333333333334, "grad_norm": 1.1120319366455078, "learning_rate": 0.00019385641253611915, "loss": 1.7654, "step": 1392 }, { "epoch": 0.030955555555555556, "grad_norm": 1.1007729768753052, "learning_rate": 0.00019385196710380083, "loss": 1.6074, "step": 1393 }, { "epoch": 0.030977777777777778, "grad_norm": 1.2273107767105103, "learning_rate": 0.00019384752167148257, "loss": 1.9269, "step": 1394 }, { "epoch": 0.031, "grad_norm": 1.3116095066070557, "learning_rate": 0.00019384307623916425, "loss": 2.1523, "step": 1395 }, { "epoch": 0.031022222222222222, "grad_norm": 1.1881606578826904, "learning_rate": 0.00019383863080684596, "loss": 1.8844, "step": 1396 }, { "epoch": 0.031044444444444444, "grad_norm": 1.218817949295044, "learning_rate": 0.0001938341853745277, "loss": 2.0528, "step": 1397 }, { "epoch": 0.031066666666666666, "grad_norm": 1.0829542875289917, "learning_rate": 0.00019382973994220938, "loss": 1.2301, "step": 1398 }, { "epoch": 0.031088888888888888, "grad_norm": 1.4752472639083862, "learning_rate": 0.0001938252945098911, "loss": 1.9669, "step": 1399 }, { "epoch": 0.03111111111111111, "grad_norm": 1.309036374092102, "learning_rate": 0.0001938208490775728, "loss": 0.9291, "step": 1400 }, { "epoch": 0.031133333333333332, "grad_norm": 0.9288570284843445, "learning_rate": 0.0001938164036452545, "loss": 2.4301, "step": 1401 }, { "epoch": 0.031155555555555554, "grad_norm": 0.9948990941047668, "learning_rate": 0.0001938119582129362, "loss": 2.225, "step": 1402 }, { "epoch": 0.031177777777777776, "grad_norm": 1.0610835552215576, "learning_rate": 0.00019380751278061793, "loss": 2.353, "step": 1403 }, { "epoch": 0.0312, "grad_norm": 1.1045212745666504, "learning_rate": 0.00019380306734829964, "loss": 2.1797, "step": 1404 }, { "epoch": 0.03122222222222222, "grad_norm": 1.0123965740203857, "learning_rate": 0.00019379862191598135, "loss": 2.4179, "step": 1405 }, { "epoch": 0.031244444444444443, "grad_norm": 1.0992077589035034, "learning_rate": 0.00019379417648366306, "loss": 1.9835, "step": 1406 }, { "epoch": 0.031266666666666665, "grad_norm": 1.0057796239852905, "learning_rate": 0.00019378973105134474, "loss": 2.2193, "step": 1407 }, { "epoch": 0.03128888888888889, "grad_norm": 1.2860620021820068, "learning_rate": 0.00019378528561902648, "loss": 2.4437, "step": 1408 }, { "epoch": 0.03131111111111111, "grad_norm": 1.0945990085601807, "learning_rate": 0.00019378084018670816, "loss": 2.4477, "step": 1409 }, { "epoch": 0.03133333333333333, "grad_norm": 1.1119942665100098, "learning_rate": 0.00019377639475438987, "loss": 2.1461, "step": 1410 }, { "epoch": 0.03135555555555555, "grad_norm": 1.1026381254196167, "learning_rate": 0.00019377194932207158, "loss": 1.9971, "step": 1411 }, { "epoch": 0.031377777777777775, "grad_norm": 1.1910585165023804, "learning_rate": 0.0001937675038897533, "loss": 2.3534, "step": 1412 }, { "epoch": 0.0314, "grad_norm": 1.024163842201233, "learning_rate": 0.000193763058457435, "loss": 2.3734, "step": 1413 }, { "epoch": 0.03142222222222222, "grad_norm": 0.9941502809524536, "learning_rate": 0.0001937586130251167, "loss": 1.7481, "step": 1414 }, { "epoch": 0.03144444444444444, "grad_norm": 1.148531198501587, "learning_rate": 0.00019375416759279842, "loss": 1.6367, "step": 1415 }, { "epoch": 0.031466666666666664, "grad_norm": 1.237642765045166, "learning_rate": 0.0001937497221604801, "loss": 2.3194, "step": 1416 }, { "epoch": 0.031488888888888886, "grad_norm": 1.2430555820465088, "learning_rate": 0.00019374527672816184, "loss": 1.971, "step": 1417 }, { "epoch": 0.03151111111111111, "grad_norm": 1.136256217956543, "learning_rate": 0.00019374083129584352, "loss": 2.3264, "step": 1418 }, { "epoch": 0.03153333333333333, "grad_norm": 0.9798897504806519, "learning_rate": 0.00019373638586352523, "loss": 2.0142, "step": 1419 }, { "epoch": 0.03155555555555556, "grad_norm": 1.3951666355133057, "learning_rate": 0.00019373194043120694, "loss": 2.2698, "step": 1420 }, { "epoch": 0.03157777777777778, "grad_norm": 1.1984292268753052, "learning_rate": 0.00019372749499888865, "loss": 2.006, "step": 1421 }, { "epoch": 0.0316, "grad_norm": 1.3106690645217896, "learning_rate": 0.00019372304956657036, "loss": 2.2945, "step": 1422 }, { "epoch": 0.031622222222222225, "grad_norm": 1.1117517948150635, "learning_rate": 0.00019371860413425207, "loss": 2.339, "step": 1423 }, { "epoch": 0.03164444444444445, "grad_norm": 1.4951661825180054, "learning_rate": 0.00019371415870193378, "loss": 2.4683, "step": 1424 }, { "epoch": 0.03166666666666667, "grad_norm": 1.1204643249511719, "learning_rate": 0.0001937097132696155, "loss": 2.1377, "step": 1425 }, { "epoch": 0.03168888888888889, "grad_norm": 1.2401949167251587, "learning_rate": 0.0001937052678372972, "loss": 2.2256, "step": 1426 }, { "epoch": 0.031711111111111114, "grad_norm": 1.2930660247802734, "learning_rate": 0.00019370082240497888, "loss": 2.0662, "step": 1427 }, { "epoch": 0.031733333333333336, "grad_norm": 1.1530430316925049, "learning_rate": 0.00019369637697266062, "loss": 2.1822, "step": 1428 }, { "epoch": 0.03175555555555556, "grad_norm": 1.1248830556869507, "learning_rate": 0.0001936919315403423, "loss": 2.0148, "step": 1429 }, { "epoch": 0.03177777777777778, "grad_norm": 1.1415965557098389, "learning_rate": 0.000193687486108024, "loss": 2.0016, "step": 1430 }, { "epoch": 0.0318, "grad_norm": 1.3775123357772827, "learning_rate": 0.00019368304067570572, "loss": 1.6689, "step": 1431 }, { "epoch": 0.031822222222222224, "grad_norm": 1.552697777748108, "learning_rate": 0.00019367859524338743, "loss": 1.9926, "step": 1432 }, { "epoch": 0.031844444444444446, "grad_norm": 1.0702333450317383, "learning_rate": 0.00019367414981106914, "loss": 1.8475, "step": 1433 }, { "epoch": 0.03186666666666667, "grad_norm": 1.1794770956039429, "learning_rate": 0.00019366970437875085, "loss": 1.7853, "step": 1434 }, { "epoch": 0.03188888888888889, "grad_norm": 1.177176833152771, "learning_rate": 0.00019366525894643256, "loss": 2.0982, "step": 1435 }, { "epoch": 0.03191111111111111, "grad_norm": 1.3725336790084839, "learning_rate": 0.00019366081351411424, "loss": 1.9322, "step": 1436 }, { "epoch": 0.031933333333333334, "grad_norm": 1.2420969009399414, "learning_rate": 0.00019365636808179598, "loss": 2.3835, "step": 1437 }, { "epoch": 0.031955555555555556, "grad_norm": 1.4265022277832031, "learning_rate": 0.00019365192264947766, "loss": 2.0316, "step": 1438 }, { "epoch": 0.03197777777777778, "grad_norm": 1.5354745388031006, "learning_rate": 0.00019364747721715937, "loss": 2.4962, "step": 1439 }, { "epoch": 0.032, "grad_norm": 1.0933946371078491, "learning_rate": 0.00019364303178484108, "loss": 1.9257, "step": 1440 }, { "epoch": 0.03202222222222222, "grad_norm": 1.3205199241638184, "learning_rate": 0.0001936385863525228, "loss": 2.2061, "step": 1441 }, { "epoch": 0.032044444444444445, "grad_norm": 1.2373632192611694, "learning_rate": 0.0001936341409202045, "loss": 1.8192, "step": 1442 }, { "epoch": 0.03206666666666667, "grad_norm": 1.3396754264831543, "learning_rate": 0.0001936296954878862, "loss": 2.4715, "step": 1443 }, { "epoch": 0.03208888888888889, "grad_norm": 1.1843315362930298, "learning_rate": 0.00019362525005556792, "loss": 1.766, "step": 1444 }, { "epoch": 0.03211111111111111, "grad_norm": 1.294612169265747, "learning_rate": 0.00019362080462324963, "loss": 2.2529, "step": 1445 }, { "epoch": 0.03213333333333333, "grad_norm": 1.3959919214248657, "learning_rate": 0.00019361635919093134, "loss": 1.8962, "step": 1446 }, { "epoch": 0.032155555555555555, "grad_norm": 1.978702425956726, "learning_rate": 0.00019361191375861302, "loss": 2.4322, "step": 1447 }, { "epoch": 0.03217777777777778, "grad_norm": 1.40666663646698, "learning_rate": 0.00019360746832629476, "loss": 0.5895, "step": 1448 }, { "epoch": 0.0322, "grad_norm": 1.2353925704956055, "learning_rate": 0.00019360302289397644, "loss": 1.4339, "step": 1449 }, { "epoch": 0.03222222222222222, "grad_norm": 1.3274462223052979, "learning_rate": 0.00019359857746165815, "loss": 1.5845, "step": 1450 }, { "epoch": 0.032244444444444444, "grad_norm": 0.9648881554603577, "learning_rate": 0.00019359413202933986, "loss": 2.3616, "step": 1451 }, { "epoch": 0.032266666666666666, "grad_norm": 1.0016754865646362, "learning_rate": 0.00019358968659702157, "loss": 2.5862, "step": 1452 }, { "epoch": 0.03228888888888889, "grad_norm": 0.9271038174629211, "learning_rate": 0.00019358524116470328, "loss": 2.4142, "step": 1453 }, { "epoch": 0.03231111111111111, "grad_norm": 1.5624194145202637, "learning_rate": 0.00019358079573238499, "loss": 1.2929, "step": 1454 }, { "epoch": 0.03233333333333333, "grad_norm": 1.1376678943634033, "learning_rate": 0.0001935763503000667, "loss": 2.502, "step": 1455 }, { "epoch": 0.032355555555555554, "grad_norm": 1.0469105243682861, "learning_rate": 0.00019357190486774838, "loss": 2.0188, "step": 1456 }, { "epoch": 0.032377777777777776, "grad_norm": 1.0091444253921509, "learning_rate": 0.00019356745943543011, "loss": 2.0905, "step": 1457 }, { "epoch": 0.0324, "grad_norm": 1.0449639558792114, "learning_rate": 0.0001935630140031118, "loss": 2.3309, "step": 1458 }, { "epoch": 0.03242222222222222, "grad_norm": 1.1234618425369263, "learning_rate": 0.0001935585685707935, "loss": 1.258, "step": 1459 }, { "epoch": 0.03244444444444444, "grad_norm": 1.0038764476776123, "learning_rate": 0.00019355412313847522, "loss": 1.9646, "step": 1460 }, { "epoch": 0.032466666666666665, "grad_norm": 1.1340619325637817, "learning_rate": 0.00019354967770615693, "loss": 2.0642, "step": 1461 }, { "epoch": 0.03248888888888889, "grad_norm": 1.312368392944336, "learning_rate": 0.00019354523227383866, "loss": 1.9686, "step": 1462 }, { "epoch": 0.03251111111111111, "grad_norm": 1.3528220653533936, "learning_rate": 0.00019354078684152035, "loss": 2.5536, "step": 1463 }, { "epoch": 0.03253333333333333, "grad_norm": 1.0594779253005981, "learning_rate": 0.00019353634140920206, "loss": 2.1737, "step": 1464 }, { "epoch": 0.03255555555555555, "grad_norm": 1.3068666458129883, "learning_rate": 0.00019353189597688376, "loss": 2.0797, "step": 1465 }, { "epoch": 0.032577777777777775, "grad_norm": 1.1094759702682495, "learning_rate": 0.00019352745054456547, "loss": 2.083, "step": 1466 }, { "epoch": 0.0326, "grad_norm": 1.749818205833435, "learning_rate": 0.00019352300511224716, "loss": 1.4231, "step": 1467 }, { "epoch": 0.03262222222222222, "grad_norm": 1.2045254707336426, "learning_rate": 0.0001935185596799289, "loss": 2.2931, "step": 1468 }, { "epoch": 0.03264444444444444, "grad_norm": 1.0714808702468872, "learning_rate": 0.00019351411424761058, "loss": 2.4447, "step": 1469 }, { "epoch": 0.03266666666666666, "grad_norm": 1.3730173110961914, "learning_rate": 0.00019350966881529229, "loss": 2.2009, "step": 1470 }, { "epoch": 0.03268888888888889, "grad_norm": 1.2142409086227417, "learning_rate": 0.00019350522338297402, "loss": 2.1613, "step": 1471 }, { "epoch": 0.032711111111111114, "grad_norm": 1.6318351030349731, "learning_rate": 0.0001935007779506557, "loss": 2.2736, "step": 1472 }, { "epoch": 0.032733333333333337, "grad_norm": 1.0275932550430298, "learning_rate": 0.00019349633251833741, "loss": 2.1899, "step": 1473 }, { "epoch": 0.03275555555555556, "grad_norm": 1.305526614189148, "learning_rate": 0.00019349188708601912, "loss": 1.884, "step": 1474 }, { "epoch": 0.03277777777777778, "grad_norm": 1.0775156021118164, "learning_rate": 0.00019348744165370083, "loss": 2.0182, "step": 1475 }, { "epoch": 0.0328, "grad_norm": 1.2992222309112549, "learning_rate": 0.00019348299622138252, "loss": 2.5619, "step": 1476 }, { "epoch": 0.032822222222222225, "grad_norm": 1.20382559299469, "learning_rate": 0.00019347855078906425, "loss": 1.8367, "step": 1477 }, { "epoch": 0.03284444444444445, "grad_norm": 1.132842779159546, "learning_rate": 0.00019347410535674596, "loss": 2.2789, "step": 1478 }, { "epoch": 0.03286666666666667, "grad_norm": 1.4192887544631958, "learning_rate": 0.00019346965992442767, "loss": 2.5217, "step": 1479 }, { "epoch": 0.03288888888888889, "grad_norm": 1.5791467428207397, "learning_rate": 0.00019346521449210938, "loss": 2.2756, "step": 1480 }, { "epoch": 0.03291111111111111, "grad_norm": 1.1871541738510132, "learning_rate": 0.00019346076905979106, "loss": 2.155, "step": 1481 }, { "epoch": 0.032933333333333335, "grad_norm": 1.2759143114089966, "learning_rate": 0.0001934563236274728, "loss": 1.3168, "step": 1482 }, { "epoch": 0.03295555555555556, "grad_norm": 0.9883295893669128, "learning_rate": 0.00019345187819515448, "loss": 1.0488, "step": 1483 }, { "epoch": 0.03297777777777778, "grad_norm": 1.1437863111495972, "learning_rate": 0.0001934474327628362, "loss": 1.8904, "step": 1484 }, { "epoch": 0.033, "grad_norm": 1.1389312744140625, "learning_rate": 0.0001934429873305179, "loss": 2.086, "step": 1485 }, { "epoch": 0.033022222222222224, "grad_norm": 1.2822202444076538, "learning_rate": 0.0001934385418981996, "loss": 2.2587, "step": 1486 }, { "epoch": 0.033044444444444446, "grad_norm": 1.0431591272354126, "learning_rate": 0.00019343409646588132, "loss": 1.8495, "step": 1487 }, { "epoch": 0.03306666666666667, "grad_norm": 1.1726051568984985, "learning_rate": 0.00019342965103356303, "loss": 2.138, "step": 1488 }, { "epoch": 0.03308888888888889, "grad_norm": 1.3496167659759521, "learning_rate": 0.00019342520560124474, "loss": 1.9932, "step": 1489 }, { "epoch": 0.03311111111111111, "grad_norm": 1.2583036422729492, "learning_rate": 0.00019342076016892642, "loss": 2.1386, "step": 1490 }, { "epoch": 0.033133333333333334, "grad_norm": 1.4691636562347412, "learning_rate": 0.00019341631473660816, "loss": 1.3703, "step": 1491 }, { "epoch": 0.033155555555555556, "grad_norm": 1.1774368286132812, "learning_rate": 0.00019341186930428984, "loss": 2.0667, "step": 1492 }, { "epoch": 0.03317777777777778, "grad_norm": 1.3176870346069336, "learning_rate": 0.00019340742387197155, "loss": 1.7939, "step": 1493 }, { "epoch": 0.0332, "grad_norm": 1.200920820236206, "learning_rate": 0.00019340297843965326, "loss": 1.8218, "step": 1494 }, { "epoch": 0.03322222222222222, "grad_norm": 1.1005281209945679, "learning_rate": 0.00019339853300733497, "loss": 1.7146, "step": 1495 }, { "epoch": 0.033244444444444445, "grad_norm": 1.296162486076355, "learning_rate": 0.00019339408757501668, "loss": 1.7528, "step": 1496 }, { "epoch": 0.03326666666666667, "grad_norm": 1.3360410928726196, "learning_rate": 0.0001933896421426984, "loss": 2.0615, "step": 1497 }, { "epoch": 0.03328888888888889, "grad_norm": 1.6123567819595337, "learning_rate": 0.0001933851967103801, "loss": 2.2322, "step": 1498 }, { "epoch": 0.03331111111111111, "grad_norm": 1.3130148649215698, "learning_rate": 0.0001933807512780618, "loss": 1.9794, "step": 1499 }, { "epoch": 0.03333333333333333, "grad_norm": 1.3729859590530396, "learning_rate": 0.00019337630584574352, "loss": 1.2751, "step": 1500 }, { "epoch": 0.033355555555555555, "grad_norm": 1.1282742023468018, "learning_rate": 0.0001933718604134252, "loss": 1.2849, "step": 1501 }, { "epoch": 0.03337777777777778, "grad_norm": 1.0388362407684326, "learning_rate": 0.00019336741498110694, "loss": 2.2858, "step": 1502 }, { "epoch": 0.0334, "grad_norm": 1.169311285018921, "learning_rate": 0.00019336296954878862, "loss": 2.5737, "step": 1503 }, { "epoch": 0.03342222222222222, "grad_norm": 1.2016757726669312, "learning_rate": 0.00019335852411647033, "loss": 2.4111, "step": 1504 }, { "epoch": 0.03344444444444444, "grad_norm": 0.9759643077850342, "learning_rate": 0.00019335407868415204, "loss": 2.2419, "step": 1505 }, { "epoch": 0.033466666666666665, "grad_norm": 0.9662378430366516, "learning_rate": 0.00019334963325183375, "loss": 2.0838, "step": 1506 }, { "epoch": 0.03348888888888889, "grad_norm": 1.0994617938995361, "learning_rate": 0.00019334518781951546, "loss": 2.3815, "step": 1507 }, { "epoch": 0.03351111111111111, "grad_norm": 1.055759310722351, "learning_rate": 0.00019334074238719717, "loss": 2.3268, "step": 1508 }, { "epoch": 0.03353333333333333, "grad_norm": 1.0728514194488525, "learning_rate": 0.00019333629695487888, "loss": 1.9877, "step": 1509 }, { "epoch": 0.033555555555555554, "grad_norm": 1.1055771112442017, "learning_rate": 0.00019333185152256056, "loss": 2.3137, "step": 1510 }, { "epoch": 0.033577777777777776, "grad_norm": 1.1033469438552856, "learning_rate": 0.0001933274060902423, "loss": 2.1682, "step": 1511 }, { "epoch": 0.0336, "grad_norm": 1.5016406774520874, "learning_rate": 0.00019332296065792398, "loss": 2.3402, "step": 1512 }, { "epoch": 0.03362222222222222, "grad_norm": 0.9581237435340881, "learning_rate": 0.0001933185152256057, "loss": 2.0432, "step": 1513 }, { "epoch": 0.03364444444444444, "grad_norm": 1.025452733039856, "learning_rate": 0.0001933140697932874, "loss": 1.9181, "step": 1514 }, { "epoch": 0.033666666666666664, "grad_norm": 1.1646183729171753, "learning_rate": 0.0001933096243609691, "loss": 2.5041, "step": 1515 }, { "epoch": 0.033688888888888886, "grad_norm": 1.073794960975647, "learning_rate": 0.00019330517892865082, "loss": 1.8492, "step": 1516 }, { "epoch": 0.03371111111111111, "grad_norm": 1.1617109775543213, "learning_rate": 0.00019330073349633253, "loss": 2.2649, "step": 1517 }, { "epoch": 0.03373333333333333, "grad_norm": 1.170148253440857, "learning_rate": 0.00019329628806401424, "loss": 1.948, "step": 1518 }, { "epoch": 0.03375555555555555, "grad_norm": 1.0890510082244873, "learning_rate": 0.00019329184263169595, "loss": 1.9921, "step": 1519 }, { "epoch": 0.033777777777777775, "grad_norm": 1.3151578903198242, "learning_rate": 0.00019328739719937766, "loss": 2.5887, "step": 1520 }, { "epoch": 0.0338, "grad_norm": 1.1833549737930298, "learning_rate": 0.00019328295176705934, "loss": 2.0948, "step": 1521 }, { "epoch": 0.03382222222222222, "grad_norm": 1.2709935903549194, "learning_rate": 0.00019327850633474108, "loss": 2.2601, "step": 1522 }, { "epoch": 0.03384444444444445, "grad_norm": 1.0645160675048828, "learning_rate": 0.00019327406090242276, "loss": 1.8649, "step": 1523 }, { "epoch": 0.03386666666666667, "grad_norm": 1.1719558238983154, "learning_rate": 0.00019326961547010447, "loss": 2.0675, "step": 1524 }, { "epoch": 0.03388888888888889, "grad_norm": 1.251046061515808, "learning_rate": 0.00019326517003778618, "loss": 2.2127, "step": 1525 }, { "epoch": 0.033911111111111114, "grad_norm": 1.2509682178497314, "learning_rate": 0.0001932607246054679, "loss": 2.3012, "step": 1526 }, { "epoch": 0.033933333333333336, "grad_norm": 1.164339303970337, "learning_rate": 0.0001932562791731496, "loss": 2.0108, "step": 1527 }, { "epoch": 0.03395555555555556, "grad_norm": 1.2120718955993652, "learning_rate": 0.0001932518337408313, "loss": 2.0606, "step": 1528 }, { "epoch": 0.03397777777777778, "grad_norm": 1.1924437284469604, "learning_rate": 0.00019324738830851302, "loss": 1.7896, "step": 1529 }, { "epoch": 0.034, "grad_norm": 1.42878258228302, "learning_rate": 0.0001932429428761947, "loss": 2.4899, "step": 1530 }, { "epoch": 0.034022222222222225, "grad_norm": 1.4489352703094482, "learning_rate": 0.00019323849744387644, "loss": 2.0391, "step": 1531 }, { "epoch": 0.03404444444444445, "grad_norm": 1.1656326055526733, "learning_rate": 0.00019323405201155812, "loss": 2.0498, "step": 1532 }, { "epoch": 0.03406666666666667, "grad_norm": 1.5094213485717773, "learning_rate": 0.00019322960657923983, "loss": 2.577, "step": 1533 }, { "epoch": 0.03408888888888889, "grad_norm": 1.2051565647125244, "learning_rate": 0.00019322516114692154, "loss": 2.0995, "step": 1534 }, { "epoch": 0.03411111111111111, "grad_norm": 1.2065091133117676, "learning_rate": 0.00019322071571460325, "loss": 1.9204, "step": 1535 }, { "epoch": 0.034133333333333335, "grad_norm": 1.180587887763977, "learning_rate": 0.00019321627028228498, "loss": 1.6939, "step": 1536 }, { "epoch": 0.03415555555555556, "grad_norm": 1.3259631395339966, "learning_rate": 0.00019321182484996667, "loss": 1.8811, "step": 1537 }, { "epoch": 0.03417777777777778, "grad_norm": 1.3118047714233398, "learning_rate": 0.00019320737941764838, "loss": 2.0082, "step": 1538 }, { "epoch": 0.0342, "grad_norm": 1.3475799560546875, "learning_rate": 0.0001932029339853301, "loss": 2.048, "step": 1539 }, { "epoch": 0.03422222222222222, "grad_norm": 1.1897367238998413, "learning_rate": 0.0001931984885530118, "loss": 1.8778, "step": 1540 }, { "epoch": 0.034244444444444445, "grad_norm": 1.2741882801055908, "learning_rate": 0.00019319404312069348, "loss": 1.9792, "step": 1541 }, { "epoch": 0.03426666666666667, "grad_norm": 1.103155493736267, "learning_rate": 0.00019318959768837522, "loss": 1.8665, "step": 1542 }, { "epoch": 0.03428888888888889, "grad_norm": 1.1629788875579834, "learning_rate": 0.0001931851522560569, "loss": 1.7662, "step": 1543 }, { "epoch": 0.03431111111111111, "grad_norm": 1.2028809785842896, "learning_rate": 0.0001931807068237386, "loss": 1.7697, "step": 1544 }, { "epoch": 0.034333333333333334, "grad_norm": 1.0899524688720703, "learning_rate": 0.00019317626139142034, "loss": 1.5889, "step": 1545 }, { "epoch": 0.034355555555555556, "grad_norm": 2.2114458084106445, "learning_rate": 0.00019317181595910203, "loss": 1.8964, "step": 1546 }, { "epoch": 0.03437777777777778, "grad_norm": 1.3060212135314941, "learning_rate": 0.00019316737052678374, "loss": 0.9665, "step": 1547 }, { "epoch": 0.0344, "grad_norm": 1.2669345140457153, "learning_rate": 0.00019316292509446545, "loss": 1.895, "step": 1548 }, { "epoch": 0.03442222222222222, "grad_norm": 1.737618088722229, "learning_rate": 0.00019315847966214716, "loss": 2.2731, "step": 1549 }, { "epoch": 0.034444444444444444, "grad_norm": 1.082196831703186, "learning_rate": 0.00019315403422982884, "loss": 0.6085, "step": 1550 }, { "epoch": 0.034466666666666666, "grad_norm": 1.2861276865005493, "learning_rate": 0.00019314958879751058, "loss": 2.8675, "step": 1551 }, { "epoch": 0.03448888888888889, "grad_norm": 1.0323752164840698, "learning_rate": 0.00019314514336519228, "loss": 2.9297, "step": 1552 }, { "epoch": 0.03451111111111111, "grad_norm": 0.9915749430656433, "learning_rate": 0.00019314069793287397, "loss": 2.55, "step": 1553 }, { "epoch": 0.03453333333333333, "grad_norm": 1.0444973707199097, "learning_rate": 0.0001931362525005557, "loss": 2.6642, "step": 1554 }, { "epoch": 0.034555555555555555, "grad_norm": 0.9511508941650391, "learning_rate": 0.00019313180706823739, "loss": 2.0044, "step": 1555 }, { "epoch": 0.03457777777777778, "grad_norm": 1.3596376180648804, "learning_rate": 0.00019312736163591912, "loss": 1.1496, "step": 1556 }, { "epoch": 0.0346, "grad_norm": 1.0855063199996948, "learning_rate": 0.0001931229162036008, "loss": 2.3195, "step": 1557 }, { "epoch": 0.03462222222222222, "grad_norm": 1.0310297012329102, "learning_rate": 0.00019311847077128252, "loss": 2.2401, "step": 1558 }, { "epoch": 0.03464444444444444, "grad_norm": 1.2717889547348022, "learning_rate": 0.00019311402533896422, "loss": 2.5257, "step": 1559 }, { "epoch": 0.034666666666666665, "grad_norm": 1.0537046194076538, "learning_rate": 0.00019310957990664593, "loss": 2.0173, "step": 1560 }, { "epoch": 0.03468888888888889, "grad_norm": 1.0954219102859497, "learning_rate": 0.00019310513447432764, "loss": 2.2333, "step": 1561 }, { "epoch": 0.03471111111111111, "grad_norm": 1.106155514717102, "learning_rate": 0.00019310068904200935, "loss": 1.7137, "step": 1562 }, { "epoch": 0.03473333333333333, "grad_norm": 1.042556643486023, "learning_rate": 0.00019309624360969106, "loss": 1.7789, "step": 1563 }, { "epoch": 0.03475555555555555, "grad_norm": 1.250775933265686, "learning_rate": 0.00019309179817737275, "loss": 2.2798, "step": 1564 }, { "epoch": 0.034777777777777776, "grad_norm": 1.2479610443115234, "learning_rate": 0.00019308735274505448, "loss": 2.6462, "step": 1565 }, { "epoch": 0.0348, "grad_norm": 1.0425524711608887, "learning_rate": 0.00019308290731273617, "loss": 1.8033, "step": 1566 }, { "epoch": 0.03482222222222222, "grad_norm": 1.228369116783142, "learning_rate": 0.00019307846188041787, "loss": 2.6753, "step": 1567 }, { "epoch": 0.03484444444444444, "grad_norm": 1.2939426898956299, "learning_rate": 0.00019307401644809958, "loss": 2.0066, "step": 1568 }, { "epoch": 0.034866666666666664, "grad_norm": 1.106898546218872, "learning_rate": 0.0001930695710157813, "loss": 1.9016, "step": 1569 }, { "epoch": 0.034888888888888886, "grad_norm": 1.0723423957824707, "learning_rate": 0.000193065125583463, "loss": 1.8617, "step": 1570 }, { "epoch": 0.03491111111111111, "grad_norm": 1.1328529119491577, "learning_rate": 0.0001930606801511447, "loss": 2.1399, "step": 1571 }, { "epoch": 0.03493333333333333, "grad_norm": 1.014874815940857, "learning_rate": 0.00019305623471882642, "loss": 1.8384, "step": 1572 }, { "epoch": 0.03495555555555555, "grad_norm": 1.1854385137557983, "learning_rate": 0.0001930517892865081, "loss": 2.1582, "step": 1573 }, { "epoch": 0.03497777777777778, "grad_norm": 1.204401969909668, "learning_rate": 0.00019304734385418984, "loss": 2.0826, "step": 1574 }, { "epoch": 0.035, "grad_norm": 1.547637701034546, "learning_rate": 0.00019304289842187152, "loss": 2.0409, "step": 1575 }, { "epoch": 0.035022222222222225, "grad_norm": 1.2782498598098755, "learning_rate": 0.00019303845298955326, "loss": 1.5767, "step": 1576 }, { "epoch": 0.03504444444444445, "grad_norm": 1.264570951461792, "learning_rate": 0.00019303400755723494, "loss": 1.5904, "step": 1577 }, { "epoch": 0.03506666666666667, "grad_norm": 1.0112229585647583, "learning_rate": 0.00019302956212491665, "loss": 1.1745, "step": 1578 }, { "epoch": 0.03508888888888889, "grad_norm": 1.4174708127975464, "learning_rate": 0.00019302511669259836, "loss": 2.8066, "step": 1579 }, { "epoch": 0.035111111111111114, "grad_norm": 1.2562214136123657, "learning_rate": 0.00019302067126028007, "loss": 1.7302, "step": 1580 }, { "epoch": 0.035133333333333336, "grad_norm": 1.2634434700012207, "learning_rate": 0.00019301622582796178, "loss": 1.9925, "step": 1581 }, { "epoch": 0.03515555555555556, "grad_norm": 1.2283315658569336, "learning_rate": 0.0001930117803956435, "loss": 2.2805, "step": 1582 }, { "epoch": 0.03517777777777778, "grad_norm": 1.3432462215423584, "learning_rate": 0.0001930073349633252, "loss": 2.1874, "step": 1583 }, { "epoch": 0.0352, "grad_norm": 1.4123488664627075, "learning_rate": 0.00019300288953100688, "loss": 2.3004, "step": 1584 }, { "epoch": 0.035222222222222224, "grad_norm": 1.1645655632019043, "learning_rate": 0.00019299844409868862, "loss": 2.0793, "step": 1585 }, { "epoch": 0.035244444444444446, "grad_norm": 1.1561622619628906, "learning_rate": 0.0001929939986663703, "loss": 2.1651, "step": 1586 }, { "epoch": 0.03526666666666667, "grad_norm": 1.447200894355774, "learning_rate": 0.000192989553234052, "loss": 2.3525, "step": 1587 }, { "epoch": 0.03528888888888889, "grad_norm": 1.1419998407363892, "learning_rate": 0.00019298510780173372, "loss": 1.901, "step": 1588 }, { "epoch": 0.03531111111111111, "grad_norm": 1.2339032888412476, "learning_rate": 0.00019298066236941543, "loss": 2.1305, "step": 1589 }, { "epoch": 0.035333333333333335, "grad_norm": 1.2740687131881714, "learning_rate": 0.00019297621693709714, "loss": 1.9447, "step": 1590 }, { "epoch": 0.03535555555555556, "grad_norm": 1.2346866130828857, "learning_rate": 0.00019297177150477885, "loss": 1.8371, "step": 1591 }, { "epoch": 0.03537777777777778, "grad_norm": 1.367735505104065, "learning_rate": 0.00019296732607246056, "loss": 2.483, "step": 1592 }, { "epoch": 0.0354, "grad_norm": 1.1464039087295532, "learning_rate": 0.00019296288064014227, "loss": 1.8843, "step": 1593 }, { "epoch": 0.03542222222222222, "grad_norm": 1.0014337301254272, "learning_rate": 0.00019295843520782398, "loss": 1.6699, "step": 1594 }, { "epoch": 0.035444444444444445, "grad_norm": 1.1374380588531494, "learning_rate": 0.00019295398977550566, "loss": 1.6318, "step": 1595 }, { "epoch": 0.03546666666666667, "grad_norm": 1.027539849281311, "learning_rate": 0.0001929495443431874, "loss": 1.3634, "step": 1596 }, { "epoch": 0.03548888888888889, "grad_norm": 1.2553808689117432, "learning_rate": 0.00019294509891086908, "loss": 1.92, "step": 1597 }, { "epoch": 0.03551111111111111, "grad_norm": 1.5323386192321777, "learning_rate": 0.0001929406534785508, "loss": 2.0675, "step": 1598 }, { "epoch": 0.03553333333333333, "grad_norm": 1.322381854057312, "learning_rate": 0.0001929362080462325, "loss": 1.8776, "step": 1599 }, { "epoch": 0.035555555555555556, "grad_norm": 1.1956552267074585, "learning_rate": 0.0001929317626139142, "loss": 1.535, "step": 1600 }, { "epoch": 0.03557777777777778, "grad_norm": 1.0654809474945068, "learning_rate": 0.00019292731718159592, "loss": 2.5483, "step": 1601 }, { "epoch": 0.0356, "grad_norm": 0.9427987933158875, "learning_rate": 0.00019292287174927763, "loss": 2.3314, "step": 1602 }, { "epoch": 0.03562222222222222, "grad_norm": 1.0185790061950684, "learning_rate": 0.00019291842631695934, "loss": 2.2234, "step": 1603 }, { "epoch": 0.035644444444444444, "grad_norm": 1.0985407829284668, "learning_rate": 0.00019291398088464102, "loss": 2.1942, "step": 1604 }, { "epoch": 0.035666666666666666, "grad_norm": 1.17117178440094, "learning_rate": 0.00019290953545232276, "loss": 2.5517, "step": 1605 }, { "epoch": 0.03568888888888889, "grad_norm": 1.4354678392410278, "learning_rate": 0.00019290509002000444, "loss": 2.3936, "step": 1606 }, { "epoch": 0.03571111111111111, "grad_norm": 0.9360921382904053, "learning_rate": 0.00019290064458768615, "loss": 1.985, "step": 1607 }, { "epoch": 0.03573333333333333, "grad_norm": 1.102998971939087, "learning_rate": 0.00019289619915536786, "loss": 2.1309, "step": 1608 }, { "epoch": 0.035755555555555554, "grad_norm": 1.000748872756958, "learning_rate": 0.00019289175372304957, "loss": 2.1232, "step": 1609 }, { "epoch": 0.035777777777777776, "grad_norm": 1.1651393175125122, "learning_rate": 0.00019288730829073128, "loss": 1.6339, "step": 1610 }, { "epoch": 0.0358, "grad_norm": 1.0569050312042236, "learning_rate": 0.000192882862858413, "loss": 2.2817, "step": 1611 }, { "epoch": 0.03582222222222222, "grad_norm": 1.1219130754470825, "learning_rate": 0.0001928784174260947, "loss": 2.1398, "step": 1612 }, { "epoch": 0.03584444444444444, "grad_norm": 1.4168156385421753, "learning_rate": 0.0001928739719937764, "loss": 1.6243, "step": 1613 }, { "epoch": 0.035866666666666665, "grad_norm": 1.0991692543029785, "learning_rate": 0.00019286952656145812, "loss": 2.3464, "step": 1614 }, { "epoch": 0.03588888888888889, "grad_norm": 1.196455717086792, "learning_rate": 0.0001928650811291398, "loss": 2.1513, "step": 1615 }, { "epoch": 0.03591111111111111, "grad_norm": 1.131048321723938, "learning_rate": 0.00019286063569682154, "loss": 2.2837, "step": 1616 }, { "epoch": 0.03593333333333333, "grad_norm": 1.0808967351913452, "learning_rate": 0.00019285619026450322, "loss": 2.1656, "step": 1617 }, { "epoch": 0.03595555555555555, "grad_norm": 1.131663203239441, "learning_rate": 0.00019285174483218493, "loss": 2.2383, "step": 1618 }, { "epoch": 0.035977777777777775, "grad_norm": 1.8503128290176392, "learning_rate": 0.00019284729939986667, "loss": 1.199, "step": 1619 }, { "epoch": 0.036, "grad_norm": 1.1101024150848389, "learning_rate": 0.00019284285396754835, "loss": 1.9646, "step": 1620 }, { "epoch": 0.03602222222222222, "grad_norm": 1.0288583040237427, "learning_rate": 0.00019283840853523006, "loss": 1.9303, "step": 1621 }, { "epoch": 0.03604444444444444, "grad_norm": 1.068770408630371, "learning_rate": 0.00019283396310291177, "loss": 2.1843, "step": 1622 }, { "epoch": 0.036066666666666664, "grad_norm": 1.0957071781158447, "learning_rate": 0.00019282951767059348, "loss": 1.9444, "step": 1623 }, { "epoch": 0.036088888888888886, "grad_norm": 1.1025582551956177, "learning_rate": 0.00019282507223827516, "loss": 1.8602, "step": 1624 }, { "epoch": 0.03611111111111111, "grad_norm": 1.0950126647949219, "learning_rate": 0.0001928206268059569, "loss": 2.1894, "step": 1625 }, { "epoch": 0.03613333333333334, "grad_norm": 1.1343626976013184, "learning_rate": 0.0001928161813736386, "loss": 1.9778, "step": 1626 }, { "epoch": 0.03615555555555556, "grad_norm": 1.1559494733810425, "learning_rate": 0.0001928117359413203, "loss": 1.6899, "step": 1627 }, { "epoch": 0.03617777777777778, "grad_norm": 1.2241156101226807, "learning_rate": 0.00019280729050900203, "loss": 2.0864, "step": 1628 }, { "epoch": 0.0362, "grad_norm": 0.7917470932006836, "learning_rate": 0.0001928028450766837, "loss": 0.9533, "step": 1629 }, { "epoch": 0.036222222222222225, "grad_norm": 1.103376030921936, "learning_rate": 0.00019279839964436542, "loss": 1.8007, "step": 1630 }, { "epoch": 0.03624444444444445, "grad_norm": 1.1854441165924072, "learning_rate": 0.00019279395421204713, "loss": 1.9496, "step": 1631 }, { "epoch": 0.03626666666666667, "grad_norm": 1.283071756362915, "learning_rate": 0.00019278950877972884, "loss": 2.0651, "step": 1632 }, { "epoch": 0.03628888888888889, "grad_norm": 1.3536968231201172, "learning_rate": 0.00019278506334741055, "loss": 2.3606, "step": 1633 }, { "epoch": 0.03631111111111111, "grad_norm": 1.1884193420410156, "learning_rate": 0.00019278061791509226, "loss": 1.6877, "step": 1634 }, { "epoch": 0.036333333333333336, "grad_norm": 1.1790130138397217, "learning_rate": 0.00019277617248277397, "loss": 1.7944, "step": 1635 }, { "epoch": 0.03635555555555556, "grad_norm": 1.4631588459014893, "learning_rate": 0.00019277172705045568, "loss": 2.0584, "step": 1636 }, { "epoch": 0.03637777777777778, "grad_norm": 1.1450132131576538, "learning_rate": 0.00019276728161813739, "loss": 1.9185, "step": 1637 }, { "epoch": 0.0364, "grad_norm": 1.4707188606262207, "learning_rate": 0.00019276283618581907, "loss": 2.3511, "step": 1638 }, { "epoch": 0.036422222222222224, "grad_norm": 1.3113077878952026, "learning_rate": 0.0001927583907535008, "loss": 2.3162, "step": 1639 }, { "epoch": 0.036444444444444446, "grad_norm": 1.2973928451538086, "learning_rate": 0.0001927539453211825, "loss": 1.9532, "step": 1640 }, { "epoch": 0.03646666666666667, "grad_norm": 1.091458797454834, "learning_rate": 0.0001927494998888642, "loss": 1.8042, "step": 1641 }, { "epoch": 0.03648888888888889, "grad_norm": 1.2639678716659546, "learning_rate": 0.0001927450544565459, "loss": 1.9437, "step": 1642 }, { "epoch": 0.03651111111111111, "grad_norm": 1.384123682975769, "learning_rate": 0.00019274060902422762, "loss": 2.0447, "step": 1643 }, { "epoch": 0.036533333333333334, "grad_norm": 1.5155600309371948, "learning_rate": 0.00019273616359190933, "loss": 2.1028, "step": 1644 }, { "epoch": 0.036555555555555556, "grad_norm": 1.74246084690094, "learning_rate": 0.00019273171815959104, "loss": 2.019, "step": 1645 }, { "epoch": 0.03657777777777778, "grad_norm": 1.4755514860153198, "learning_rate": 0.00019272727272727274, "loss": 2.1065, "step": 1646 }, { "epoch": 0.0366, "grad_norm": 0.9459998607635498, "learning_rate": 0.00019272282729495443, "loss": 0.8836, "step": 1647 }, { "epoch": 0.03662222222222222, "grad_norm": 1.3147807121276855, "learning_rate": 0.00019271838186263616, "loss": 1.893, "step": 1648 }, { "epoch": 0.036644444444444445, "grad_norm": 1.478476643562317, "learning_rate": 0.00019271393643031785, "loss": 1.5637, "step": 1649 }, { "epoch": 0.03666666666666667, "grad_norm": 1.6118906736373901, "learning_rate": 0.00019270949099799958, "loss": 1.5086, "step": 1650 }, { "epoch": 0.03668888888888889, "grad_norm": 0.8905341625213623, "learning_rate": 0.00019270504556568127, "loss": 2.4148, "step": 1651 }, { "epoch": 0.03671111111111111, "grad_norm": 0.8563937544822693, "learning_rate": 0.00019270060013336298, "loss": 2.2786, "step": 1652 }, { "epoch": 0.03673333333333333, "grad_norm": 0.9282917380332947, "learning_rate": 0.00019269615470104469, "loss": 2.3942, "step": 1653 }, { "epoch": 0.036755555555555555, "grad_norm": 1.0072396993637085, "learning_rate": 0.0001926917092687264, "loss": 1.3516, "step": 1654 }, { "epoch": 0.03677777777777778, "grad_norm": 0.6960182189941406, "learning_rate": 0.0001926872638364081, "loss": 1.0296, "step": 1655 }, { "epoch": 0.0368, "grad_norm": 1.1755566596984863, "learning_rate": 0.00019268281840408981, "loss": 3.0354, "step": 1656 }, { "epoch": 0.03682222222222222, "grad_norm": 1.2352008819580078, "learning_rate": 0.00019267837297177152, "loss": 2.5728, "step": 1657 }, { "epoch": 0.036844444444444444, "grad_norm": 1.0424734354019165, "learning_rate": 0.0001926739275394532, "loss": 2.1906, "step": 1658 }, { "epoch": 0.036866666666666666, "grad_norm": 0.9990553855895996, "learning_rate": 0.00019266948210713494, "loss": 2.3221, "step": 1659 }, { "epoch": 0.03688888888888889, "grad_norm": 1.0603668689727783, "learning_rate": 0.00019266503667481663, "loss": 2.3523, "step": 1660 }, { "epoch": 0.03691111111111111, "grad_norm": 1.1015915870666504, "learning_rate": 0.00019266059124249833, "loss": 2.4637, "step": 1661 }, { "epoch": 0.03693333333333333, "grad_norm": 1.0183284282684326, "learning_rate": 0.00019265614581018004, "loss": 2.1596, "step": 1662 }, { "epoch": 0.036955555555555554, "grad_norm": 1.097563624382019, "learning_rate": 0.00019265170037786175, "loss": 2.3855, "step": 1663 }, { "epoch": 0.036977777777777776, "grad_norm": 1.0424779653549194, "learning_rate": 0.00019264725494554346, "loss": 2.1794, "step": 1664 }, { "epoch": 0.037, "grad_norm": 1.0053038597106934, "learning_rate": 0.00019264280951322517, "loss": 2.0104, "step": 1665 }, { "epoch": 0.03702222222222222, "grad_norm": 1.2662198543548584, "learning_rate": 0.00019263836408090688, "loss": 2.3109, "step": 1666 }, { "epoch": 0.03704444444444444, "grad_norm": 1.0046722888946533, "learning_rate": 0.00019263391864858857, "loss": 2.3037, "step": 1667 }, { "epoch": 0.037066666666666664, "grad_norm": 1.1860179901123047, "learning_rate": 0.0001926294732162703, "loss": 2.537, "step": 1668 }, { "epoch": 0.037088888888888887, "grad_norm": 1.0056655406951904, "learning_rate": 0.00019262502778395198, "loss": 1.9345, "step": 1669 }, { "epoch": 0.03711111111111111, "grad_norm": 1.1387861967086792, "learning_rate": 0.00019262058235163372, "loss": 1.224, "step": 1670 }, { "epoch": 0.03713333333333333, "grad_norm": 1.0878708362579346, "learning_rate": 0.0001926161369193154, "loss": 2.1147, "step": 1671 }, { "epoch": 0.03715555555555555, "grad_norm": 1.1541792154312134, "learning_rate": 0.00019261169148699711, "loss": 2.3138, "step": 1672 }, { "epoch": 0.037177777777777775, "grad_norm": 1.2388761043548584, "learning_rate": 0.00019260724605467882, "loss": 2.0522, "step": 1673 }, { "epoch": 0.0372, "grad_norm": 1.0342973470687866, "learning_rate": 0.00019260280062236053, "loss": 1.9513, "step": 1674 }, { "epoch": 0.03722222222222222, "grad_norm": 1.2679888010025024, "learning_rate": 0.00019259835519004224, "loss": 1.982, "step": 1675 }, { "epoch": 0.03724444444444444, "grad_norm": 1.2131075859069824, "learning_rate": 0.00019259390975772395, "loss": 2.1498, "step": 1676 }, { "epoch": 0.03726666666666666, "grad_norm": 0.9604787230491638, "learning_rate": 0.00019258946432540566, "loss": 1.5668, "step": 1677 }, { "epoch": 0.03728888888888889, "grad_norm": 1.054021954536438, "learning_rate": 0.00019258501889308734, "loss": 1.8568, "step": 1678 }, { "epoch": 0.037311111111111114, "grad_norm": 1.190492868423462, "learning_rate": 0.00019258057346076908, "loss": 0.9899, "step": 1679 }, { "epoch": 0.037333333333333336, "grad_norm": 1.5572409629821777, "learning_rate": 0.00019257612802845076, "loss": 2.3164, "step": 1680 }, { "epoch": 0.03735555555555556, "grad_norm": 1.1587527990341187, "learning_rate": 0.00019257168259613247, "loss": 2.1015, "step": 1681 }, { "epoch": 0.03737777777777778, "grad_norm": 1.2043633460998535, "learning_rate": 0.00019256723716381418, "loss": 1.9227, "step": 1682 }, { "epoch": 0.0374, "grad_norm": 1.2729018926620483, "learning_rate": 0.0001925627917314959, "loss": 2.0728, "step": 1683 }, { "epoch": 0.037422222222222225, "grad_norm": 1.287742018699646, "learning_rate": 0.0001925583462991776, "loss": 2.4982, "step": 1684 }, { "epoch": 0.03744444444444445, "grad_norm": 1.3554203510284424, "learning_rate": 0.0001925539008668593, "loss": 2.3082, "step": 1685 }, { "epoch": 0.03746666666666667, "grad_norm": 1.2895474433898926, "learning_rate": 0.00019254945543454102, "loss": 2.2616, "step": 1686 }, { "epoch": 0.03748888888888889, "grad_norm": 1.2018258571624756, "learning_rate": 0.0001925450100022227, "loss": 1.9035, "step": 1687 }, { "epoch": 0.03751111111111111, "grad_norm": 1.336531639099121, "learning_rate": 0.00019254056456990444, "loss": 2.2862, "step": 1688 }, { "epoch": 0.037533333333333335, "grad_norm": 1.0696642398834229, "learning_rate": 0.00019253611913758612, "loss": 0.9648, "step": 1689 }, { "epoch": 0.03755555555555556, "grad_norm": 1.5599923133850098, "learning_rate": 0.00019253167370526786, "loss": 1.6956, "step": 1690 }, { "epoch": 0.03757777777777778, "grad_norm": 1.049018144607544, "learning_rate": 0.00019252722827294957, "loss": 1.6086, "step": 1691 }, { "epoch": 0.0376, "grad_norm": 1.2631961107254028, "learning_rate": 0.00019252278284063125, "loss": 1.5529, "step": 1692 }, { "epoch": 0.037622222222222224, "grad_norm": 1.404136300086975, "learning_rate": 0.000192518337408313, "loss": 2.0185, "step": 1693 }, { "epoch": 0.037644444444444446, "grad_norm": 1.5357671976089478, "learning_rate": 0.00019251389197599467, "loss": 2.2575, "step": 1694 }, { "epoch": 0.03766666666666667, "grad_norm": 1.2799744606018066, "learning_rate": 0.00019250944654367638, "loss": 1.8321, "step": 1695 }, { "epoch": 0.03768888888888889, "grad_norm": 1.5406770706176758, "learning_rate": 0.0001925050011113581, "loss": 2.0424, "step": 1696 }, { "epoch": 0.03771111111111111, "grad_norm": 1.5023655891418457, "learning_rate": 0.0001925005556790398, "loss": 2.0837, "step": 1697 }, { "epoch": 0.037733333333333334, "grad_norm": 1.220178484916687, "learning_rate": 0.00019249611024672148, "loss": 1.6124, "step": 1698 }, { "epoch": 0.037755555555555556, "grad_norm": 2.6782243251800537, "learning_rate": 0.00019249166481440322, "loss": 0.1081, "step": 1699 }, { "epoch": 0.03777777777777778, "grad_norm": 0.9028381705284119, "learning_rate": 0.00019248721938208493, "loss": 0.5841, "step": 1700 }, { "epoch": 0.0378, "grad_norm": 1.136002779006958, "learning_rate": 0.0001924827739497666, "loss": 2.7293, "step": 1701 }, { "epoch": 0.03782222222222222, "grad_norm": 1.3147175312042236, "learning_rate": 0.00019247832851744835, "loss": 2.8613, "step": 1702 }, { "epoch": 0.037844444444444444, "grad_norm": 1.1160030364990234, "learning_rate": 0.00019247388308513003, "loss": 2.5977, "step": 1703 }, { "epoch": 0.037866666666666667, "grad_norm": 1.2921942472457886, "learning_rate": 0.00019246943765281174, "loss": 2.3137, "step": 1704 }, { "epoch": 0.03788888888888889, "grad_norm": 0.9941746592521667, "learning_rate": 0.00019246499222049345, "loss": 1.8767, "step": 1705 }, { "epoch": 0.03791111111111111, "grad_norm": 1.2339857816696167, "learning_rate": 0.00019246054678817516, "loss": 2.1385, "step": 1706 }, { "epoch": 0.03793333333333333, "grad_norm": 1.158557415008545, "learning_rate": 0.00019245610135585687, "loss": 1.5991, "step": 1707 }, { "epoch": 0.037955555555555555, "grad_norm": 1.146208643913269, "learning_rate": 0.00019245165592353858, "loss": 2.2618, "step": 1708 }, { "epoch": 0.03797777777777778, "grad_norm": 1.0277339220046997, "learning_rate": 0.0001924472104912203, "loss": 2.3643, "step": 1709 }, { "epoch": 0.038, "grad_norm": 1.0269960165023804, "learning_rate": 0.000192442765058902, "loss": 2.0639, "step": 1710 }, { "epoch": 0.03802222222222222, "grad_norm": 1.0692329406738281, "learning_rate": 0.0001924383196265837, "loss": 1.7411, "step": 1711 }, { "epoch": 0.03804444444444444, "grad_norm": 1.3326133489608765, "learning_rate": 0.0001924338741942654, "loss": 2.2134, "step": 1712 }, { "epoch": 0.038066666666666665, "grad_norm": 0.9918487668037415, "learning_rate": 0.00019242942876194713, "loss": 1.4232, "step": 1713 }, { "epoch": 0.03808888888888889, "grad_norm": 1.0250266790390015, "learning_rate": 0.0001924249833296288, "loss": 1.9448, "step": 1714 }, { "epoch": 0.03811111111111111, "grad_norm": 1.34917414188385, "learning_rate": 0.00019242053789731052, "loss": 2.4693, "step": 1715 }, { "epoch": 0.03813333333333333, "grad_norm": 1.2300838232040405, "learning_rate": 0.00019241609246499223, "loss": 2.1846, "step": 1716 }, { "epoch": 0.038155555555555554, "grad_norm": 0.9363498091697693, "learning_rate": 0.00019241164703267394, "loss": 1.0052, "step": 1717 }, { "epoch": 0.038177777777777776, "grad_norm": 1.1219052076339722, "learning_rate": 0.00019240720160035565, "loss": 1.9205, "step": 1718 }, { "epoch": 0.0382, "grad_norm": 1.4701693058013916, "learning_rate": 0.00019240275616803736, "loss": 1.9902, "step": 1719 }, { "epoch": 0.03822222222222222, "grad_norm": 1.2562336921691895, "learning_rate": 0.00019239831073571907, "loss": 2.4119, "step": 1720 }, { "epoch": 0.03824444444444444, "grad_norm": 1.2237027883529663, "learning_rate": 0.00019239386530340075, "loss": 1.7287, "step": 1721 }, { "epoch": 0.038266666666666664, "grad_norm": 1.2052242755889893, "learning_rate": 0.00019238941987108249, "loss": 2.5344, "step": 1722 }, { "epoch": 0.038288888888888886, "grad_norm": 0.9924613237380981, "learning_rate": 0.00019238497443876417, "loss": 1.7375, "step": 1723 }, { "epoch": 0.03831111111111111, "grad_norm": 1.08962082862854, "learning_rate": 0.00019238052900644588, "loss": 2.1573, "step": 1724 }, { "epoch": 0.03833333333333333, "grad_norm": 1.3142993450164795, "learning_rate": 0.0001923760835741276, "loss": 2.4923, "step": 1725 }, { "epoch": 0.03835555555555555, "grad_norm": 1.0707851648330688, "learning_rate": 0.0001923716381418093, "loss": 1.9195, "step": 1726 }, { "epoch": 0.038377777777777775, "grad_norm": 1.232883334159851, "learning_rate": 0.000192367192709491, "loss": 2.4728, "step": 1727 }, { "epoch": 0.0384, "grad_norm": 1.2929331064224243, "learning_rate": 0.00019236274727717272, "loss": 2.4331, "step": 1728 }, { "epoch": 0.038422222222222226, "grad_norm": 1.191250205039978, "learning_rate": 0.00019235830184485443, "loss": 2.2616, "step": 1729 }, { "epoch": 0.03844444444444445, "grad_norm": 1.129345417022705, "learning_rate": 0.00019235385641253614, "loss": 2.0167, "step": 1730 }, { "epoch": 0.03846666666666667, "grad_norm": 1.148284912109375, "learning_rate": 0.00019234941098021785, "loss": 2.053, "step": 1731 }, { "epoch": 0.03848888888888889, "grad_norm": 1.1987674236297607, "learning_rate": 0.00019234496554789953, "loss": 1.875, "step": 1732 }, { "epoch": 0.038511111111111114, "grad_norm": 0.9068574905395508, "learning_rate": 0.00019234052011558126, "loss": 0.7785, "step": 1733 }, { "epoch": 0.038533333333333336, "grad_norm": 1.0912137031555176, "learning_rate": 0.00019233607468326295, "loss": 1.7885, "step": 1734 }, { "epoch": 0.03855555555555556, "grad_norm": 1.255879521369934, "learning_rate": 0.00019233162925094466, "loss": 2.1068, "step": 1735 }, { "epoch": 0.03857777777777778, "grad_norm": 1.1832062005996704, "learning_rate": 0.00019232718381862637, "loss": 2.2488, "step": 1736 }, { "epoch": 0.0386, "grad_norm": 1.4971884489059448, "learning_rate": 0.00019232273838630808, "loss": 2.012, "step": 1737 }, { "epoch": 0.038622222222222224, "grad_norm": 1.253125548362732, "learning_rate": 0.00019231829295398979, "loss": 1.9059, "step": 1738 }, { "epoch": 0.03864444444444445, "grad_norm": 1.2260684967041016, "learning_rate": 0.0001923138475216715, "loss": 1.7284, "step": 1739 }, { "epoch": 0.03866666666666667, "grad_norm": 1.1737374067306519, "learning_rate": 0.0001923094020893532, "loss": 2.164, "step": 1740 }, { "epoch": 0.03868888888888889, "grad_norm": 1.16877019405365, "learning_rate": 0.0001923049566570349, "loss": 2.0229, "step": 1741 }, { "epoch": 0.03871111111111111, "grad_norm": 0.9355736374855042, "learning_rate": 0.00019230051122471662, "loss": 1.0844, "step": 1742 }, { "epoch": 0.038733333333333335, "grad_norm": 1.0740021467208862, "learning_rate": 0.0001922960657923983, "loss": 1.4236, "step": 1743 }, { "epoch": 0.03875555555555556, "grad_norm": 1.2170355319976807, "learning_rate": 0.00019229162036008002, "loss": 1.845, "step": 1744 }, { "epoch": 0.03877777777777778, "grad_norm": 1.4682364463806152, "learning_rate": 0.00019228717492776173, "loss": 2.192, "step": 1745 }, { "epoch": 0.0388, "grad_norm": 1.6630189418792725, "learning_rate": 0.00019228272949544344, "loss": 2.353, "step": 1746 }, { "epoch": 0.03882222222222222, "grad_norm": 1.3849523067474365, "learning_rate": 0.00019227828406312515, "loss": 2.1318, "step": 1747 }, { "epoch": 0.038844444444444445, "grad_norm": 1.407485008239746, "learning_rate": 0.00019227383863080685, "loss": 1.7946, "step": 1748 }, { "epoch": 0.03886666666666667, "grad_norm": 1.2454653978347778, "learning_rate": 0.00019226939319848856, "loss": 1.8537, "step": 1749 }, { "epoch": 0.03888888888888889, "grad_norm": 1.2907649278640747, "learning_rate": 0.00019226494776617027, "loss": 1.8048, "step": 1750 }, { "epoch": 0.03891111111111111, "grad_norm": 0.984199047088623, "learning_rate": 0.00019226050233385198, "loss": 2.1876, "step": 1751 }, { "epoch": 0.038933333333333334, "grad_norm": 1.2915271520614624, "learning_rate": 0.00019225605690153367, "loss": 2.7688, "step": 1752 }, { "epoch": 0.038955555555555556, "grad_norm": 1.1002089977264404, "learning_rate": 0.0001922516114692154, "loss": 2.7393, "step": 1753 }, { "epoch": 0.03897777777777778, "grad_norm": 0.9147074222564697, "learning_rate": 0.00019224716603689709, "loss": 1.3076, "step": 1754 }, { "epoch": 0.039, "grad_norm": 0.9948516488075256, "learning_rate": 0.0001922427206045788, "loss": 2.1483, "step": 1755 }, { "epoch": 0.03902222222222222, "grad_norm": 1.1838185787200928, "learning_rate": 0.0001922382751722605, "loss": 2.004, "step": 1756 }, { "epoch": 0.039044444444444444, "grad_norm": 0.9836131930351257, "learning_rate": 0.00019223382973994221, "loss": 2.2423, "step": 1757 }, { "epoch": 0.039066666666666666, "grad_norm": 1.2149583101272583, "learning_rate": 0.00019222938430762392, "loss": 1.126, "step": 1758 }, { "epoch": 0.03908888888888889, "grad_norm": 1.1118990182876587, "learning_rate": 0.00019222493887530563, "loss": 2.6146, "step": 1759 }, { "epoch": 0.03911111111111111, "grad_norm": 0.9626356363296509, "learning_rate": 0.00019222049344298734, "loss": 1.8598, "step": 1760 }, { "epoch": 0.03913333333333333, "grad_norm": 1.1309908628463745, "learning_rate": 0.00019221604801066903, "loss": 2.3963, "step": 1761 }, { "epoch": 0.039155555555555555, "grad_norm": 1.1834784746170044, "learning_rate": 0.00019221160257835076, "loss": 2.0128, "step": 1762 }, { "epoch": 0.03917777777777778, "grad_norm": 1.1508394479751587, "learning_rate": 0.00019220715714603245, "loss": 2.3134, "step": 1763 }, { "epoch": 0.0392, "grad_norm": 1.193302869796753, "learning_rate": 0.00019220271171371418, "loss": 2.5307, "step": 1764 }, { "epoch": 0.03922222222222222, "grad_norm": 1.186457872390747, "learning_rate": 0.0001921982662813959, "loss": 2.4956, "step": 1765 }, { "epoch": 0.03924444444444444, "grad_norm": 1.466609239578247, "learning_rate": 0.00019219382084907757, "loss": 3.0103, "step": 1766 }, { "epoch": 0.039266666666666665, "grad_norm": 1.1625009775161743, "learning_rate": 0.0001921893754167593, "loss": 2.1725, "step": 1767 }, { "epoch": 0.03928888888888889, "grad_norm": 1.0614113807678223, "learning_rate": 0.000192184929984441, "loss": 1.9708, "step": 1768 }, { "epoch": 0.03931111111111111, "grad_norm": 1.2324970960617065, "learning_rate": 0.0001921804845521227, "loss": 2.3021, "step": 1769 }, { "epoch": 0.03933333333333333, "grad_norm": 1.1604976654052734, "learning_rate": 0.0001921760391198044, "loss": 1.9542, "step": 1770 }, { "epoch": 0.03935555555555555, "grad_norm": 1.2036832571029663, "learning_rate": 0.00019217159368748612, "loss": 1.793, "step": 1771 }, { "epoch": 0.039377777777777775, "grad_norm": 1.0490174293518066, "learning_rate": 0.0001921671482551678, "loss": 1.8467, "step": 1772 }, { "epoch": 0.0394, "grad_norm": 1.2819703817367554, "learning_rate": 0.00019216270282284954, "loss": 2.285, "step": 1773 }, { "epoch": 0.03942222222222222, "grad_norm": 1.321698784828186, "learning_rate": 0.00019215825739053125, "loss": 1.8766, "step": 1774 }, { "epoch": 0.03944444444444444, "grad_norm": 1.1334456205368042, "learning_rate": 0.00019215381195821293, "loss": 1.9917, "step": 1775 }, { "epoch": 0.039466666666666664, "grad_norm": 1.4410911798477173, "learning_rate": 0.00019214936652589467, "loss": 2.2526, "step": 1776 }, { "epoch": 0.039488888888888886, "grad_norm": 1.0513566732406616, "learning_rate": 0.00019214492109357635, "loss": 1.7513, "step": 1777 }, { "epoch": 0.03951111111111111, "grad_norm": 1.254146933555603, "learning_rate": 0.00019214047566125806, "loss": 2.009, "step": 1778 }, { "epoch": 0.03953333333333333, "grad_norm": 1.2576804161071777, "learning_rate": 0.00019213603022893977, "loss": 1.9602, "step": 1779 }, { "epoch": 0.03955555555555555, "grad_norm": 1.8374196290969849, "learning_rate": 0.00019213158479662148, "loss": 2.0253, "step": 1780 }, { "epoch": 0.03957777777777778, "grad_norm": 1.1337549686431885, "learning_rate": 0.00019212713936430316, "loss": 2.1113, "step": 1781 }, { "epoch": 0.0396, "grad_norm": 1.330061912536621, "learning_rate": 0.0001921226939319849, "loss": 2.01, "step": 1782 }, { "epoch": 0.039622222222222225, "grad_norm": 2.5931622982025146, "learning_rate": 0.0001921182484996666, "loss": 0.7704, "step": 1783 }, { "epoch": 0.03964444444444445, "grad_norm": 1.2280597686767578, "learning_rate": 0.00019211380306734832, "loss": 2.1062, "step": 1784 }, { "epoch": 0.03966666666666667, "grad_norm": 1.3232183456420898, "learning_rate": 0.00019210935763503003, "loss": 1.9899, "step": 1785 }, { "epoch": 0.03968888888888889, "grad_norm": 1.3776732683181763, "learning_rate": 0.0001921049122027117, "loss": 2.0363, "step": 1786 }, { "epoch": 0.039711111111111114, "grad_norm": 1.3296781778335571, "learning_rate": 0.00019210046677039345, "loss": 1.9252, "step": 1787 }, { "epoch": 0.039733333333333336, "grad_norm": 1.2858179807662964, "learning_rate": 0.00019209602133807513, "loss": 2.1333, "step": 1788 }, { "epoch": 0.03975555555555556, "grad_norm": 1.5770024061203003, "learning_rate": 0.00019209157590575684, "loss": 1.9526, "step": 1789 }, { "epoch": 0.03977777777777778, "grad_norm": 1.169321060180664, "learning_rate": 0.00019208713047343855, "loss": 1.5478, "step": 1790 }, { "epoch": 0.0398, "grad_norm": 1.3757535219192505, "learning_rate": 0.00019208268504112026, "loss": 1.8472, "step": 1791 }, { "epoch": 0.039822222222222224, "grad_norm": 1.3419402837753296, "learning_rate": 0.00019207823960880197, "loss": 1.7444, "step": 1792 }, { "epoch": 0.039844444444444446, "grad_norm": 1.5073256492614746, "learning_rate": 0.00019207379417648368, "loss": 2.0931, "step": 1793 }, { "epoch": 0.03986666666666667, "grad_norm": 1.3753446340560913, "learning_rate": 0.0001920693487441654, "loss": 1.6753, "step": 1794 }, { "epoch": 0.03988888888888889, "grad_norm": 1.4067362546920776, "learning_rate": 0.00019206490331184707, "loss": 1.6566, "step": 1795 }, { "epoch": 0.03991111111111111, "grad_norm": 1.3025190830230713, "learning_rate": 0.0001920604578795288, "loss": 1.8397, "step": 1796 }, { "epoch": 0.039933333333333335, "grad_norm": 1.521903157234192, "learning_rate": 0.0001920560124472105, "loss": 1.9017, "step": 1797 }, { "epoch": 0.03995555555555556, "grad_norm": 1.7126338481903076, "learning_rate": 0.0001920515670148922, "loss": 2.2629, "step": 1798 }, { "epoch": 0.03997777777777778, "grad_norm": 1.5529956817626953, "learning_rate": 0.0001920471215825739, "loss": 1.6043, "step": 1799 }, { "epoch": 0.04, "grad_norm": 1.7723318338394165, "learning_rate": 0.00019204267615025562, "loss": 2.2176, "step": 1800 }, { "epoch": 0.04002222222222222, "grad_norm": 1.1991795301437378, "learning_rate": 0.00019203823071793733, "loss": 3.281, "step": 1801 }, { "epoch": 0.040044444444444445, "grad_norm": 1.3677946329116821, "learning_rate": 0.00019203378528561904, "loss": 2.1734, "step": 1802 }, { "epoch": 0.04006666666666667, "grad_norm": 1.0866068601608276, "learning_rate": 0.00019202933985330075, "loss": 2.5766, "step": 1803 }, { "epoch": 0.04008888888888889, "grad_norm": 1.1193768978118896, "learning_rate": 0.00019202489442098246, "loss": 2.478, "step": 1804 }, { "epoch": 0.04011111111111111, "grad_norm": 1.3724201917648315, "learning_rate": 0.00019202044898866417, "loss": 2.5114, "step": 1805 }, { "epoch": 0.04013333333333333, "grad_norm": 0.9693953394889832, "learning_rate": 0.00019201600355634585, "loss": 2.2679, "step": 1806 }, { "epoch": 0.040155555555555555, "grad_norm": 1.1534337997436523, "learning_rate": 0.0001920115581240276, "loss": 2.1458, "step": 1807 }, { "epoch": 0.04017777777777778, "grad_norm": 1.200800895690918, "learning_rate": 0.00019200711269170927, "loss": 2.363, "step": 1808 }, { "epoch": 0.0402, "grad_norm": 1.1132547855377197, "learning_rate": 0.00019200266725939098, "loss": 2.1045, "step": 1809 }, { "epoch": 0.04022222222222222, "grad_norm": 1.2257728576660156, "learning_rate": 0.0001919982218270727, "loss": 2.6259, "step": 1810 }, { "epoch": 0.040244444444444444, "grad_norm": 0.910944938659668, "learning_rate": 0.0001919937763947544, "loss": 1.8674, "step": 1811 }, { "epoch": 0.040266666666666666, "grad_norm": 1.0394186973571777, "learning_rate": 0.0001919893309624361, "loss": 2.0576, "step": 1812 }, { "epoch": 0.04028888888888889, "grad_norm": 1.2120990753173828, "learning_rate": 0.00019198488553011782, "loss": 2.1069, "step": 1813 }, { "epoch": 0.04031111111111111, "grad_norm": 1.1127886772155762, "learning_rate": 0.00019198044009779953, "loss": 1.666, "step": 1814 }, { "epoch": 0.04033333333333333, "grad_norm": 1.0183290243148804, "learning_rate": 0.0001919759946654812, "loss": 1.9361, "step": 1815 }, { "epoch": 0.040355555555555554, "grad_norm": 1.260033130645752, "learning_rate": 0.00019197154923316295, "loss": 2.1165, "step": 1816 }, { "epoch": 0.040377777777777776, "grad_norm": 1.2956593036651611, "learning_rate": 0.00019196710380084463, "loss": 2.3572, "step": 1817 }, { "epoch": 0.0404, "grad_norm": 1.1641860008239746, "learning_rate": 0.00019196265836852634, "loss": 1.2891, "step": 1818 }, { "epoch": 0.04042222222222222, "grad_norm": 1.1531250476837158, "learning_rate": 0.00019195821293620805, "loss": 1.7384, "step": 1819 }, { "epoch": 0.04044444444444444, "grad_norm": 1.1654103994369507, "learning_rate": 0.00019195376750388976, "loss": 2.0527, "step": 1820 }, { "epoch": 0.040466666666666665, "grad_norm": 1.1668634414672852, "learning_rate": 0.00019194932207157147, "loss": 2.3365, "step": 1821 }, { "epoch": 0.04048888888888889, "grad_norm": 1.055076003074646, "learning_rate": 0.00019194487663925318, "loss": 1.9914, "step": 1822 }, { "epoch": 0.04051111111111111, "grad_norm": 1.306888222694397, "learning_rate": 0.0001919404312069349, "loss": 2.3354, "step": 1823 }, { "epoch": 0.04053333333333333, "grad_norm": 1.0843337774276733, "learning_rate": 0.0001919359857746166, "loss": 2.1434, "step": 1824 }, { "epoch": 0.04055555555555555, "grad_norm": 1.167205810546875, "learning_rate": 0.0001919315403422983, "loss": 1.9047, "step": 1825 }, { "epoch": 0.040577777777777775, "grad_norm": 1.0783348083496094, "learning_rate": 0.00019192709490998, "loss": 2.0416, "step": 1826 }, { "epoch": 0.0406, "grad_norm": 1.4117889404296875, "learning_rate": 0.00019192264947766173, "loss": 2.6675, "step": 1827 }, { "epoch": 0.04062222222222222, "grad_norm": 1.2423501014709473, "learning_rate": 0.0001919182040453434, "loss": 1.9645, "step": 1828 }, { "epoch": 0.04064444444444444, "grad_norm": 1.4264363050460815, "learning_rate": 0.00019191375861302512, "loss": 2.4745, "step": 1829 }, { "epoch": 0.04066666666666666, "grad_norm": 1.229703426361084, "learning_rate": 0.00019190931318070683, "loss": 2.2294, "step": 1830 }, { "epoch": 0.040688888888888886, "grad_norm": 1.2256559133529663, "learning_rate": 0.00019190486774838854, "loss": 2.0544, "step": 1831 }, { "epoch": 0.040711111111111115, "grad_norm": 1.4052708148956299, "learning_rate": 0.00019190042231607025, "loss": 2.5493, "step": 1832 }, { "epoch": 0.04073333333333334, "grad_norm": 1.0882868766784668, "learning_rate": 0.00019189597688375196, "loss": 1.7074, "step": 1833 }, { "epoch": 0.04075555555555556, "grad_norm": 1.136404037475586, "learning_rate": 0.00019189153145143367, "loss": 1.7895, "step": 1834 }, { "epoch": 0.04077777777777778, "grad_norm": 1.478893756866455, "learning_rate": 0.00019188708601911535, "loss": 2.1396, "step": 1835 }, { "epoch": 0.0408, "grad_norm": 1.1789064407348633, "learning_rate": 0.00019188264058679708, "loss": 1.9921, "step": 1836 }, { "epoch": 0.040822222222222225, "grad_norm": 1.2615991830825806, "learning_rate": 0.00019187819515447877, "loss": 1.9984, "step": 1837 }, { "epoch": 0.04084444444444445, "grad_norm": 1.2081987857818604, "learning_rate": 0.00019187374972216048, "loss": 1.7769, "step": 1838 }, { "epoch": 0.04086666666666667, "grad_norm": 2.0135223865509033, "learning_rate": 0.0001918693042898422, "loss": 2.5425, "step": 1839 }, { "epoch": 0.04088888888888889, "grad_norm": 1.2716548442840576, "learning_rate": 0.0001918648588575239, "loss": 1.8521, "step": 1840 }, { "epoch": 0.04091111111111111, "grad_norm": 1.3172060251235962, "learning_rate": 0.00019186041342520563, "loss": 1.8708, "step": 1841 }, { "epoch": 0.040933333333333335, "grad_norm": 1.390977144241333, "learning_rate": 0.00019185596799288732, "loss": 2.1785, "step": 1842 }, { "epoch": 0.04095555555555556, "grad_norm": 1.1495133638381958, "learning_rate": 0.00019185152256056902, "loss": 1.8629, "step": 1843 }, { "epoch": 0.04097777777777778, "grad_norm": 1.3957880735397339, "learning_rate": 0.00019184707712825073, "loss": 1.938, "step": 1844 }, { "epoch": 0.041, "grad_norm": 1.5530160665512085, "learning_rate": 0.00019184263169593244, "loss": 2.178, "step": 1845 }, { "epoch": 0.041022222222222224, "grad_norm": 1.5242080688476562, "learning_rate": 0.00019183818626361413, "loss": 2.2788, "step": 1846 }, { "epoch": 0.041044444444444446, "grad_norm": 1.5541326999664307, "learning_rate": 0.00019183374083129586, "loss": 2.0234, "step": 1847 }, { "epoch": 0.04106666666666667, "grad_norm": 1.292238712310791, "learning_rate": 0.00019182929539897757, "loss": 1.8976, "step": 1848 }, { "epoch": 0.04108888888888889, "grad_norm": 1.21194589138031, "learning_rate": 0.00019182484996665926, "loss": 1.8551, "step": 1849 }, { "epoch": 0.04111111111111111, "grad_norm": 1.2845172882080078, "learning_rate": 0.000191820404534341, "loss": 1.1576, "step": 1850 }, { "epoch": 0.041133333333333334, "grad_norm": 1.0696463584899902, "learning_rate": 0.00019181595910202267, "loss": 1.1998, "step": 1851 }, { "epoch": 0.041155555555555556, "grad_norm": 0.9326448440551758, "learning_rate": 0.00019181151366970438, "loss": 2.2532, "step": 1852 }, { "epoch": 0.04117777777777778, "grad_norm": 0.9580495953559875, "learning_rate": 0.0001918070682373861, "loss": 2.2173, "step": 1853 }, { "epoch": 0.0412, "grad_norm": 1.163463830947876, "learning_rate": 0.0001918026228050678, "loss": 2.4942, "step": 1854 }, { "epoch": 0.04122222222222222, "grad_norm": 1.0326623916625977, "learning_rate": 0.00019179817737274949, "loss": 2.2857, "step": 1855 }, { "epoch": 0.041244444444444445, "grad_norm": 1.1594367027282715, "learning_rate": 0.00019179373194043122, "loss": 2.4411, "step": 1856 }, { "epoch": 0.04126666666666667, "grad_norm": 0.9663302898406982, "learning_rate": 0.00019178928650811293, "loss": 2.3332, "step": 1857 }, { "epoch": 0.04128888888888889, "grad_norm": 1.1134085655212402, "learning_rate": 0.00019178484107579464, "loss": 2.2708, "step": 1858 }, { "epoch": 0.04131111111111111, "grad_norm": 1.1311769485473633, "learning_rate": 0.00019178039564347635, "loss": 2.0297, "step": 1859 }, { "epoch": 0.04133333333333333, "grad_norm": 1.1480071544647217, "learning_rate": 0.00019177595021115803, "loss": 2.255, "step": 1860 }, { "epoch": 0.041355555555555555, "grad_norm": 1.3008390665054321, "learning_rate": 0.00019177150477883977, "loss": 2.2869, "step": 1861 }, { "epoch": 0.04137777777777778, "grad_norm": 1.1569377183914185, "learning_rate": 0.00019176705934652145, "loss": 2.0248, "step": 1862 }, { "epoch": 0.0414, "grad_norm": 1.2025002241134644, "learning_rate": 0.00019176261391420316, "loss": 2.5978, "step": 1863 }, { "epoch": 0.04142222222222222, "grad_norm": 1.0956943035125732, "learning_rate": 0.00019175816848188487, "loss": 1.7053, "step": 1864 }, { "epoch": 0.041444444444444443, "grad_norm": 1.1871134042739868, "learning_rate": 0.00019175372304956658, "loss": 2.1594, "step": 1865 }, { "epoch": 0.041466666666666666, "grad_norm": 1.2127585411071777, "learning_rate": 0.0001917492776172483, "loss": 2.8572, "step": 1866 }, { "epoch": 0.04148888888888889, "grad_norm": 1.0137825012207031, "learning_rate": 0.00019174483218493, "loss": 2.019, "step": 1867 }, { "epoch": 0.04151111111111111, "grad_norm": 1.3373006582260132, "learning_rate": 0.0001917403867526117, "loss": 2.3209, "step": 1868 }, { "epoch": 0.04153333333333333, "grad_norm": 1.067268967628479, "learning_rate": 0.0001917359413202934, "loss": 2.2086, "step": 1869 }, { "epoch": 0.041555555555555554, "grad_norm": 1.0184361934661865, "learning_rate": 0.00019173149588797513, "loss": 1.8515, "step": 1870 }, { "epoch": 0.041577777777777776, "grad_norm": 1.0436663627624512, "learning_rate": 0.0001917270504556568, "loss": 1.9124, "step": 1871 }, { "epoch": 0.0416, "grad_norm": 1.1637758016586304, "learning_rate": 0.00019172260502333852, "loss": 2.2636, "step": 1872 }, { "epoch": 0.04162222222222222, "grad_norm": 1.303212285041809, "learning_rate": 0.00019171815959102023, "loss": 2.1515, "step": 1873 }, { "epoch": 0.04164444444444444, "grad_norm": 1.107704997062683, "learning_rate": 0.00019171371415870194, "loss": 1.749, "step": 1874 }, { "epoch": 0.041666666666666664, "grad_norm": 1.062366008758545, "learning_rate": 0.00019170926872638365, "loss": 1.793, "step": 1875 }, { "epoch": 0.041688888888888886, "grad_norm": 1.4433813095092773, "learning_rate": 0.00019170482329406536, "loss": 2.0772, "step": 1876 }, { "epoch": 0.04171111111111111, "grad_norm": 1.2462506294250488, "learning_rate": 0.00019170037786174707, "loss": 2.0799, "step": 1877 }, { "epoch": 0.04173333333333333, "grad_norm": 1.2223600149154663, "learning_rate": 0.00019169593242942878, "loss": 2.1752, "step": 1878 }, { "epoch": 0.04175555555555555, "grad_norm": 1.185003638267517, "learning_rate": 0.0001916914869971105, "loss": 2.1943, "step": 1879 }, { "epoch": 0.041777777777777775, "grad_norm": 1.332453966140747, "learning_rate": 0.00019168704156479217, "loss": 2.0462, "step": 1880 }, { "epoch": 0.0418, "grad_norm": 1.2166739702224731, "learning_rate": 0.0001916825961324739, "loss": 2.085, "step": 1881 }, { "epoch": 0.04182222222222222, "grad_norm": 1.2287523746490479, "learning_rate": 0.0001916781507001556, "loss": 2.1032, "step": 1882 }, { "epoch": 0.04184444444444444, "grad_norm": 1.4310650825500488, "learning_rate": 0.0001916737052678373, "loss": 1.8752, "step": 1883 }, { "epoch": 0.04186666666666667, "grad_norm": 1.894676923751831, "learning_rate": 0.000191669259835519, "loss": 1.5636, "step": 1884 }, { "epoch": 0.04188888888888889, "grad_norm": 1.3769009113311768, "learning_rate": 0.00019166481440320072, "loss": 2.1381, "step": 1885 }, { "epoch": 0.041911111111111114, "grad_norm": 1.2243010997772217, "learning_rate": 0.00019166036897088243, "loss": 2.2507, "step": 1886 }, { "epoch": 0.041933333333333336, "grad_norm": 1.433355689048767, "learning_rate": 0.00019165592353856414, "loss": 2.3409, "step": 1887 }, { "epoch": 0.04195555555555556, "grad_norm": 1.450310230255127, "learning_rate": 0.00019165147810624585, "loss": 2.1942, "step": 1888 }, { "epoch": 0.04197777777777778, "grad_norm": 1.0777829885482788, "learning_rate": 0.00019164703267392753, "loss": 1.0536, "step": 1889 }, { "epoch": 0.042, "grad_norm": 1.162574052810669, "learning_rate": 0.00019164258724160927, "loss": 1.9861, "step": 1890 }, { "epoch": 0.042022222222222225, "grad_norm": 1.26123046875, "learning_rate": 0.00019163814180929095, "loss": 1.8709, "step": 1891 }, { "epoch": 0.04204444444444445, "grad_norm": 1.343668818473816, "learning_rate": 0.00019163369637697266, "loss": 2.2974, "step": 1892 }, { "epoch": 0.04206666666666667, "grad_norm": 1.3049241304397583, "learning_rate": 0.00019162925094465437, "loss": 1.8877, "step": 1893 }, { "epoch": 0.04208888888888889, "grad_norm": 1.3508896827697754, "learning_rate": 0.00019162480551233608, "loss": 1.475, "step": 1894 }, { "epoch": 0.04211111111111111, "grad_norm": 1.3263405561447144, "learning_rate": 0.0001916203600800178, "loss": 2.1018, "step": 1895 }, { "epoch": 0.042133333333333335, "grad_norm": 1.1588985919952393, "learning_rate": 0.0001916159146476995, "loss": 1.8846, "step": 1896 }, { "epoch": 0.04215555555555556, "grad_norm": 1.2116475105285645, "learning_rate": 0.0001916114692153812, "loss": 1.7266, "step": 1897 }, { "epoch": 0.04217777777777778, "grad_norm": 1.6070256233215332, "learning_rate": 0.00019160702378306292, "loss": 1.507, "step": 1898 }, { "epoch": 0.0422, "grad_norm": 1.2048518657684326, "learning_rate": 0.00019160257835074463, "loss": 1.6388, "step": 1899 }, { "epoch": 0.042222222222222223, "grad_norm": 1.258184790611267, "learning_rate": 0.0001915981329184263, "loss": 1.0054, "step": 1900 }, { "epoch": 0.042244444444444446, "grad_norm": 0.9699717164039612, "learning_rate": 0.00019159368748610805, "loss": 2.2259, "step": 1901 }, { "epoch": 0.04226666666666667, "grad_norm": 0.9850199222564697, "learning_rate": 0.00019158924205378973, "loss": 2.2399, "step": 1902 }, { "epoch": 0.04228888888888889, "grad_norm": 1.1542946100234985, "learning_rate": 0.00019158479662147144, "loss": 2.7975, "step": 1903 }, { "epoch": 0.04231111111111111, "grad_norm": 1.0074743032455444, "learning_rate": 0.00019158035118915315, "loss": 2.0686, "step": 1904 }, { "epoch": 0.042333333333333334, "grad_norm": 1.0204215049743652, "learning_rate": 0.00019157590575683486, "loss": 2.3164, "step": 1905 }, { "epoch": 0.042355555555555556, "grad_norm": 1.078226923942566, "learning_rate": 0.00019157146032451657, "loss": 2.4789, "step": 1906 }, { "epoch": 0.04237777777777778, "grad_norm": 1.1347357034683228, "learning_rate": 0.00019156701489219828, "loss": 2.1502, "step": 1907 }, { "epoch": 0.0424, "grad_norm": 1.0686572790145874, "learning_rate": 0.00019156256945988, "loss": 2.4498, "step": 1908 }, { "epoch": 0.04242222222222222, "grad_norm": 1.219796061515808, "learning_rate": 0.00019155812402756167, "loss": 2.1141, "step": 1909 }, { "epoch": 0.042444444444444444, "grad_norm": 1.14406156539917, "learning_rate": 0.0001915536785952434, "loss": 2.4928, "step": 1910 }, { "epoch": 0.042466666666666666, "grad_norm": 1.0536446571350098, "learning_rate": 0.0001915492331629251, "loss": 2.208, "step": 1911 }, { "epoch": 0.04248888888888889, "grad_norm": 0.9767941832542419, "learning_rate": 0.0001915447877306068, "loss": 2.286, "step": 1912 }, { "epoch": 0.04251111111111111, "grad_norm": 1.0415289402008057, "learning_rate": 0.00019154034229828854, "loss": 1.9729, "step": 1913 }, { "epoch": 0.04253333333333333, "grad_norm": 1.1619441509246826, "learning_rate": 0.00019153589686597022, "loss": 1.7091, "step": 1914 }, { "epoch": 0.042555555555555555, "grad_norm": 1.118539571762085, "learning_rate": 0.00019153145143365195, "loss": 2.1521, "step": 1915 }, { "epoch": 0.04257777777777778, "grad_norm": 1.1259968280792236, "learning_rate": 0.00019152700600133364, "loss": 2.5297, "step": 1916 }, { "epoch": 0.0426, "grad_norm": 1.3698863983154297, "learning_rate": 0.00019152256056901535, "loss": 1.892, "step": 1917 }, { "epoch": 0.04262222222222222, "grad_norm": 1.1201448440551758, "learning_rate": 0.00019151811513669706, "loss": 2.1697, "step": 1918 }, { "epoch": 0.04264444444444444, "grad_norm": 1.2097538709640503, "learning_rate": 0.00019151366970437877, "loss": 2.183, "step": 1919 }, { "epoch": 0.042666666666666665, "grad_norm": 1.2014886140823364, "learning_rate": 0.00019150922427206045, "loss": 2.2489, "step": 1920 }, { "epoch": 0.04268888888888889, "grad_norm": 1.113774061203003, "learning_rate": 0.00019150477883974219, "loss": 2.1225, "step": 1921 }, { "epoch": 0.04271111111111111, "grad_norm": 1.1442086696624756, "learning_rate": 0.0001915003334074239, "loss": 1.9999, "step": 1922 }, { "epoch": 0.04273333333333333, "grad_norm": 1.0915108919143677, "learning_rate": 0.00019149588797510558, "loss": 2.1103, "step": 1923 }, { "epoch": 0.042755555555555554, "grad_norm": 1.295320749282837, "learning_rate": 0.00019149144254278731, "loss": 2.3109, "step": 1924 }, { "epoch": 0.042777777777777776, "grad_norm": 1.1278232336044312, "learning_rate": 0.000191486997110469, "loss": 1.6493, "step": 1925 }, { "epoch": 0.0428, "grad_norm": 1.3750613927841187, "learning_rate": 0.0001914825516781507, "loss": 2.5288, "step": 1926 }, { "epoch": 0.04282222222222222, "grad_norm": 1.1537458896636963, "learning_rate": 0.00019147810624583242, "loss": 1.7565, "step": 1927 }, { "epoch": 0.04284444444444444, "grad_norm": 1.107997179031372, "learning_rate": 0.00019147366081351413, "loss": 2.2038, "step": 1928 }, { "epoch": 0.042866666666666664, "grad_norm": 2.357999086380005, "learning_rate": 0.0001914692153811958, "loss": 2.1204, "step": 1929 }, { "epoch": 0.042888888888888886, "grad_norm": 1.1876354217529297, "learning_rate": 0.00019146476994887754, "loss": 2.0501, "step": 1930 }, { "epoch": 0.04291111111111111, "grad_norm": 1.4727190732955933, "learning_rate": 0.00019146032451655925, "loss": 2.4526, "step": 1931 }, { "epoch": 0.04293333333333333, "grad_norm": 1.2574357986450195, "learning_rate": 0.00019145587908424094, "loss": 2.4175, "step": 1932 }, { "epoch": 0.04295555555555555, "grad_norm": 1.3092460632324219, "learning_rate": 0.00019145143365192267, "loss": 1.9369, "step": 1933 }, { "epoch": 0.042977777777777774, "grad_norm": 0.7002347111701965, "learning_rate": 0.00019144698821960436, "loss": 0.8446, "step": 1934 }, { "epoch": 0.043, "grad_norm": 1.3503941297531128, "learning_rate": 0.0001914425427872861, "loss": 2.1603, "step": 1935 }, { "epoch": 0.043022222222222226, "grad_norm": 1.2673624753952026, "learning_rate": 0.00019143809735496778, "loss": 2.2836, "step": 1936 }, { "epoch": 0.04304444444444445, "grad_norm": 1.2485898733139038, "learning_rate": 0.00019143365192264949, "loss": 1.973, "step": 1937 }, { "epoch": 0.04306666666666667, "grad_norm": 1.2386231422424316, "learning_rate": 0.0001914292064903312, "loss": 2.2743, "step": 1938 }, { "epoch": 0.04308888888888889, "grad_norm": 1.2765767574310303, "learning_rate": 0.0001914247610580129, "loss": 1.9542, "step": 1939 }, { "epoch": 0.043111111111111114, "grad_norm": 1.3189082145690918, "learning_rate": 0.00019142031562569461, "loss": 2.005, "step": 1940 }, { "epoch": 0.043133333333333336, "grad_norm": 1.1719998121261597, "learning_rate": 0.00019141587019337632, "loss": 1.6759, "step": 1941 }, { "epoch": 0.04315555555555556, "grad_norm": 1.3698196411132812, "learning_rate": 0.00019141142476105803, "loss": 2.3095, "step": 1942 }, { "epoch": 0.04317777777777778, "grad_norm": 1.6985986232757568, "learning_rate": 0.00019140697932873972, "loss": 1.8207, "step": 1943 }, { "epoch": 0.0432, "grad_norm": 1.4392225742340088, "learning_rate": 0.00019140253389642145, "loss": 2.0524, "step": 1944 }, { "epoch": 0.043222222222222224, "grad_norm": 1.4467380046844482, "learning_rate": 0.00019139808846410313, "loss": 2.2741, "step": 1945 }, { "epoch": 0.043244444444444446, "grad_norm": 1.2616316080093384, "learning_rate": 0.00019139364303178484, "loss": 2.1121, "step": 1946 }, { "epoch": 0.04326666666666667, "grad_norm": 1.4060750007629395, "learning_rate": 0.00019138919759946655, "loss": 1.3509, "step": 1947 }, { "epoch": 0.04328888888888889, "grad_norm": 1.632578730583191, "learning_rate": 0.00019138475216714826, "loss": 1.7544, "step": 1948 }, { "epoch": 0.04331111111111111, "grad_norm": 1.547832727432251, "learning_rate": 0.00019138030673482997, "loss": 1.671, "step": 1949 }, { "epoch": 0.043333333333333335, "grad_norm": 1.5339981317520142, "learning_rate": 0.00019137586130251168, "loss": 0.7453, "step": 1950 }, { "epoch": 0.04335555555555556, "grad_norm": 1.1269524097442627, "learning_rate": 0.0001913714158701934, "loss": 2.4914, "step": 1951 }, { "epoch": 0.04337777777777778, "grad_norm": 0.9670594334602356, "learning_rate": 0.00019136697043787508, "loss": 2.0237, "step": 1952 }, { "epoch": 0.0434, "grad_norm": 1.0013749599456787, "learning_rate": 0.0001913625250055568, "loss": 2.1902, "step": 1953 }, { "epoch": 0.04342222222222222, "grad_norm": 0.9302488565444946, "learning_rate": 0.0001913580795732385, "loss": 0.0561, "step": 1954 }, { "epoch": 0.043444444444444445, "grad_norm": 1.3020941019058228, "learning_rate": 0.00019135363414092023, "loss": 2.0093, "step": 1955 }, { "epoch": 0.04346666666666667, "grad_norm": 1.2969642877578735, "learning_rate": 0.00019134918870860191, "loss": 2.6568, "step": 1956 }, { "epoch": 0.04348888888888889, "grad_norm": 1.1942919492721558, "learning_rate": 0.00019134474327628362, "loss": 2.7805, "step": 1957 }, { "epoch": 0.04351111111111111, "grad_norm": 1.395605206489563, "learning_rate": 0.00019134029784396533, "loss": 2.2032, "step": 1958 }, { "epoch": 0.043533333333333334, "grad_norm": 1.089299201965332, "learning_rate": 0.00019133585241164704, "loss": 2.3004, "step": 1959 }, { "epoch": 0.043555555555555556, "grad_norm": 1.1255239248275757, "learning_rate": 0.00019133140697932875, "loss": 1.267, "step": 1960 }, { "epoch": 0.04357777777777778, "grad_norm": 1.1029146909713745, "learning_rate": 0.00019132696154701046, "loss": 1.8903, "step": 1961 }, { "epoch": 0.0436, "grad_norm": 1.4411638975143433, "learning_rate": 0.00019132251611469217, "loss": 2.3138, "step": 1962 }, { "epoch": 0.04362222222222222, "grad_norm": 1.036385416984558, "learning_rate": 0.00019131807068237385, "loss": 2.1527, "step": 1963 }, { "epoch": 0.043644444444444444, "grad_norm": 1.1047844886779785, "learning_rate": 0.0001913136252500556, "loss": 2.4258, "step": 1964 }, { "epoch": 0.043666666666666666, "grad_norm": 1.3916735649108887, "learning_rate": 0.00019130917981773727, "loss": 1.8861, "step": 1965 }, { "epoch": 0.04368888888888889, "grad_norm": 1.0504308938980103, "learning_rate": 0.00019130473438541898, "loss": 1.9441, "step": 1966 }, { "epoch": 0.04371111111111111, "grad_norm": 1.0184171199798584, "learning_rate": 0.0001913002889531007, "loss": 1.4679, "step": 1967 }, { "epoch": 0.04373333333333333, "grad_norm": 1.156490683555603, "learning_rate": 0.0001912958435207824, "loss": 1.7375, "step": 1968 }, { "epoch": 0.043755555555555554, "grad_norm": 1.1118831634521484, "learning_rate": 0.0001912913980884641, "loss": 2.0988, "step": 1969 }, { "epoch": 0.04377777777777778, "grad_norm": 1.3156795501708984, "learning_rate": 0.00019128695265614582, "loss": 2.2782, "step": 1970 }, { "epoch": 0.0438, "grad_norm": 1.2438026666641235, "learning_rate": 0.00019128250722382753, "loss": 2.2393, "step": 1971 }, { "epoch": 0.04382222222222222, "grad_norm": 1.1352112293243408, "learning_rate": 0.00019127806179150924, "loss": 1.9712, "step": 1972 }, { "epoch": 0.04384444444444444, "grad_norm": 1.2578608989715576, "learning_rate": 0.00019127361635919095, "loss": 1.9257, "step": 1973 }, { "epoch": 0.043866666666666665, "grad_norm": 1.28665292263031, "learning_rate": 0.00019126917092687263, "loss": 2.2718, "step": 1974 }, { "epoch": 0.04388888888888889, "grad_norm": 1.2211873531341553, "learning_rate": 0.00019126472549455437, "loss": 1.4196, "step": 1975 }, { "epoch": 0.04391111111111111, "grad_norm": 0.8537003993988037, "learning_rate": 0.00019126028006223605, "loss": 1.1943, "step": 1976 }, { "epoch": 0.04393333333333333, "grad_norm": 1.29036283493042, "learning_rate": 0.00019125583462991776, "loss": 2.3325, "step": 1977 }, { "epoch": 0.04395555555555555, "grad_norm": 1.3858702182769775, "learning_rate": 0.00019125138919759947, "loss": 2.1372, "step": 1978 }, { "epoch": 0.043977777777777775, "grad_norm": 1.198378324508667, "learning_rate": 0.00019124694376528118, "loss": 1.8914, "step": 1979 }, { "epoch": 0.044, "grad_norm": 1.4767128229141235, "learning_rate": 0.0001912424983329629, "loss": 2.2288, "step": 1980 }, { "epoch": 0.04402222222222222, "grad_norm": 1.3688275814056396, "learning_rate": 0.0001912380529006446, "loss": 2.3921, "step": 1981 }, { "epoch": 0.04404444444444444, "grad_norm": 1.4493945837020874, "learning_rate": 0.0001912336074683263, "loss": 2.1145, "step": 1982 }, { "epoch": 0.044066666666666664, "grad_norm": 1.1819411516189575, "learning_rate": 0.000191229162036008, "loss": 2.0534, "step": 1983 }, { "epoch": 0.044088888888888886, "grad_norm": 1.3783243894577026, "learning_rate": 0.00019122471660368973, "loss": 2.0948, "step": 1984 }, { "epoch": 0.04411111111111111, "grad_norm": 1.2227838039398193, "learning_rate": 0.0001912202711713714, "loss": 1.8041, "step": 1985 }, { "epoch": 0.04413333333333333, "grad_norm": 1.240958571434021, "learning_rate": 0.00019121582573905312, "loss": 2.1281, "step": 1986 }, { "epoch": 0.04415555555555556, "grad_norm": 1.241132378578186, "learning_rate": 0.00019121138030673486, "loss": 1.5316, "step": 1987 }, { "epoch": 0.04417777777777778, "grad_norm": 1.322931170463562, "learning_rate": 0.00019120693487441654, "loss": 1.7657, "step": 1988 }, { "epoch": 0.0442, "grad_norm": 1.4412667751312256, "learning_rate": 0.00019120248944209825, "loss": 1.9451, "step": 1989 }, { "epoch": 0.044222222222222225, "grad_norm": 1.4083698987960815, "learning_rate": 0.00019119804400977996, "loss": 2.0041, "step": 1990 }, { "epoch": 0.04424444444444445, "grad_norm": 1.2746927738189697, "learning_rate": 0.00019119359857746167, "loss": 1.8777, "step": 1991 }, { "epoch": 0.04426666666666667, "grad_norm": 1.3022764921188354, "learning_rate": 0.00019118915314514338, "loss": 1.8062, "step": 1992 }, { "epoch": 0.04428888888888889, "grad_norm": 1.1984270811080933, "learning_rate": 0.0001911847077128251, "loss": 1.7355, "step": 1993 }, { "epoch": 0.044311111111111114, "grad_norm": 1.4208557605743408, "learning_rate": 0.00019118026228050677, "loss": 1.7095, "step": 1994 }, { "epoch": 0.044333333333333336, "grad_norm": 1.6517865657806396, "learning_rate": 0.0001911758168481885, "loss": 1.9629, "step": 1995 }, { "epoch": 0.04435555555555556, "grad_norm": 1.5286154747009277, "learning_rate": 0.00019117137141587022, "loss": 2.1979, "step": 1996 }, { "epoch": 0.04437777777777778, "grad_norm": 1.7356926202774048, "learning_rate": 0.0001911669259835519, "loss": 0.1054, "step": 1997 }, { "epoch": 0.0444, "grad_norm": 1.2469139099121094, "learning_rate": 0.00019116248055123364, "loss": 1.1958, "step": 1998 }, { "epoch": 0.044422222222222224, "grad_norm": 1.6873579025268555, "learning_rate": 0.00019115803511891532, "loss": 1.839, "step": 1999 }, { "epoch": 0.044444444444444446, "grad_norm": 1.4254117012023926, "learning_rate": 0.00019115358968659703, "loss": 1.5337, "step": 2000 }, { "epoch": 0.04446666666666667, "grad_norm": 1.0838704109191895, "learning_rate": 0.00019114914425427874, "loss": 1.106, "step": 2001 }, { "epoch": 0.04448888888888889, "grad_norm": 0.7966216206550598, "learning_rate": 0.00019114469882196045, "loss": 1.2112, "step": 2002 }, { "epoch": 0.04451111111111111, "grad_norm": 1.0265352725982666, "learning_rate": 0.00019114025338964213, "loss": 2.415, "step": 2003 }, { "epoch": 0.044533333333333334, "grad_norm": 1.2135584354400635, "learning_rate": 0.00019113580795732387, "loss": 2.7277, "step": 2004 }, { "epoch": 0.04455555555555556, "grad_norm": 1.117538332939148, "learning_rate": 0.00019113136252500558, "loss": 2.5271, "step": 2005 }, { "epoch": 0.04457777777777778, "grad_norm": 1.1192454099655151, "learning_rate": 0.00019112691709268726, "loss": 2.2969, "step": 2006 }, { "epoch": 0.0446, "grad_norm": 1.1067897081375122, "learning_rate": 0.000191122471660369, "loss": 2.2771, "step": 2007 }, { "epoch": 0.04462222222222222, "grad_norm": 1.0281237363815308, "learning_rate": 0.00019111802622805068, "loss": 2.0571, "step": 2008 }, { "epoch": 0.044644444444444445, "grad_norm": 1.2204391956329346, "learning_rate": 0.0001911135807957324, "loss": 2.255, "step": 2009 }, { "epoch": 0.04466666666666667, "grad_norm": 1.030470609664917, "learning_rate": 0.0001911091353634141, "loss": 1.4896, "step": 2010 }, { "epoch": 0.04468888888888889, "grad_norm": 1.093339204788208, "learning_rate": 0.0001911046899310958, "loss": 1.9308, "step": 2011 }, { "epoch": 0.04471111111111111, "grad_norm": 1.2781885862350464, "learning_rate": 0.00019110024449877752, "loss": 2.6854, "step": 2012 }, { "epoch": 0.04473333333333333, "grad_norm": 1.1154255867004395, "learning_rate": 0.00019109579906645923, "loss": 1.9294, "step": 2013 }, { "epoch": 0.044755555555555555, "grad_norm": 1.0550360679626465, "learning_rate": 0.00019109135363414094, "loss": 1.9543, "step": 2014 }, { "epoch": 0.04477777777777778, "grad_norm": 1.0893977880477905, "learning_rate": 0.00019108690820182265, "loss": 1.8128, "step": 2015 }, { "epoch": 0.0448, "grad_norm": 1.181086540222168, "learning_rate": 0.00019108246276950436, "loss": 1.7576, "step": 2016 }, { "epoch": 0.04482222222222222, "grad_norm": 1.1394709348678589, "learning_rate": 0.00019107801733718604, "loss": 2.2219, "step": 2017 }, { "epoch": 0.044844444444444444, "grad_norm": 1.3633637428283691, "learning_rate": 0.00019107357190486777, "loss": 0.7607, "step": 2018 }, { "epoch": 0.044866666666666666, "grad_norm": 1.1842632293701172, "learning_rate": 0.00019106912647254946, "loss": 2.5356, "step": 2019 }, { "epoch": 0.04488888888888889, "grad_norm": 1.2533390522003174, "learning_rate": 0.00019106468104023117, "loss": 1.867, "step": 2020 }, { "epoch": 0.04491111111111111, "grad_norm": 1.0170044898986816, "learning_rate": 0.00019106023560791288, "loss": 1.7942, "step": 2021 }, { "epoch": 0.04493333333333333, "grad_norm": 1.183278203010559, "learning_rate": 0.00019105579017559459, "loss": 2.045, "step": 2022 }, { "epoch": 0.044955555555555554, "grad_norm": 1.187788963317871, "learning_rate": 0.0001910513447432763, "loss": 1.8856, "step": 2023 }, { "epoch": 0.044977777777777776, "grad_norm": 1.1496013402938843, "learning_rate": 0.000191046899310958, "loss": 2.0814, "step": 2024 }, { "epoch": 0.045, "grad_norm": 1.2607262134552002, "learning_rate": 0.00019104245387863971, "loss": 2.246, "step": 2025 }, { "epoch": 0.04502222222222222, "grad_norm": 1.063953161239624, "learning_rate": 0.0001910380084463214, "loss": 1.874, "step": 2026 }, { "epoch": 0.04504444444444444, "grad_norm": 1.1491808891296387, "learning_rate": 0.00019103356301400313, "loss": 2.1215, "step": 2027 }, { "epoch": 0.045066666666666665, "grad_norm": 1.3369731903076172, "learning_rate": 0.00019102911758168482, "loss": 2.0328, "step": 2028 }, { "epoch": 0.04508888888888889, "grad_norm": 1.2467083930969238, "learning_rate": 0.00019102467214936655, "loss": 1.9431, "step": 2029 }, { "epoch": 0.04511111111111111, "grad_norm": 1.3760888576507568, "learning_rate": 0.00019102022671704824, "loss": 2.2211, "step": 2030 }, { "epoch": 0.04513333333333333, "grad_norm": 1.152650237083435, "learning_rate": 0.00019101578128472995, "loss": 2.0473, "step": 2031 }, { "epoch": 0.04515555555555555, "grad_norm": 1.8000417947769165, "learning_rate": 0.00019101133585241165, "loss": 1.0655, "step": 2032 }, { "epoch": 0.045177777777777775, "grad_norm": 1.390941858291626, "learning_rate": 0.00019100689042009336, "loss": 2.0624, "step": 2033 }, { "epoch": 0.0452, "grad_norm": 1.2860257625579834, "learning_rate": 0.00019100244498777507, "loss": 2.0774, "step": 2034 }, { "epoch": 0.04522222222222222, "grad_norm": 1.1774852275848389, "learning_rate": 0.00019099799955545678, "loss": 1.8678, "step": 2035 }, { "epoch": 0.04524444444444444, "grad_norm": 1.122209906578064, "learning_rate": 0.0001909935541231385, "loss": 1.7027, "step": 2036 }, { "epoch": 0.04526666666666666, "grad_norm": 1.410127878189087, "learning_rate": 0.00019098910869082018, "loss": 1.893, "step": 2037 }, { "epoch": 0.045288888888888885, "grad_norm": 1.2421706914901733, "learning_rate": 0.0001909846632585019, "loss": 1.9216, "step": 2038 }, { "epoch": 0.045311111111111115, "grad_norm": 1.2033071517944336, "learning_rate": 0.0001909802178261836, "loss": 1.7059, "step": 2039 }, { "epoch": 0.04533333333333334, "grad_norm": 1.1801608800888062, "learning_rate": 0.0001909757723938653, "loss": 1.8569, "step": 2040 }, { "epoch": 0.04535555555555556, "grad_norm": 1.1812193393707275, "learning_rate": 0.00019097132696154701, "loss": 1.6449, "step": 2041 }, { "epoch": 0.04537777777777778, "grad_norm": 1.3143105506896973, "learning_rate": 0.00019096688152922872, "loss": 2.0052, "step": 2042 }, { "epoch": 0.0454, "grad_norm": 1.5356136560440063, "learning_rate": 0.00019096243609691043, "loss": 1.9767, "step": 2043 }, { "epoch": 0.045422222222222225, "grad_norm": 1.32579505443573, "learning_rate": 0.00019095799066459214, "loss": 2.267, "step": 2044 }, { "epoch": 0.04544444444444445, "grad_norm": 1.5171310901641846, "learning_rate": 0.00019095354523227385, "loss": 2.0841, "step": 2045 }, { "epoch": 0.04546666666666667, "grad_norm": 1.3797420263290405, "learning_rate": 0.00019094909979995554, "loss": 2.0436, "step": 2046 }, { "epoch": 0.04548888888888889, "grad_norm": 1.2719680070877075, "learning_rate": 0.00019094465436763727, "loss": 2.1284, "step": 2047 }, { "epoch": 0.04551111111111111, "grad_norm": 1.4168221950531006, "learning_rate": 0.00019094020893531895, "loss": 2.1104, "step": 2048 }, { "epoch": 0.045533333333333335, "grad_norm": 1.7456079721450806, "learning_rate": 0.0001909357635030007, "loss": 2.0084, "step": 2049 }, { "epoch": 0.04555555555555556, "grad_norm": 1.3407574892044067, "learning_rate": 0.00019093131807068237, "loss": 1.985, "step": 2050 }, { "epoch": 0.04557777777777778, "grad_norm": 1.072956919670105, "learning_rate": 0.00019092687263836408, "loss": 2.4159, "step": 2051 }, { "epoch": 0.0456, "grad_norm": 1.1648443937301636, "learning_rate": 0.0001909224272060458, "loss": 2.5451, "step": 2052 }, { "epoch": 0.045622222222222224, "grad_norm": 1.623420238494873, "learning_rate": 0.0001909179817737275, "loss": 0.0626, "step": 2053 }, { "epoch": 0.045644444444444446, "grad_norm": 0.9642564654350281, "learning_rate": 0.0001909135363414092, "loss": 2.3418, "step": 2054 }, { "epoch": 0.04566666666666667, "grad_norm": 0.9753633737564087, "learning_rate": 0.00019090909090909092, "loss": 2.2821, "step": 2055 }, { "epoch": 0.04568888888888889, "grad_norm": 0.9865321516990662, "learning_rate": 0.00019090464547677263, "loss": 2.3462, "step": 2056 }, { "epoch": 0.04571111111111111, "grad_norm": 1.3280198574066162, "learning_rate": 0.00019090020004445431, "loss": 2.3088, "step": 2057 }, { "epoch": 0.045733333333333334, "grad_norm": 1.1947888135910034, "learning_rate": 0.00019089575461213605, "loss": 2.1233, "step": 2058 }, { "epoch": 0.045755555555555556, "grad_norm": 1.1185452938079834, "learning_rate": 0.00019089130917981773, "loss": 2.2391, "step": 2059 }, { "epoch": 0.04577777777777778, "grad_norm": 1.1187952756881714, "learning_rate": 0.00019088686374749944, "loss": 2.3674, "step": 2060 }, { "epoch": 0.0458, "grad_norm": 1.0084055662155151, "learning_rate": 0.00019088241831518118, "loss": 1.6806, "step": 2061 }, { "epoch": 0.04582222222222222, "grad_norm": 1.1166616678237915, "learning_rate": 0.00019087797288286286, "loss": 1.7277, "step": 2062 }, { "epoch": 0.045844444444444445, "grad_norm": 1.1746793985366821, "learning_rate": 0.00019087352745054457, "loss": 2.3354, "step": 2063 }, { "epoch": 0.04586666666666667, "grad_norm": 1.0783172845840454, "learning_rate": 0.00019086908201822628, "loss": 2.0111, "step": 2064 }, { "epoch": 0.04588888888888889, "grad_norm": 1.250605583190918, "learning_rate": 0.000190864636585908, "loss": 2.3621, "step": 2065 }, { "epoch": 0.04591111111111111, "grad_norm": 1.1433264017105103, "learning_rate": 0.00019086019115358967, "loss": 2.1009, "step": 2066 }, { "epoch": 0.04593333333333333, "grad_norm": 1.0566843748092651, "learning_rate": 0.0001908557457212714, "loss": 1.4429, "step": 2067 }, { "epoch": 0.045955555555555555, "grad_norm": 1.267156720161438, "learning_rate": 0.0001908513002889531, "loss": 2.0563, "step": 2068 }, { "epoch": 0.04597777777777778, "grad_norm": 1.165600299835205, "learning_rate": 0.00019084685485663483, "loss": 2.003, "step": 2069 }, { "epoch": 0.046, "grad_norm": 1.1861345767974854, "learning_rate": 0.00019084240942431654, "loss": 1.8116, "step": 2070 }, { "epoch": 0.04602222222222222, "grad_norm": 1.1564280986785889, "learning_rate": 0.00019083796399199822, "loss": 2.3152, "step": 2071 }, { "epoch": 0.04604444444444444, "grad_norm": 1.4923527240753174, "learning_rate": 0.00019083351855967996, "loss": 1.2269, "step": 2072 }, { "epoch": 0.046066666666666665, "grad_norm": 1.4147422313690186, "learning_rate": 0.00019082907312736164, "loss": 2.9776, "step": 2073 }, { "epoch": 0.04608888888888889, "grad_norm": 1.1333788633346558, "learning_rate": 0.00019082462769504335, "loss": 1.9991, "step": 2074 }, { "epoch": 0.04611111111111111, "grad_norm": 1.23317289352417, "learning_rate": 0.00019082018226272506, "loss": 2.314, "step": 2075 }, { "epoch": 0.04613333333333333, "grad_norm": 1.3660361766815186, "learning_rate": 0.00019081573683040677, "loss": 2.0035, "step": 2076 }, { "epoch": 0.046155555555555554, "grad_norm": 1.224594235420227, "learning_rate": 0.00019081129139808845, "loss": 2.8309, "step": 2077 }, { "epoch": 0.046177777777777776, "grad_norm": 1.1179392337799072, "learning_rate": 0.0001908068459657702, "loss": 2.2855, "step": 2078 }, { "epoch": 0.0462, "grad_norm": 1.2921150922775269, "learning_rate": 0.0001908024005334519, "loss": 2.5331, "step": 2079 }, { "epoch": 0.04622222222222222, "grad_norm": 1.1048730611801147, "learning_rate": 0.00019079795510113358, "loss": 1.9631, "step": 2080 }, { "epoch": 0.04624444444444444, "grad_norm": 1.2944539785385132, "learning_rate": 0.00019079350966881532, "loss": 2.3925, "step": 2081 }, { "epoch": 0.046266666666666664, "grad_norm": 1.1384243965148926, "learning_rate": 0.000190789064236497, "loss": 1.9401, "step": 2082 }, { "epoch": 0.046288888888888886, "grad_norm": 1.2576638460159302, "learning_rate": 0.0001907846188041787, "loss": 2.0843, "step": 2083 }, { "epoch": 0.04631111111111111, "grad_norm": 1.1739925146102905, "learning_rate": 0.00019078017337186042, "loss": 1.9975, "step": 2084 }, { "epoch": 0.04633333333333333, "grad_norm": 1.2365814447402954, "learning_rate": 0.00019077572793954213, "loss": 1.7943, "step": 2085 }, { "epoch": 0.04635555555555555, "grad_norm": 1.1880892515182495, "learning_rate": 0.00019077128250722384, "loss": 1.9764, "step": 2086 }, { "epoch": 0.046377777777777775, "grad_norm": 1.3355467319488525, "learning_rate": 0.00019076683707490555, "loss": 1.8566, "step": 2087 }, { "epoch": 0.0464, "grad_norm": 1.2710083723068237, "learning_rate": 0.00019076239164258726, "loss": 2.1024, "step": 2088 }, { "epoch": 0.04642222222222222, "grad_norm": 1.2641454935073853, "learning_rate": 0.00019075794621026897, "loss": 2.1059, "step": 2089 }, { "epoch": 0.04644444444444444, "grad_norm": 0.8848752975463867, "learning_rate": 0.00019075350077795068, "loss": 0.0567, "step": 2090 }, { "epoch": 0.04646666666666667, "grad_norm": 1.2439645528793335, "learning_rate": 0.00019074905534563236, "loss": 2.1156, "step": 2091 }, { "epoch": 0.04648888888888889, "grad_norm": 1.2400275468826294, "learning_rate": 0.0001907446099133141, "loss": 1.8364, "step": 2092 }, { "epoch": 0.046511111111111114, "grad_norm": 1.0821958780288696, "learning_rate": 0.00019074016448099578, "loss": 1.1447, "step": 2093 }, { "epoch": 0.046533333333333336, "grad_norm": 1.4247181415557861, "learning_rate": 0.0001907357190486775, "loss": 2.2779, "step": 2094 }, { "epoch": 0.04655555555555556, "grad_norm": 1.7097673416137695, "learning_rate": 0.0001907312736163592, "loss": 2.0062, "step": 2095 }, { "epoch": 0.04657777777777778, "grad_norm": 1.294437050819397, "learning_rate": 0.0001907268281840409, "loss": 2.075, "step": 2096 }, { "epoch": 0.0466, "grad_norm": 1.3077166080474854, "learning_rate": 0.00019072238275172262, "loss": 2.0455, "step": 2097 }, { "epoch": 0.046622222222222225, "grad_norm": 1.5202935934066772, "learning_rate": 0.00019071793731940433, "loss": 2.1239, "step": 2098 }, { "epoch": 0.04664444444444445, "grad_norm": 1.3648747205734253, "learning_rate": 0.00019071349188708604, "loss": 1.9094, "step": 2099 }, { "epoch": 0.04666666666666667, "grad_norm": 1.1727713346481323, "learning_rate": 0.00019070904645476772, "loss": 0.6035, "step": 2100 }, { "epoch": 0.04668888888888889, "grad_norm": 1.0592330694198608, "learning_rate": 0.00019070460102244946, "loss": 2.3043, "step": 2101 }, { "epoch": 0.04671111111111111, "grad_norm": 1.4692808389663696, "learning_rate": 0.00019070015559013114, "loss": 0.0774, "step": 2102 }, { "epoch": 0.046733333333333335, "grad_norm": 1.0427197217941284, "learning_rate": 0.00019069571015781285, "loss": 2.4598, "step": 2103 }, { "epoch": 0.04675555555555556, "grad_norm": 0.9507056474685669, "learning_rate": 0.00019069126472549456, "loss": 2.253, "step": 2104 }, { "epoch": 0.04677777777777778, "grad_norm": 1.0771783590316772, "learning_rate": 0.00019068681929317627, "loss": 2.4605, "step": 2105 }, { "epoch": 0.0468, "grad_norm": 1.118393898010254, "learning_rate": 0.00019068237386085798, "loss": 2.2336, "step": 2106 }, { "epoch": 0.04682222222222222, "grad_norm": 1.0407181978225708, "learning_rate": 0.0001906779284285397, "loss": 2.7806, "step": 2107 }, { "epoch": 0.046844444444444445, "grad_norm": 1.0747175216674805, "learning_rate": 0.0001906734829962214, "loss": 2.3764, "step": 2108 }, { "epoch": 0.04686666666666667, "grad_norm": 1.0551825761795044, "learning_rate": 0.0001906690375639031, "loss": 2.3002, "step": 2109 }, { "epoch": 0.04688888888888889, "grad_norm": 0.9646710157394409, "learning_rate": 0.00019066459213158482, "loss": 0.9172, "step": 2110 }, { "epoch": 0.04691111111111111, "grad_norm": 1.11587393283844, "learning_rate": 0.0001906601466992665, "loss": 2.1653, "step": 2111 }, { "epoch": 0.046933333333333334, "grad_norm": 1.0653938055038452, "learning_rate": 0.00019065570126694823, "loss": 2.3112, "step": 2112 }, { "epoch": 0.046955555555555556, "grad_norm": 1.295440912246704, "learning_rate": 0.00019065125583462992, "loss": 2.3961, "step": 2113 }, { "epoch": 0.04697777777777778, "grad_norm": 1.1522328853607178, "learning_rate": 0.00019064681040231163, "loss": 2.315, "step": 2114 }, { "epoch": 0.047, "grad_norm": 1.2604814767837524, "learning_rate": 0.00019064236496999334, "loss": 2.3902, "step": 2115 }, { "epoch": 0.04702222222222222, "grad_norm": 1.2390669584274292, "learning_rate": 0.00019063791953767505, "loss": 2.076, "step": 2116 }, { "epoch": 0.047044444444444444, "grad_norm": 1.0419986248016357, "learning_rate": 0.00019063347410535676, "loss": 2.1553, "step": 2117 }, { "epoch": 0.047066666666666666, "grad_norm": 1.4347931146621704, "learning_rate": 0.00019062902867303847, "loss": 2.3195, "step": 2118 }, { "epoch": 0.04708888888888889, "grad_norm": 0.8490489721298218, "learning_rate": 0.00019062458324072017, "loss": 0.7223, "step": 2119 }, { "epoch": 0.04711111111111111, "grad_norm": 1.05935537815094, "learning_rate": 0.00019062013780840186, "loss": 1.9971, "step": 2120 }, { "epoch": 0.04713333333333333, "grad_norm": 1.193286657333374, "learning_rate": 0.0001906156923760836, "loss": 2.0918, "step": 2121 }, { "epoch": 0.047155555555555555, "grad_norm": 1.3203314542770386, "learning_rate": 0.00019061124694376528, "loss": 2.3659, "step": 2122 }, { "epoch": 0.04717777777777778, "grad_norm": 1.1700646877288818, "learning_rate": 0.00019060680151144699, "loss": 1.9754, "step": 2123 }, { "epoch": 0.0472, "grad_norm": 1.1315226554870605, "learning_rate": 0.0001906023560791287, "loss": 2.2132, "step": 2124 }, { "epoch": 0.04722222222222222, "grad_norm": 1.391614317893982, "learning_rate": 0.0001905979106468104, "loss": 2.4032, "step": 2125 }, { "epoch": 0.04724444444444444, "grad_norm": 1.2647062540054321, "learning_rate": 0.00019059346521449212, "loss": 2.3213, "step": 2126 }, { "epoch": 0.047266666666666665, "grad_norm": 1.7268121242523193, "learning_rate": 0.00019058901978217382, "loss": 2.4066, "step": 2127 }, { "epoch": 0.04728888888888889, "grad_norm": 1.2878731489181519, "learning_rate": 0.00019058457434985553, "loss": 2.2262, "step": 2128 }, { "epoch": 0.04731111111111111, "grad_norm": 1.2903292179107666, "learning_rate": 0.00019058012891753724, "loss": 1.6896, "step": 2129 }, { "epoch": 0.04733333333333333, "grad_norm": 1.0576634407043457, "learning_rate": 0.00019057568348521895, "loss": 1.1286, "step": 2130 }, { "epoch": 0.047355555555555554, "grad_norm": 1.6381458044052124, "learning_rate": 0.00019057123805290064, "loss": 1.8195, "step": 2131 }, { "epoch": 0.047377777777777776, "grad_norm": 1.3932732343673706, "learning_rate": 0.00019056679262058237, "loss": 2.1326, "step": 2132 }, { "epoch": 0.0474, "grad_norm": 1.4780395030975342, "learning_rate": 0.00019056234718826406, "loss": 1.8217, "step": 2133 }, { "epoch": 0.04742222222222222, "grad_norm": 1.263351559638977, "learning_rate": 0.00019055790175594576, "loss": 1.9574, "step": 2134 }, { "epoch": 0.04744444444444444, "grad_norm": 1.241752028465271, "learning_rate": 0.0001905534563236275, "loss": 1.987, "step": 2135 }, { "epoch": 0.047466666666666664, "grad_norm": 1.1108345985412598, "learning_rate": 0.00019054901089130918, "loss": 1.7884, "step": 2136 }, { "epoch": 0.047488888888888886, "grad_norm": 1.3020201921463013, "learning_rate": 0.0001905445654589909, "loss": 1.625, "step": 2137 }, { "epoch": 0.04751111111111111, "grad_norm": 1.0572000741958618, "learning_rate": 0.0001905401200266726, "loss": 1.5847, "step": 2138 }, { "epoch": 0.04753333333333333, "grad_norm": 1.4975395202636719, "learning_rate": 0.0001905356745943543, "loss": 2.4322, "step": 2139 }, { "epoch": 0.04755555555555555, "grad_norm": 1.4509907960891724, "learning_rate": 0.000190531229162036, "loss": 2.0507, "step": 2140 }, { "epoch": 0.047577777777777774, "grad_norm": 1.9150265455245972, "learning_rate": 0.00019052678372971773, "loss": 1.9737, "step": 2141 }, { "epoch": 0.0476, "grad_norm": 1.4166738986968994, "learning_rate": 0.00019052233829739941, "loss": 1.8219, "step": 2142 }, { "epoch": 0.047622222222222226, "grad_norm": 1.3880231380462646, "learning_rate": 0.00019051789286508115, "loss": 1.8047, "step": 2143 }, { "epoch": 0.04764444444444445, "grad_norm": 1.6355503797531128, "learning_rate": 0.00019051344743276286, "loss": 2.1546, "step": 2144 }, { "epoch": 0.04766666666666667, "grad_norm": 1.199230670928955, "learning_rate": 0.00019050900200044454, "loss": 1.6743, "step": 2145 }, { "epoch": 0.04768888888888889, "grad_norm": 1.1767323017120361, "learning_rate": 0.00019050455656812628, "loss": 1.5314, "step": 2146 }, { "epoch": 0.047711111111111114, "grad_norm": 1.4286943674087524, "learning_rate": 0.00019050011113580796, "loss": 2.0015, "step": 2147 }, { "epoch": 0.047733333333333336, "grad_norm": 1.2978568077087402, "learning_rate": 0.00019049566570348967, "loss": 1.8082, "step": 2148 }, { "epoch": 0.04775555555555556, "grad_norm": 1.5738790035247803, "learning_rate": 0.00019049122027117138, "loss": 1.7127, "step": 2149 }, { "epoch": 0.04777777777777778, "grad_norm": 1.3680119514465332, "learning_rate": 0.0001904867748388531, "loss": 1.7397, "step": 2150 }, { "epoch": 0.0478, "grad_norm": 0.9539645910263062, "learning_rate": 0.00019048232940653477, "loss": 2.3155, "step": 2151 }, { "epoch": 0.047822222222222224, "grad_norm": 1.417159914970398, "learning_rate": 0.0001904778839742165, "loss": 1.0597, "step": 2152 }, { "epoch": 0.047844444444444446, "grad_norm": 0.9663378596305847, "learning_rate": 0.00019047343854189822, "loss": 2.2059, "step": 2153 }, { "epoch": 0.04786666666666667, "grad_norm": 1.683668851852417, "learning_rate": 0.0001904689931095799, "loss": 1.9764, "step": 2154 }, { "epoch": 0.04788888888888889, "grad_norm": 1.0001846551895142, "learning_rate": 0.00019046454767726164, "loss": 2.107, "step": 2155 }, { "epoch": 0.04791111111111111, "grad_norm": 1.2340439558029175, "learning_rate": 0.00019046010224494332, "loss": 2.2413, "step": 2156 }, { "epoch": 0.047933333333333335, "grad_norm": 1.0808637142181396, "learning_rate": 0.00019045565681262503, "loss": 1.9932, "step": 2157 }, { "epoch": 0.04795555555555556, "grad_norm": 1.0250990390777588, "learning_rate": 0.00019045121138030674, "loss": 2.1214, "step": 2158 }, { "epoch": 0.04797777777777778, "grad_norm": 1.1706652641296387, "learning_rate": 0.00019044676594798845, "loss": 1.9382, "step": 2159 }, { "epoch": 0.048, "grad_norm": 1.2695238590240479, "learning_rate": 0.00019044232051567013, "loss": 2.2234, "step": 2160 }, { "epoch": 0.04802222222222222, "grad_norm": 1.4212697744369507, "learning_rate": 0.00019043787508335187, "loss": 1.8555, "step": 2161 }, { "epoch": 0.048044444444444445, "grad_norm": 1.1343293190002441, "learning_rate": 0.00019043342965103358, "loss": 2.1405, "step": 2162 }, { "epoch": 0.04806666666666667, "grad_norm": 1.3218437433242798, "learning_rate": 0.0001904289842187153, "loss": 2.6169, "step": 2163 }, { "epoch": 0.04808888888888889, "grad_norm": 1.0020099878311157, "learning_rate": 0.000190424538786397, "loss": 2.0023, "step": 2164 }, { "epoch": 0.04811111111111111, "grad_norm": 1.350276231765747, "learning_rate": 0.00019042009335407868, "loss": 2.6103, "step": 2165 }, { "epoch": 0.048133333333333334, "grad_norm": 1.2699103355407715, "learning_rate": 0.00019041564792176042, "loss": 1.8697, "step": 2166 }, { "epoch": 0.048155555555555556, "grad_norm": 1.1885381937026978, "learning_rate": 0.0001904112024894421, "loss": 2.2919, "step": 2167 }, { "epoch": 0.04817777777777778, "grad_norm": 1.2810090780258179, "learning_rate": 0.0001904067570571238, "loss": 2.0597, "step": 2168 }, { "epoch": 0.0482, "grad_norm": 2.396024227142334, "learning_rate": 0.00019040231162480552, "loss": 1.4093, "step": 2169 }, { "epoch": 0.04822222222222222, "grad_norm": 1.027547001838684, "learning_rate": 0.00019039786619248723, "loss": 1.8365, "step": 2170 }, { "epoch": 0.048244444444444444, "grad_norm": 1.0564228296279907, "learning_rate": 0.00019039342076016894, "loss": 1.9258, "step": 2171 }, { "epoch": 0.048266666666666666, "grad_norm": 1.2358144521713257, "learning_rate": 0.00019038897532785065, "loss": 2.2448, "step": 2172 }, { "epoch": 0.04828888888888889, "grad_norm": 1.2327159643173218, "learning_rate": 0.00019038452989553236, "loss": 2.3958, "step": 2173 }, { "epoch": 0.04831111111111111, "grad_norm": 1.0633187294006348, "learning_rate": 0.00019038008446321404, "loss": 1.9441, "step": 2174 }, { "epoch": 0.04833333333333333, "grad_norm": 1.302017092704773, "learning_rate": 0.00019037563903089578, "loss": 1.6284, "step": 2175 }, { "epoch": 0.048355555555555554, "grad_norm": 1.05088472366333, "learning_rate": 0.00019037119359857746, "loss": 1.5891, "step": 2176 }, { "epoch": 0.048377777777777776, "grad_norm": 1.2050260305404663, "learning_rate": 0.00019036674816625917, "loss": 1.5844, "step": 2177 }, { "epoch": 0.0484, "grad_norm": 1.3763909339904785, "learning_rate": 0.00019036230273394088, "loss": 2.0295, "step": 2178 }, { "epoch": 0.04842222222222222, "grad_norm": 1.5020549297332764, "learning_rate": 0.0001903578573016226, "loss": 1.8206, "step": 2179 }, { "epoch": 0.04844444444444444, "grad_norm": 1.5366060733795166, "learning_rate": 0.0001903534118693043, "loss": 1.9703, "step": 2180 }, { "epoch": 0.048466666666666665, "grad_norm": 1.2061278820037842, "learning_rate": 0.000190348966436986, "loss": 1.9894, "step": 2181 }, { "epoch": 0.04848888888888889, "grad_norm": 1.2145047187805176, "learning_rate": 0.00019034452100466772, "loss": 1.8444, "step": 2182 }, { "epoch": 0.04851111111111111, "grad_norm": 1.2839096784591675, "learning_rate": 0.00019034007557234943, "loss": 1.9565, "step": 2183 }, { "epoch": 0.04853333333333333, "grad_norm": 1.1375908851623535, "learning_rate": 0.00019033563014003114, "loss": 1.9852, "step": 2184 }, { "epoch": 0.04855555555555555, "grad_norm": 1.331023097038269, "learning_rate": 0.00019033118470771282, "loss": 1.876, "step": 2185 }, { "epoch": 0.048577777777777775, "grad_norm": 1.1749649047851562, "learning_rate": 0.00019032673927539456, "loss": 0.9166, "step": 2186 }, { "epoch": 0.0486, "grad_norm": 1.216256856918335, "learning_rate": 0.00019032229384307624, "loss": 1.8611, "step": 2187 }, { "epoch": 0.04862222222222222, "grad_norm": 1.2460013628005981, "learning_rate": 0.00019031784841075795, "loss": 1.7576, "step": 2188 }, { "epoch": 0.04864444444444444, "grad_norm": 1.45947265625, "learning_rate": 0.00019031340297843966, "loss": 2.3157, "step": 2189 }, { "epoch": 0.048666666666666664, "grad_norm": 1.2837003469467163, "learning_rate": 0.00019030895754612137, "loss": 2.1593, "step": 2190 }, { "epoch": 0.048688888888888886, "grad_norm": 1.4052823781967163, "learning_rate": 0.00019030451211380308, "loss": 2.1313, "step": 2191 }, { "epoch": 0.04871111111111111, "grad_norm": 1.762028694152832, "learning_rate": 0.0001903000666814848, "loss": 2.0798, "step": 2192 }, { "epoch": 0.04873333333333333, "grad_norm": 1.1744486093521118, "learning_rate": 0.0001902956212491665, "loss": 1.8133, "step": 2193 }, { "epoch": 0.04875555555555556, "grad_norm": 1.1974390745162964, "learning_rate": 0.00019029117581684818, "loss": 2.1615, "step": 2194 }, { "epoch": 0.04877777777777778, "grad_norm": 1.6326253414154053, "learning_rate": 0.00019028673038452992, "loss": 1.8916, "step": 2195 }, { "epoch": 0.0488, "grad_norm": 2.239137887954712, "learning_rate": 0.0001902822849522116, "loss": 1.1461, "step": 2196 }, { "epoch": 0.048822222222222225, "grad_norm": 0.8935621380805969, "learning_rate": 0.0001902778395198933, "loss": 0.7864, "step": 2197 }, { "epoch": 0.04884444444444445, "grad_norm": 1.669737458229065, "learning_rate": 0.00019027339408757502, "loss": 2.1494, "step": 2198 }, { "epoch": 0.04886666666666667, "grad_norm": 1.5537737607955933, "learning_rate": 0.00019026894865525673, "loss": 1.9874, "step": 2199 }, { "epoch": 0.04888888888888889, "grad_norm": 1.5555442571640015, "learning_rate": 0.00019026450322293844, "loss": 1.4338, "step": 2200 }, { "epoch": 0.048911111111111114, "grad_norm": 1.1961041688919067, "learning_rate": 0.00019026005779062015, "loss": 2.144, "step": 2201 }, { "epoch": 0.048933333333333336, "grad_norm": 1.071886658668518, "learning_rate": 0.00019025561235830186, "loss": 2.2126, "step": 2202 }, { "epoch": 0.04895555555555556, "grad_norm": 1.0875595808029175, "learning_rate": 0.00019025116692598357, "loss": 2.3797, "step": 2203 }, { "epoch": 0.04897777777777778, "grad_norm": 1.0179904699325562, "learning_rate": 0.00019024672149366528, "loss": 1.3905, "step": 2204 }, { "epoch": 0.049, "grad_norm": 1.1108838319778442, "learning_rate": 0.00019024227606134696, "loss": 2.5139, "step": 2205 }, { "epoch": 0.049022222222222224, "grad_norm": 1.3807833194732666, "learning_rate": 0.0001902378306290287, "loss": 2.2536, "step": 2206 }, { "epoch": 0.049044444444444446, "grad_norm": 0.9900107383728027, "learning_rate": 0.00019023338519671038, "loss": 1.9655, "step": 2207 }, { "epoch": 0.04906666666666667, "grad_norm": 1.012878179550171, "learning_rate": 0.0001902289397643921, "loss": 1.8911, "step": 2208 }, { "epoch": 0.04908888888888889, "grad_norm": 1.0251420736312866, "learning_rate": 0.00019022449433207382, "loss": 2.1765, "step": 2209 }, { "epoch": 0.04911111111111111, "grad_norm": 1.1455473899841309, "learning_rate": 0.0001902200488997555, "loss": 2.4118, "step": 2210 }, { "epoch": 0.049133333333333334, "grad_norm": 1.1235398054122925, "learning_rate": 0.00019021560346743722, "loss": 2.2401, "step": 2211 }, { "epoch": 0.049155555555555557, "grad_norm": 1.4231849908828735, "learning_rate": 0.00019021115803511893, "loss": 2.1533, "step": 2212 }, { "epoch": 0.04917777777777778, "grad_norm": 1.2946346998214722, "learning_rate": 0.00019020671260280064, "loss": 2.3782, "step": 2213 }, { "epoch": 0.0492, "grad_norm": 1.089881181716919, "learning_rate": 0.00019020226717048232, "loss": 1.8458, "step": 2214 }, { "epoch": 0.04922222222222222, "grad_norm": 1.3264265060424805, "learning_rate": 0.00019019782173816405, "loss": 2.1016, "step": 2215 }, { "epoch": 0.049244444444444445, "grad_norm": 1.1876800060272217, "learning_rate": 0.00019019337630584574, "loss": 1.9285, "step": 2216 }, { "epoch": 0.04926666666666667, "grad_norm": 1.311055302619934, "learning_rate": 0.00019018893087352745, "loss": 2.1146, "step": 2217 }, { "epoch": 0.04928888888888889, "grad_norm": 0.4364464581012726, "learning_rate": 0.00019018448544120918, "loss": 0.0333, "step": 2218 }, { "epoch": 0.04931111111111111, "grad_norm": 1.1805363893508911, "learning_rate": 0.00019018004000889087, "loss": 2.3977, "step": 2219 }, { "epoch": 0.04933333333333333, "grad_norm": 1.148947834968567, "learning_rate": 0.0001901755945765726, "loss": 1.8525, "step": 2220 }, { "epoch": 0.049355555555555555, "grad_norm": 1.3265146017074585, "learning_rate": 0.00019017114914425428, "loss": 2.0379, "step": 2221 }, { "epoch": 0.04937777777777778, "grad_norm": 1.1382170915603638, "learning_rate": 0.000190166703711936, "loss": 2.1619, "step": 2222 }, { "epoch": 0.0494, "grad_norm": 1.3868470191955566, "learning_rate": 0.0001901622582796177, "loss": 2.0016, "step": 2223 }, { "epoch": 0.04942222222222222, "grad_norm": 1.4530396461486816, "learning_rate": 0.00019015781284729941, "loss": 2.335, "step": 2224 }, { "epoch": 0.049444444444444444, "grad_norm": 1.0688259601593018, "learning_rate": 0.0001901533674149811, "loss": 1.9109, "step": 2225 }, { "epoch": 0.049466666666666666, "grad_norm": 1.3365429639816284, "learning_rate": 0.00019014892198266283, "loss": 2.3869, "step": 2226 }, { "epoch": 0.04948888888888889, "grad_norm": 1.1728482246398926, "learning_rate": 0.00019014447655034454, "loss": 2.1609, "step": 2227 }, { "epoch": 0.04951111111111111, "grad_norm": 1.1781708002090454, "learning_rate": 0.00019014003111802623, "loss": 2.1051, "step": 2228 }, { "epoch": 0.04953333333333333, "grad_norm": 1.1372687816619873, "learning_rate": 0.00019013558568570796, "loss": 1.5913, "step": 2229 }, { "epoch": 0.049555555555555554, "grad_norm": 1.1523760557174683, "learning_rate": 0.00019013114025338964, "loss": 2.1097, "step": 2230 }, { "epoch": 0.049577777777777776, "grad_norm": 1.2923730611801147, "learning_rate": 0.00019012669482107135, "loss": 1.8981, "step": 2231 }, { "epoch": 0.0496, "grad_norm": 1.347650170326233, "learning_rate": 0.00019012224938875306, "loss": 2.0159, "step": 2232 }, { "epoch": 0.04962222222222222, "grad_norm": 1.1617511510849, "learning_rate": 0.00019011780395643477, "loss": 1.7733, "step": 2233 }, { "epoch": 0.04964444444444444, "grad_norm": 1.1228108406066895, "learning_rate": 0.00019011335852411648, "loss": 1.8163, "step": 2234 }, { "epoch": 0.049666666666666665, "grad_norm": 1.2512744665145874, "learning_rate": 0.0001901089130917982, "loss": 2.153, "step": 2235 }, { "epoch": 0.04968888888888889, "grad_norm": 1.3398948907852173, "learning_rate": 0.0001901044676594799, "loss": 2.3011, "step": 2236 }, { "epoch": 0.04971111111111111, "grad_norm": 1.2189030647277832, "learning_rate": 0.0001901000222271616, "loss": 1.8891, "step": 2237 }, { "epoch": 0.04973333333333333, "grad_norm": 1.3764220476150513, "learning_rate": 0.00019009557679484332, "loss": 2.114, "step": 2238 }, { "epoch": 0.04975555555555555, "grad_norm": 1.0513441562652588, "learning_rate": 0.000190091131362525, "loss": 1.5712, "step": 2239 }, { "epoch": 0.049777777777777775, "grad_norm": 1.280617117881775, "learning_rate": 0.00019008668593020674, "loss": 2.1301, "step": 2240 }, { "epoch": 0.0498, "grad_norm": 1.305253028869629, "learning_rate": 0.00019008224049788842, "loss": 1.5889, "step": 2241 }, { "epoch": 0.04982222222222222, "grad_norm": 1.6078585386276245, "learning_rate": 0.00019007779506557013, "loss": 2.0905, "step": 2242 }, { "epoch": 0.04984444444444444, "grad_norm": 1.3110101222991943, "learning_rate": 0.00019007334963325184, "loss": 2.0125, "step": 2243 }, { "epoch": 0.04986666666666666, "grad_norm": 1.2234842777252197, "learning_rate": 0.00019006890420093355, "loss": 1.8807, "step": 2244 }, { "epoch": 0.04988888888888889, "grad_norm": 1.4274346828460693, "learning_rate": 0.00019006445876861526, "loss": 1.6449, "step": 2245 }, { "epoch": 0.049911111111111114, "grad_norm": 1.4516068696975708, "learning_rate": 0.00019006001333629697, "loss": 2.474, "step": 2246 }, { "epoch": 0.049933333333333337, "grad_norm": 1.3782916069030762, "learning_rate": 0.00019005556790397868, "loss": 1.211, "step": 2247 }, { "epoch": 0.04995555555555556, "grad_norm": 1.2721515893936157, "learning_rate": 0.00019005112247166036, "loss": 1.8499, "step": 2248 }, { "epoch": 0.04997777777777778, "grad_norm": 1.2720251083374023, "learning_rate": 0.0001900466770393421, "loss": 1.4365, "step": 2249 }, { "epoch": 0.05, "grad_norm": 1.4843260049819946, "learning_rate": 0.00019004223160702378, "loss": 1.24, "step": 2250 }, { "epoch": 0.050022222222222225, "grad_norm": 1.1406223773956299, "learning_rate": 0.0001900377861747055, "loss": 2.8505, "step": 2251 }, { "epoch": 0.05004444444444445, "grad_norm": 1.1631907224655151, "learning_rate": 0.0001900333407423872, "loss": 2.967, "step": 2252 }, { "epoch": 0.05006666666666667, "grad_norm": 0.9673673510551453, "learning_rate": 0.0001900288953100689, "loss": 2.215, "step": 2253 }, { "epoch": 0.05008888888888889, "grad_norm": 1.1196608543395996, "learning_rate": 0.00019002444987775062, "loss": 2.296, "step": 2254 }, { "epoch": 0.05011111111111111, "grad_norm": 1.0573066473007202, "learning_rate": 0.00019002000444543233, "loss": 2.808, "step": 2255 }, { "epoch": 0.050133333333333335, "grad_norm": 0.9258370399475098, "learning_rate": 0.00019001555901311404, "loss": 2.0213, "step": 2256 }, { "epoch": 0.05015555555555556, "grad_norm": 1.032148838043213, "learning_rate": 0.00019001111358079575, "loss": 2.4364, "step": 2257 }, { "epoch": 0.05017777777777778, "grad_norm": 1.0564199686050415, "learning_rate": 0.00019000666814847746, "loss": 2.0706, "step": 2258 }, { "epoch": 0.0502, "grad_norm": 1.120741605758667, "learning_rate": 0.00019000222271615914, "loss": 2.0469, "step": 2259 }, { "epoch": 0.050222222222222224, "grad_norm": 1.114100694656372, "learning_rate": 0.00018999777728384088, "loss": 2.2511, "step": 2260 }, { "epoch": 0.050244444444444446, "grad_norm": 1.1014926433563232, "learning_rate": 0.00018999333185152256, "loss": 2.1234, "step": 2261 }, { "epoch": 0.05026666666666667, "grad_norm": 1.182754635810852, "learning_rate": 0.00018998888641920427, "loss": 2.2326, "step": 2262 }, { "epoch": 0.05028888888888889, "grad_norm": 1.2462025880813599, "learning_rate": 0.00018998444098688598, "loss": 2.5571, "step": 2263 }, { "epoch": 0.05031111111111111, "grad_norm": 1.003087043762207, "learning_rate": 0.0001899799955545677, "loss": 1.7838, "step": 2264 }, { "epoch": 0.050333333333333334, "grad_norm": 1.1985787153244019, "learning_rate": 0.0001899755501222494, "loss": 2.373, "step": 2265 }, { "epoch": 0.050355555555555556, "grad_norm": 1.1282902956008911, "learning_rate": 0.0001899711046899311, "loss": 2.3078, "step": 2266 }, { "epoch": 0.05037777777777778, "grad_norm": 1.0998181104660034, "learning_rate": 0.00018996665925761282, "loss": 1.9219, "step": 2267 }, { "epoch": 0.0504, "grad_norm": 1.2063664197921753, "learning_rate": 0.0001899622138252945, "loss": 2.4054, "step": 2268 }, { "epoch": 0.05042222222222222, "grad_norm": 1.4806365966796875, "learning_rate": 0.00018995776839297624, "loss": 2.2313, "step": 2269 }, { "epoch": 0.050444444444444445, "grad_norm": 1.0827125310897827, "learning_rate": 0.00018995332296065792, "loss": 1.6185, "step": 2270 }, { "epoch": 0.05046666666666667, "grad_norm": 1.2718685865402222, "learning_rate": 0.00018994887752833963, "loss": 2.1157, "step": 2271 }, { "epoch": 0.05048888888888889, "grad_norm": 1.129123330116272, "learning_rate": 0.00018994443209602134, "loss": 2.0411, "step": 2272 }, { "epoch": 0.05051111111111111, "grad_norm": 1.2838066816329956, "learning_rate": 0.00018993998666370305, "loss": 2.0199, "step": 2273 }, { "epoch": 0.05053333333333333, "grad_norm": 1.083335280418396, "learning_rate": 0.00018993554123138476, "loss": 1.6263, "step": 2274 }, { "epoch": 0.050555555555555555, "grad_norm": 1.3512511253356934, "learning_rate": 0.00018993109579906647, "loss": 2.0137, "step": 2275 }, { "epoch": 0.05057777777777778, "grad_norm": 1.3298662900924683, "learning_rate": 0.00018992665036674818, "loss": 2.0815, "step": 2276 }, { "epoch": 0.0506, "grad_norm": 1.516985297203064, "learning_rate": 0.0001899222049344299, "loss": 2.3133, "step": 2277 }, { "epoch": 0.05062222222222222, "grad_norm": 1.2454760074615479, "learning_rate": 0.0001899177595021116, "loss": 2.0556, "step": 2278 }, { "epoch": 0.05064444444444444, "grad_norm": 1.2082703113555908, "learning_rate": 0.00018991331406979328, "loss": 1.9505, "step": 2279 }, { "epoch": 0.050666666666666665, "grad_norm": 0.983023464679718, "learning_rate": 0.00018990886863747502, "loss": 1.2615, "step": 2280 }, { "epoch": 0.05068888888888889, "grad_norm": 1.316780686378479, "learning_rate": 0.0001899044232051567, "loss": 1.9937, "step": 2281 }, { "epoch": 0.05071111111111111, "grad_norm": 1.427194356918335, "learning_rate": 0.0001898999777728384, "loss": 2.2436, "step": 2282 }, { "epoch": 0.05073333333333333, "grad_norm": 1.6661731004714966, "learning_rate": 0.00018989553234052015, "loss": 0.0851, "step": 2283 }, { "epoch": 0.050755555555555554, "grad_norm": 1.2097456455230713, "learning_rate": 0.00018989108690820183, "loss": 1.6042, "step": 2284 }, { "epoch": 0.050777777777777776, "grad_norm": 1.269895315170288, "learning_rate": 0.00018988664147588354, "loss": 1.9546, "step": 2285 }, { "epoch": 0.0508, "grad_norm": 1.3030612468719482, "learning_rate": 0.00018988219604356525, "loss": 2.1369, "step": 2286 }, { "epoch": 0.05082222222222222, "grad_norm": 1.2111833095550537, "learning_rate": 0.00018987775061124696, "loss": 1.9118, "step": 2287 }, { "epoch": 0.05084444444444444, "grad_norm": 1.5516785383224487, "learning_rate": 0.00018987330517892864, "loss": 1.7997, "step": 2288 }, { "epoch": 0.050866666666666664, "grad_norm": 1.3370234966278076, "learning_rate": 0.00018986885974661038, "loss": 1.9019, "step": 2289 }, { "epoch": 0.050888888888888886, "grad_norm": 1.9784932136535645, "learning_rate": 0.00018986441431429206, "loss": 2.3373, "step": 2290 }, { "epoch": 0.05091111111111111, "grad_norm": 1.2709294557571411, "learning_rate": 0.00018985996888197377, "loss": 2.1115, "step": 2291 }, { "epoch": 0.05093333333333333, "grad_norm": 1.4198848009109497, "learning_rate": 0.0001898555234496555, "loss": 1.852, "step": 2292 }, { "epoch": 0.05095555555555555, "grad_norm": 1.337188959121704, "learning_rate": 0.0001898510780173372, "loss": 2.3314, "step": 2293 }, { "epoch": 0.050977777777777775, "grad_norm": 1.2728619575500488, "learning_rate": 0.00018984663258501892, "loss": 1.8133, "step": 2294 }, { "epoch": 0.051, "grad_norm": 1.3903908729553223, "learning_rate": 0.0001898421871527006, "loss": 2.3299, "step": 2295 }, { "epoch": 0.05102222222222222, "grad_norm": 1.030693769454956, "learning_rate": 0.00018983774172038232, "loss": 0.7797, "step": 2296 }, { "epoch": 0.05104444444444445, "grad_norm": 1.488663673400879, "learning_rate": 0.00018983329628806403, "loss": 1.9355, "step": 2297 }, { "epoch": 0.05106666666666667, "grad_norm": 1.2341729402542114, "learning_rate": 0.00018982885085574574, "loss": 1.9369, "step": 2298 }, { "epoch": 0.05108888888888889, "grad_norm": 2.313055992126465, "learning_rate": 0.00018982440542342742, "loss": 0.8939, "step": 2299 }, { "epoch": 0.051111111111111114, "grad_norm": 1.303525447845459, "learning_rate": 0.00018981995999110916, "loss": 1.1322, "step": 2300 }, { "epoch": 0.051133333333333336, "grad_norm": 0.9481244683265686, "learning_rate": 0.00018981551455879086, "loss": 2.4678, "step": 2301 }, { "epoch": 0.05115555555555556, "grad_norm": 1.2568217515945435, "learning_rate": 0.00018981106912647255, "loss": 2.2967, "step": 2302 }, { "epoch": 0.05117777777777778, "grad_norm": 1.009139895439148, "learning_rate": 0.00018980662369415428, "loss": 2.2559, "step": 2303 }, { "epoch": 0.0512, "grad_norm": 0.9287073016166687, "learning_rate": 0.00018980217826183597, "loss": 2.3218, "step": 2304 }, { "epoch": 0.051222222222222225, "grad_norm": 1.0955108404159546, "learning_rate": 0.00018979773282951768, "loss": 2.3199, "step": 2305 }, { "epoch": 0.05124444444444445, "grad_norm": 1.0093859434127808, "learning_rate": 0.00018979328739719939, "loss": 2.2353, "step": 2306 }, { "epoch": 0.05126666666666667, "grad_norm": 0.9418924450874329, "learning_rate": 0.0001897888419648811, "loss": 1.6572, "step": 2307 }, { "epoch": 0.05128888888888889, "grad_norm": 1.0343866348266602, "learning_rate": 0.0001897843965325628, "loss": 2.2157, "step": 2308 }, { "epoch": 0.05131111111111111, "grad_norm": 1.1496596336364746, "learning_rate": 0.00018977995110024451, "loss": 2.3266, "step": 2309 }, { "epoch": 0.051333333333333335, "grad_norm": 0.9841002821922302, "learning_rate": 0.00018977550566792622, "loss": 2.0782, "step": 2310 }, { "epoch": 0.05135555555555556, "grad_norm": 1.158416509628296, "learning_rate": 0.0001897710602356079, "loss": 2.4363, "step": 2311 }, { "epoch": 0.05137777777777778, "grad_norm": 1.21837317943573, "learning_rate": 0.00018976661480328964, "loss": 2.6334, "step": 2312 }, { "epoch": 0.0514, "grad_norm": 1.5002174377441406, "learning_rate": 0.00018976216937097133, "loss": 2.1274, "step": 2313 }, { "epoch": 0.05142222222222222, "grad_norm": 1.1424044370651245, "learning_rate": 0.00018975772393865306, "loss": 2.4683, "step": 2314 }, { "epoch": 0.051444444444444445, "grad_norm": 0.9944825768470764, "learning_rate": 0.00018975327850633475, "loss": 1.8226, "step": 2315 }, { "epoch": 0.05146666666666667, "grad_norm": 1.1477516889572144, "learning_rate": 0.00018974883307401645, "loss": 2.1133, "step": 2316 }, { "epoch": 0.05148888888888889, "grad_norm": 1.0240275859832764, "learning_rate": 0.00018974438764169816, "loss": 1.7058, "step": 2317 }, { "epoch": 0.05151111111111111, "grad_norm": 1.2768690586090088, "learning_rate": 0.00018973994220937987, "loss": 2.6642, "step": 2318 }, { "epoch": 0.051533333333333334, "grad_norm": 1.1745579242706299, "learning_rate": 0.00018973549677706158, "loss": 2.4401, "step": 2319 }, { "epoch": 0.051555555555555556, "grad_norm": 1.1885981559753418, "learning_rate": 0.0001897310513447433, "loss": 1.8775, "step": 2320 }, { "epoch": 0.05157777777777778, "grad_norm": 1.4170076847076416, "learning_rate": 0.000189726605912425, "loss": 2.3107, "step": 2321 }, { "epoch": 0.0516, "grad_norm": 1.2378846406936646, "learning_rate": 0.00018972216048010669, "loss": 2.1506, "step": 2322 }, { "epoch": 0.05162222222222222, "grad_norm": 1.1762984991073608, "learning_rate": 0.00018971771504778842, "loss": 1.9022, "step": 2323 }, { "epoch": 0.051644444444444444, "grad_norm": 1.5881881713867188, "learning_rate": 0.0001897132696154701, "loss": 2.3016, "step": 2324 }, { "epoch": 0.051666666666666666, "grad_norm": 1.3380208015441895, "learning_rate": 0.00018970882418315181, "loss": 2.0756, "step": 2325 }, { "epoch": 0.05168888888888889, "grad_norm": 1.231576919555664, "learning_rate": 0.00018970437875083352, "loss": 2.102, "step": 2326 }, { "epoch": 0.05171111111111111, "grad_norm": 1.0062800645828247, "learning_rate": 0.00018969993331851523, "loss": 1.7528, "step": 2327 }, { "epoch": 0.05173333333333333, "grad_norm": 1.196985125541687, "learning_rate": 0.00018969548788619694, "loss": 2.1386, "step": 2328 }, { "epoch": 0.051755555555555555, "grad_norm": 1.203781008720398, "learning_rate": 0.00018969104245387865, "loss": 1.6447, "step": 2329 }, { "epoch": 0.05177777777777778, "grad_norm": 1.3276416063308716, "learning_rate": 0.00018968659702156036, "loss": 2.3762, "step": 2330 }, { "epoch": 0.0518, "grad_norm": 1.246086835861206, "learning_rate": 0.00018968215158924204, "loss": 1.9903, "step": 2331 }, { "epoch": 0.05182222222222222, "grad_norm": 1.1679178476333618, "learning_rate": 0.00018967770615692378, "loss": 1.6781, "step": 2332 }, { "epoch": 0.05184444444444444, "grad_norm": 1.2968538999557495, "learning_rate": 0.00018967326072460546, "loss": 2.1941, "step": 2333 }, { "epoch": 0.051866666666666665, "grad_norm": 1.2440041303634644, "learning_rate": 0.0001896688152922872, "loss": 1.5251, "step": 2334 }, { "epoch": 0.05188888888888889, "grad_norm": 1.2177753448486328, "learning_rate": 0.00018966436985996888, "loss": 1.9533, "step": 2335 }, { "epoch": 0.05191111111111111, "grad_norm": 1.5729150772094727, "learning_rate": 0.0001896599244276506, "loss": 2.2132, "step": 2336 }, { "epoch": 0.05193333333333333, "grad_norm": 1.2729722261428833, "learning_rate": 0.0001896554789953323, "loss": 1.9398, "step": 2337 }, { "epoch": 0.05195555555555555, "grad_norm": 1.475525140762329, "learning_rate": 0.000189651033563014, "loss": 2.2079, "step": 2338 }, { "epoch": 0.051977777777777776, "grad_norm": 1.564623475074768, "learning_rate": 0.00018964658813069572, "loss": 2.2597, "step": 2339 }, { "epoch": 0.052, "grad_norm": 1.4291465282440186, "learning_rate": 0.00018964214269837743, "loss": 2.5056, "step": 2340 }, { "epoch": 0.05202222222222222, "grad_norm": 1.27070152759552, "learning_rate": 0.00018963769726605914, "loss": 1.6326, "step": 2341 }, { "epoch": 0.05204444444444444, "grad_norm": 1.1755186319351196, "learning_rate": 0.00018963325183374082, "loss": 1.6277, "step": 2342 }, { "epoch": 0.052066666666666664, "grad_norm": 1.3973621129989624, "learning_rate": 0.00018962880640142256, "loss": 2.0718, "step": 2343 }, { "epoch": 0.052088888888888886, "grad_norm": 1.537056803703308, "learning_rate": 0.00018962436096910424, "loss": 1.8861, "step": 2344 }, { "epoch": 0.05211111111111111, "grad_norm": 1.6013939380645752, "learning_rate": 0.00018961991553678595, "loss": 2.0865, "step": 2345 }, { "epoch": 0.05213333333333333, "grad_norm": 1.6155565977096558, "learning_rate": 0.00018961547010446766, "loss": 1.9949, "step": 2346 }, { "epoch": 0.05215555555555555, "grad_norm": 1.3884861469268799, "learning_rate": 0.00018961102467214937, "loss": 2.253, "step": 2347 }, { "epoch": 0.052177777777777774, "grad_norm": 1.1273061037063599, "learning_rate": 0.00018960657923983108, "loss": 0.8344, "step": 2348 }, { "epoch": 0.0522, "grad_norm": 1.4665790796279907, "learning_rate": 0.0001896021338075128, "loss": 1.8642, "step": 2349 }, { "epoch": 0.052222222222222225, "grad_norm": 1.0834414958953857, "learning_rate": 0.0001895976883751945, "loss": 0.921, "step": 2350 }, { "epoch": 0.05224444444444445, "grad_norm": 1.3091169595718384, "learning_rate": 0.0001895932429428762, "loss": 2.7127, "step": 2351 }, { "epoch": 0.05226666666666667, "grad_norm": 1.173563003540039, "learning_rate": 0.00018958879751055792, "loss": 2.8469, "step": 2352 }, { "epoch": 0.05228888888888889, "grad_norm": 1.0140055418014526, "learning_rate": 0.0001895843520782396, "loss": 1.4903, "step": 2353 }, { "epoch": 0.052311111111111114, "grad_norm": 0.9908082485198975, "learning_rate": 0.00018957990664592134, "loss": 2.0947, "step": 2354 }, { "epoch": 0.052333333333333336, "grad_norm": 1.8170055150985718, "learning_rate": 0.00018957546121360302, "loss": 2.7524, "step": 2355 }, { "epoch": 0.05235555555555556, "grad_norm": 1.0227460861206055, "learning_rate": 0.00018957101578128473, "loss": 2.2746, "step": 2356 }, { "epoch": 0.05237777777777778, "grad_norm": 0.9263565540313721, "learning_rate": 0.00018956657034896647, "loss": 1.7847, "step": 2357 }, { "epoch": 0.0524, "grad_norm": 1.2337859869003296, "learning_rate": 0.00018956212491664815, "loss": 2.4752, "step": 2358 }, { "epoch": 0.052422222222222224, "grad_norm": 1.171648383140564, "learning_rate": 0.00018955767948432986, "loss": 2.4235, "step": 2359 }, { "epoch": 0.052444444444444446, "grad_norm": 0.9819696545600891, "learning_rate": 0.00018955323405201157, "loss": 1.115, "step": 2360 }, { "epoch": 0.05246666666666667, "grad_norm": 1.077548861503601, "learning_rate": 0.00018954878861969328, "loss": 1.7721, "step": 2361 }, { "epoch": 0.05248888888888889, "grad_norm": 1.0623936653137207, "learning_rate": 0.00018954434318737496, "loss": 2.3041, "step": 2362 }, { "epoch": 0.05251111111111111, "grad_norm": 1.0431392192840576, "learning_rate": 0.0001895398977550567, "loss": 1.928, "step": 2363 }, { "epoch": 0.052533333333333335, "grad_norm": 1.1533517837524414, "learning_rate": 0.00018953545232273838, "loss": 2.0593, "step": 2364 }, { "epoch": 0.05255555555555556, "grad_norm": 1.4033219814300537, "learning_rate": 0.0001895310068904201, "loss": 2.4855, "step": 2365 }, { "epoch": 0.05257777777777778, "grad_norm": 0.9098128080368042, "learning_rate": 0.00018952656145810183, "loss": 1.464, "step": 2366 }, { "epoch": 0.0526, "grad_norm": 1.2354823350906372, "learning_rate": 0.0001895221160257835, "loss": 2.6515, "step": 2367 }, { "epoch": 0.05262222222222222, "grad_norm": 1.0878663063049316, "learning_rate": 0.00018951767059346522, "loss": 2.0154, "step": 2368 }, { "epoch": 0.052644444444444445, "grad_norm": 1.2616039514541626, "learning_rate": 0.00018951322516114693, "loss": 2.1318, "step": 2369 }, { "epoch": 0.05266666666666667, "grad_norm": 1.3192627429962158, "learning_rate": 0.00018950877972882864, "loss": 2.0905, "step": 2370 }, { "epoch": 0.05268888888888889, "grad_norm": 1.243998646736145, "learning_rate": 0.00018950433429651035, "loss": 2.0889, "step": 2371 }, { "epoch": 0.05271111111111111, "grad_norm": 1.3276753425598145, "learning_rate": 0.00018949988886419206, "loss": 2.0204, "step": 2372 }, { "epoch": 0.05273333333333333, "grad_norm": 1.1520330905914307, "learning_rate": 0.00018949544343187374, "loss": 1.8058, "step": 2373 }, { "epoch": 0.052755555555555556, "grad_norm": 1.5755805969238281, "learning_rate": 0.00018949099799955548, "loss": 2.2712, "step": 2374 }, { "epoch": 0.05277777777777778, "grad_norm": 1.265557050704956, "learning_rate": 0.0001894865525672372, "loss": 1.8071, "step": 2375 }, { "epoch": 0.0528, "grad_norm": 1.1964306831359863, "learning_rate": 0.00018948210713491887, "loss": 2.0829, "step": 2376 }, { "epoch": 0.05282222222222222, "grad_norm": 1.7723175287246704, "learning_rate": 0.0001894776617026006, "loss": 2.4585, "step": 2377 }, { "epoch": 0.052844444444444444, "grad_norm": 1.2948371171951294, "learning_rate": 0.0001894732162702823, "loss": 1.7931, "step": 2378 }, { "epoch": 0.052866666666666666, "grad_norm": 1.6545947790145874, "learning_rate": 0.000189468770837964, "loss": 2.627, "step": 2379 }, { "epoch": 0.05288888888888889, "grad_norm": 1.1918590068817139, "learning_rate": 0.0001894643254056457, "loss": 2.4832, "step": 2380 }, { "epoch": 0.05291111111111111, "grad_norm": 1.3209351301193237, "learning_rate": 0.00018945987997332742, "loss": 2.0956, "step": 2381 }, { "epoch": 0.05293333333333333, "grad_norm": 1.279868483543396, "learning_rate": 0.00018945543454100913, "loss": 1.9356, "step": 2382 }, { "epoch": 0.052955555555555554, "grad_norm": 1.2751002311706543, "learning_rate": 0.00018945098910869084, "loss": 1.7475, "step": 2383 }, { "epoch": 0.052977777777777776, "grad_norm": 1.2927143573760986, "learning_rate": 0.00018944654367637255, "loss": 2.2396, "step": 2384 }, { "epoch": 0.053, "grad_norm": 1.314698338508606, "learning_rate": 0.00018944209824405423, "loss": 1.7448, "step": 2385 }, { "epoch": 0.05302222222222222, "grad_norm": 1.3616132736206055, "learning_rate": 0.00018943765281173597, "loss": 2.1451, "step": 2386 }, { "epoch": 0.05304444444444444, "grad_norm": 1.2678908109664917, "learning_rate": 0.00018943320737941765, "loss": 2.2548, "step": 2387 }, { "epoch": 0.053066666666666665, "grad_norm": 1.2714632749557495, "learning_rate": 0.00018942876194709936, "loss": 1.8186, "step": 2388 }, { "epoch": 0.05308888888888889, "grad_norm": 1.1509929895401, "learning_rate": 0.00018942431651478107, "loss": 1.5296, "step": 2389 }, { "epoch": 0.05311111111111111, "grad_norm": 1.3871374130249023, "learning_rate": 0.00018941987108246278, "loss": 1.701, "step": 2390 }, { "epoch": 0.05313333333333333, "grad_norm": 1.2524795532226562, "learning_rate": 0.0001894154256501445, "loss": 2.0234, "step": 2391 }, { "epoch": 0.05315555555555555, "grad_norm": 1.1746879816055298, "learning_rate": 0.0001894109802178262, "loss": 1.6097, "step": 2392 }, { "epoch": 0.053177777777777775, "grad_norm": 1.928781509399414, "learning_rate": 0.0001894065347855079, "loss": 1.6618, "step": 2393 }, { "epoch": 0.0532, "grad_norm": 1.4668447971343994, "learning_rate": 0.00018940208935318962, "loss": 1.9964, "step": 2394 }, { "epoch": 0.05322222222222222, "grad_norm": 1.4051446914672852, "learning_rate": 0.00018939764392087133, "loss": 2.0399, "step": 2395 }, { "epoch": 0.05324444444444444, "grad_norm": 1.2799900770187378, "learning_rate": 0.000189393198488553, "loss": 1.769, "step": 2396 }, { "epoch": 0.053266666666666664, "grad_norm": 1.543502926826477, "learning_rate": 0.00018938875305623474, "loss": 1.965, "step": 2397 }, { "epoch": 0.053288888888888886, "grad_norm": 2.0054454803466797, "learning_rate": 0.00018938430762391643, "loss": 2.0078, "step": 2398 }, { "epoch": 0.05331111111111111, "grad_norm": 1.122998595237732, "learning_rate": 0.00018937986219159814, "loss": 0.6365, "step": 2399 }, { "epoch": 0.05333333333333334, "grad_norm": 1.3832374811172485, "learning_rate": 0.00018937541675927985, "loss": 1.4609, "step": 2400 }, { "epoch": 0.05335555555555556, "grad_norm": 1.0088211297988892, "learning_rate": 0.00018937097132696156, "loss": 2.3437, "step": 2401 }, { "epoch": 0.05337777777777778, "grad_norm": 1.1041789054870605, "learning_rate": 0.00018936652589464327, "loss": 2.8084, "step": 2402 }, { "epoch": 0.0534, "grad_norm": 1.1989312171936035, "learning_rate": 0.00018936208046232497, "loss": 2.8785, "step": 2403 }, { "epoch": 0.053422222222222225, "grad_norm": 0.70741868019104, "learning_rate": 0.00018935763503000668, "loss": 0.8932, "step": 2404 }, { "epoch": 0.05344444444444445, "grad_norm": 0.9797938466072083, "learning_rate": 0.00018935318959768837, "loss": 2.1857, "step": 2405 }, { "epoch": 0.05346666666666667, "grad_norm": 1.1413230895996094, "learning_rate": 0.0001893487441653701, "loss": 2.2059, "step": 2406 }, { "epoch": 0.05348888888888889, "grad_norm": 0.9932123422622681, "learning_rate": 0.00018934429873305179, "loss": 2.5113, "step": 2407 }, { "epoch": 0.05351111111111111, "grad_norm": 1.2092759609222412, "learning_rate": 0.00018933985330073352, "loss": 1.8474, "step": 2408 }, { "epoch": 0.053533333333333336, "grad_norm": 1.3358006477355957, "learning_rate": 0.0001893354078684152, "loss": 2.5141, "step": 2409 }, { "epoch": 0.05355555555555556, "grad_norm": 1.2211167812347412, "learning_rate": 0.00018933096243609692, "loss": 2.0904, "step": 2410 }, { "epoch": 0.05357777777777778, "grad_norm": 1.1042029857635498, "learning_rate": 0.00018932651700377862, "loss": 2.2942, "step": 2411 }, { "epoch": 0.0536, "grad_norm": 1.422839641571045, "learning_rate": 0.00018932207157146033, "loss": 2.3406, "step": 2412 }, { "epoch": 0.053622222222222224, "grad_norm": 1.5759137868881226, "learning_rate": 0.00018931762613914204, "loss": 2.7206, "step": 2413 }, { "epoch": 0.053644444444444446, "grad_norm": 1.405296802520752, "learning_rate": 0.00018931318070682375, "loss": 2.7824, "step": 2414 }, { "epoch": 0.05366666666666667, "grad_norm": 1.0691838264465332, "learning_rate": 0.00018930873527450546, "loss": 1.8771, "step": 2415 }, { "epoch": 0.05368888888888889, "grad_norm": 1.08065927028656, "learning_rate": 0.00018930428984218715, "loss": 1.8229, "step": 2416 }, { "epoch": 0.05371111111111111, "grad_norm": 1.0633454322814941, "learning_rate": 0.00018929984440986888, "loss": 1.9051, "step": 2417 }, { "epoch": 0.053733333333333334, "grad_norm": 1.177459716796875, "learning_rate": 0.00018929539897755056, "loss": 1.9052, "step": 2418 }, { "epoch": 0.053755555555555556, "grad_norm": 1.132089376449585, "learning_rate": 0.00018929095354523227, "loss": 2.1315, "step": 2419 }, { "epoch": 0.05377777777777778, "grad_norm": 1.1427791118621826, "learning_rate": 0.00018928650811291398, "loss": 2.0587, "step": 2420 }, { "epoch": 0.0538, "grad_norm": 1.231881022453308, "learning_rate": 0.0001892820626805957, "loss": 2.3537, "step": 2421 }, { "epoch": 0.05382222222222222, "grad_norm": 1.288120150566101, "learning_rate": 0.0001892776172482774, "loss": 2.3701, "step": 2422 }, { "epoch": 0.053844444444444445, "grad_norm": 1.191667914390564, "learning_rate": 0.0001892731718159591, "loss": 2.3219, "step": 2423 }, { "epoch": 0.05386666666666667, "grad_norm": 1.1937075853347778, "learning_rate": 0.00018926872638364082, "loss": 2.1728, "step": 2424 }, { "epoch": 0.05388888888888889, "grad_norm": 1.0441638231277466, "learning_rate": 0.0001892642809513225, "loss": 1.4542, "step": 2425 }, { "epoch": 0.05391111111111111, "grad_norm": 1.3653444051742554, "learning_rate": 0.00018925983551900424, "loss": 2.1975, "step": 2426 }, { "epoch": 0.05393333333333333, "grad_norm": 1.2391129732131958, "learning_rate": 0.00018925539008668592, "loss": 2.2715, "step": 2427 }, { "epoch": 0.053955555555555555, "grad_norm": 1.4954770803451538, "learning_rate": 0.00018925094465436766, "loss": 1.6288, "step": 2428 }, { "epoch": 0.05397777777777778, "grad_norm": 1.317981481552124, "learning_rate": 0.00018924649922204934, "loss": 2.3077, "step": 2429 }, { "epoch": 0.054, "grad_norm": 1.3335977792739868, "learning_rate": 0.00018924205378973105, "loss": 1.9617, "step": 2430 }, { "epoch": 0.05402222222222222, "grad_norm": 1.132349967956543, "learning_rate": 0.0001892376083574128, "loss": 2.0535, "step": 2431 }, { "epoch": 0.054044444444444444, "grad_norm": 1.3031768798828125, "learning_rate": 0.00018923316292509447, "loss": 2.2856, "step": 2432 }, { "epoch": 0.054066666666666666, "grad_norm": 1.1036758422851562, "learning_rate": 0.00018922871749277618, "loss": 1.6712, "step": 2433 }, { "epoch": 0.05408888888888889, "grad_norm": 1.314907193183899, "learning_rate": 0.0001892242720604579, "loss": 1.6712, "step": 2434 }, { "epoch": 0.05411111111111111, "grad_norm": 1.287028431892395, "learning_rate": 0.0001892198266281396, "loss": 2.1933, "step": 2435 }, { "epoch": 0.05413333333333333, "grad_norm": 1.4043248891830444, "learning_rate": 0.00018921538119582128, "loss": 2.0347, "step": 2436 }, { "epoch": 0.054155555555555554, "grad_norm": 1.3338160514831543, "learning_rate": 0.00018921093576350302, "loss": 1.5641, "step": 2437 }, { "epoch": 0.054177777777777776, "grad_norm": 1.1076841354370117, "learning_rate": 0.0001892064903311847, "loss": 1.9741, "step": 2438 }, { "epoch": 0.0542, "grad_norm": 1.3298640251159668, "learning_rate": 0.0001892020448988664, "loss": 1.8845, "step": 2439 }, { "epoch": 0.05422222222222222, "grad_norm": 1.237134337425232, "learning_rate": 0.00018919759946654815, "loss": 2.0562, "step": 2440 }, { "epoch": 0.05424444444444444, "grad_norm": 1.533353328704834, "learning_rate": 0.00018919315403422983, "loss": 2.2939, "step": 2441 }, { "epoch": 0.054266666666666664, "grad_norm": 1.239883303642273, "learning_rate": 0.00018918870860191154, "loss": 1.865, "step": 2442 }, { "epoch": 0.054288888888888887, "grad_norm": 1.0204641819000244, "learning_rate": 0.00018918426316959325, "loss": 1.0265, "step": 2443 }, { "epoch": 0.05431111111111111, "grad_norm": 1.455061435699463, "learning_rate": 0.00018917981773727496, "loss": 2.3005, "step": 2444 }, { "epoch": 0.05433333333333333, "grad_norm": 1.2822335958480835, "learning_rate": 0.00018917537230495664, "loss": 2.352, "step": 2445 }, { "epoch": 0.05435555555555555, "grad_norm": 1.1937792301177979, "learning_rate": 0.00018917092687263838, "loss": 1.9667, "step": 2446 }, { "epoch": 0.054377777777777775, "grad_norm": 1.2129205465316772, "learning_rate": 0.00018916648144032006, "loss": 1.5441, "step": 2447 }, { "epoch": 0.0544, "grad_norm": 1.2139372825622559, "learning_rate": 0.0001891620360080018, "loss": 1.5881, "step": 2448 }, { "epoch": 0.05442222222222222, "grad_norm": 1.614974856376648, "learning_rate": 0.0001891575905756835, "loss": 1.9697, "step": 2449 }, { "epoch": 0.05444444444444444, "grad_norm": 1.494932770729065, "learning_rate": 0.0001891531451433652, "loss": 1.5232, "step": 2450 }, { "epoch": 0.05446666666666666, "grad_norm": 1.0456159114837646, "learning_rate": 0.00018914869971104693, "loss": 2.0489, "step": 2451 }, { "epoch": 0.05448888888888889, "grad_norm": 0.24582913517951965, "learning_rate": 0.0001891442542787286, "loss": 0.0238, "step": 2452 }, { "epoch": 0.054511111111111114, "grad_norm": 1.1495356559753418, "learning_rate": 0.00018913980884641032, "loss": 2.7597, "step": 2453 }, { "epoch": 0.054533333333333336, "grad_norm": 1.0543262958526611, "learning_rate": 0.00018913536341409203, "loss": 2.2041, "step": 2454 }, { "epoch": 0.05455555555555556, "grad_norm": 1.4828373193740845, "learning_rate": 0.00018913091798177374, "loss": 2.629, "step": 2455 }, { "epoch": 0.05457777777777778, "grad_norm": 1.1645830869674683, "learning_rate": 0.00018912647254945545, "loss": 2.3529, "step": 2456 }, { "epoch": 0.0546, "grad_norm": 1.1288797855377197, "learning_rate": 0.00018912202711713716, "loss": 1.9734, "step": 2457 }, { "epoch": 0.054622222222222225, "grad_norm": 1.039430022239685, "learning_rate": 0.00018911758168481887, "loss": 2.4457, "step": 2458 }, { "epoch": 0.05464444444444445, "grad_norm": 0.9661824703216553, "learning_rate": 0.00018911313625250055, "loss": 2.0711, "step": 2459 }, { "epoch": 0.05466666666666667, "grad_norm": 1.3233098983764648, "learning_rate": 0.0001891086908201823, "loss": 2.3527, "step": 2460 }, { "epoch": 0.05468888888888889, "grad_norm": 1.210202932357788, "learning_rate": 0.00018910424538786397, "loss": 2.3941, "step": 2461 }, { "epoch": 0.05471111111111111, "grad_norm": 1.165424108505249, "learning_rate": 0.00018909979995554568, "loss": 2.2124, "step": 2462 }, { "epoch": 0.054733333333333335, "grad_norm": 1.0688230991363525, "learning_rate": 0.0001890953545232274, "loss": 2.1726, "step": 2463 }, { "epoch": 0.05475555555555556, "grad_norm": 1.1547540426254272, "learning_rate": 0.0001890909090909091, "loss": 2.0078, "step": 2464 }, { "epoch": 0.05477777777777778, "grad_norm": 1.1661717891693115, "learning_rate": 0.0001890864636585908, "loss": 1.8699, "step": 2465 }, { "epoch": 0.0548, "grad_norm": 1.0058127641677856, "learning_rate": 0.00018908201822627252, "loss": 2.1049, "step": 2466 }, { "epoch": 0.054822222222222224, "grad_norm": 1.408481478691101, "learning_rate": 0.00018907757279395423, "loss": 1.9875, "step": 2467 }, { "epoch": 0.054844444444444446, "grad_norm": 1.2111340761184692, "learning_rate": 0.00018907312736163594, "loss": 2.6125, "step": 2468 }, { "epoch": 0.05486666666666667, "grad_norm": 1.196250319480896, "learning_rate": 0.00018906868192931765, "loss": 2.1727, "step": 2469 }, { "epoch": 0.05488888888888889, "grad_norm": 1.0017157793045044, "learning_rate": 0.00018906423649699933, "loss": 2.0192, "step": 2470 }, { "epoch": 0.05491111111111111, "grad_norm": 1.1697108745574951, "learning_rate": 0.00018905979106468107, "loss": 2.2805, "step": 2471 }, { "epoch": 0.054933333333333334, "grad_norm": 1.292067527770996, "learning_rate": 0.00018905534563236275, "loss": 2.3587, "step": 2472 }, { "epoch": 0.054955555555555556, "grad_norm": 1.3392435312271118, "learning_rate": 0.00018905090020004446, "loss": 2.1746, "step": 2473 }, { "epoch": 0.05497777777777778, "grad_norm": 1.0832107067108154, "learning_rate": 0.00018904645476772617, "loss": 1.9875, "step": 2474 }, { "epoch": 0.055, "grad_norm": 1.2673426866531372, "learning_rate": 0.00018904200933540788, "loss": 2.2346, "step": 2475 }, { "epoch": 0.05502222222222222, "grad_norm": 1.0961675643920898, "learning_rate": 0.0001890375639030896, "loss": 1.9001, "step": 2476 }, { "epoch": 0.055044444444444444, "grad_norm": 1.5389955043792725, "learning_rate": 0.0001890331184707713, "loss": 2.1704, "step": 2477 }, { "epoch": 0.05506666666666667, "grad_norm": 1.1380915641784668, "learning_rate": 0.000189028673038453, "loss": 1.5925, "step": 2478 }, { "epoch": 0.05508888888888889, "grad_norm": 1.1954318284988403, "learning_rate": 0.0001890242276061347, "loss": 1.8853, "step": 2479 }, { "epoch": 0.05511111111111111, "grad_norm": 1.4532486200332642, "learning_rate": 0.00018901978217381643, "loss": 2.3578, "step": 2480 }, { "epoch": 0.05513333333333333, "grad_norm": 1.2123574018478394, "learning_rate": 0.0001890153367414981, "loss": 2.0524, "step": 2481 }, { "epoch": 0.055155555555555555, "grad_norm": 1.3489240407943726, "learning_rate": 0.00018901089130917982, "loss": 1.9921, "step": 2482 }, { "epoch": 0.05517777777777778, "grad_norm": 1.2275818586349487, "learning_rate": 0.00018900644587686153, "loss": 1.0391, "step": 2483 }, { "epoch": 0.0552, "grad_norm": 1.301775574684143, "learning_rate": 0.00018900200044454324, "loss": 2.1361, "step": 2484 }, { "epoch": 0.05522222222222222, "grad_norm": 1.177973747253418, "learning_rate": 0.00018899755501222495, "loss": 1.7752, "step": 2485 }, { "epoch": 0.05524444444444444, "grad_norm": 1.614419937133789, "learning_rate": 0.00018899310957990666, "loss": 2.0485, "step": 2486 }, { "epoch": 0.055266666666666665, "grad_norm": 1.4591861963272095, "learning_rate": 0.00018898866414758837, "loss": 2.6826, "step": 2487 }, { "epoch": 0.05528888888888889, "grad_norm": 1.234574317932129, "learning_rate": 0.00018898421871527008, "loss": 1.8722, "step": 2488 }, { "epoch": 0.05531111111111111, "grad_norm": 1.2190479040145874, "learning_rate": 0.00018897977328295179, "loss": 1.6645, "step": 2489 }, { "epoch": 0.05533333333333333, "grad_norm": 1.2094649076461792, "learning_rate": 0.00018897532785063347, "loss": 1.7016, "step": 2490 }, { "epoch": 0.055355555555555554, "grad_norm": 1.2158609628677368, "learning_rate": 0.0001889708824183152, "loss": 1.6962, "step": 2491 }, { "epoch": 0.055377777777777776, "grad_norm": 1.3388298749923706, "learning_rate": 0.0001889664369859969, "loss": 1.8867, "step": 2492 }, { "epoch": 0.0554, "grad_norm": 1.4496742486953735, "learning_rate": 0.0001889619915536786, "loss": 2.1865, "step": 2493 }, { "epoch": 0.05542222222222222, "grad_norm": 1.4807302951812744, "learning_rate": 0.0001889575461213603, "loss": 1.861, "step": 2494 }, { "epoch": 0.05544444444444444, "grad_norm": 1.8118335008621216, "learning_rate": 0.00018895310068904202, "loss": 1.6623, "step": 2495 }, { "epoch": 0.055466666666666664, "grad_norm": 1.4286296367645264, "learning_rate": 0.00018894865525672373, "loss": 2.0063, "step": 2496 }, { "epoch": 0.055488888888888886, "grad_norm": 1.2867096662521362, "learning_rate": 0.00018894420982440544, "loss": 1.6976, "step": 2497 }, { "epoch": 0.05551111111111111, "grad_norm": 1.3115135431289673, "learning_rate": 0.00018893976439208714, "loss": 1.7672, "step": 2498 }, { "epoch": 0.05553333333333333, "grad_norm": 1.1507395505905151, "learning_rate": 0.00018893531895976883, "loss": 0.9649, "step": 2499 }, { "epoch": 0.05555555555555555, "grad_norm": 1.5662176609039307, "learning_rate": 0.00018893087352745056, "loss": 1.1995, "step": 2500 }, { "epoch": 0.055577777777777775, "grad_norm": 1.036569595336914, "learning_rate": 0.00018892642809513225, "loss": 2.6401, "step": 2501 }, { "epoch": 0.0556, "grad_norm": 1.2533944845199585, "learning_rate": 0.00018892198266281396, "loss": 1.2099, "step": 2502 }, { "epoch": 0.055622222222222226, "grad_norm": 0.9114360809326172, "learning_rate": 0.00018891753723049567, "loss": 2.2516, "step": 2503 }, { "epoch": 0.05564444444444445, "grad_norm": 0.8984512090682983, "learning_rate": 0.00018891309179817738, "loss": 2.0534, "step": 2504 }, { "epoch": 0.05566666666666667, "grad_norm": 0.8923514485359192, "learning_rate": 0.0001889086463658591, "loss": 1.7531, "step": 2505 }, { "epoch": 0.05568888888888889, "grad_norm": 1.4881649017333984, "learning_rate": 0.0001889042009335408, "loss": 2.4426, "step": 2506 }, { "epoch": 0.055711111111111114, "grad_norm": 1.2478203773498535, "learning_rate": 0.0001888997555012225, "loss": 2.4129, "step": 2507 }, { "epoch": 0.055733333333333336, "grad_norm": 1.231635570526123, "learning_rate": 0.00018889531006890421, "loss": 1.8812, "step": 2508 }, { "epoch": 0.05575555555555556, "grad_norm": 1.1915603876113892, "learning_rate": 0.00018889086463658592, "loss": 2.1337, "step": 2509 }, { "epoch": 0.05577777777777778, "grad_norm": 1.236119270324707, "learning_rate": 0.0001888864192042676, "loss": 2.4318, "step": 2510 }, { "epoch": 0.0558, "grad_norm": 1.2447643280029297, "learning_rate": 0.00018888197377194934, "loss": 2.0202, "step": 2511 }, { "epoch": 0.055822222222222224, "grad_norm": 1.2412337064743042, "learning_rate": 0.00018887752833963103, "loss": 1.8919, "step": 2512 }, { "epoch": 0.05584444444444445, "grad_norm": 1.2132288217544556, "learning_rate": 0.00018887308290731273, "loss": 1.6845, "step": 2513 }, { "epoch": 0.05586666666666667, "grad_norm": 0.9563615918159485, "learning_rate": 0.00018886863747499447, "loss": 1.2756, "step": 2514 }, { "epoch": 0.05588888888888889, "grad_norm": 1.4900014400482178, "learning_rate": 0.00018886419204267615, "loss": 2.0221, "step": 2515 }, { "epoch": 0.05591111111111111, "grad_norm": 1.4225016832351685, "learning_rate": 0.00018885974661035786, "loss": 2.4016, "step": 2516 }, { "epoch": 0.055933333333333335, "grad_norm": 1.2294126749038696, "learning_rate": 0.00018885530117803957, "loss": 2.046, "step": 2517 }, { "epoch": 0.05595555555555556, "grad_norm": 0.9636179804801941, "learning_rate": 0.00018885085574572128, "loss": 1.3756, "step": 2518 }, { "epoch": 0.05597777777777778, "grad_norm": 1.2330832481384277, "learning_rate": 0.00018884641031340297, "loss": 1.9757, "step": 2519 }, { "epoch": 0.056, "grad_norm": 1.3391579389572144, "learning_rate": 0.0001888419648810847, "loss": 1.9916, "step": 2520 }, { "epoch": 0.05602222222222222, "grad_norm": 1.2452796697616577, "learning_rate": 0.00018883751944876638, "loss": 2.2848, "step": 2521 }, { "epoch": 0.056044444444444445, "grad_norm": 1.3527039289474487, "learning_rate": 0.00018883307401644812, "loss": 2.2526, "step": 2522 }, { "epoch": 0.05606666666666667, "grad_norm": 1.3589142560958862, "learning_rate": 0.00018882862858412983, "loss": 2.0975, "step": 2523 }, { "epoch": 0.05608888888888889, "grad_norm": 1.259299397468567, "learning_rate": 0.0001888241831518115, "loss": 2.0097, "step": 2524 }, { "epoch": 0.05611111111111111, "grad_norm": 1.4315937757492065, "learning_rate": 0.00018881973771949325, "loss": 1.7777, "step": 2525 }, { "epoch": 0.056133333333333334, "grad_norm": 1.1376361846923828, "learning_rate": 0.00018881529228717493, "loss": 2.2056, "step": 2526 }, { "epoch": 0.056155555555555556, "grad_norm": 0.8034170269966125, "learning_rate": 0.00018881084685485664, "loss": 0.7347, "step": 2527 }, { "epoch": 0.05617777777777778, "grad_norm": 1.4560273885726929, "learning_rate": 0.00018880640142253835, "loss": 2.2216, "step": 2528 }, { "epoch": 0.0562, "grad_norm": 1.181087613105774, "learning_rate": 0.00018880195599022006, "loss": 1.8212, "step": 2529 }, { "epoch": 0.05622222222222222, "grad_norm": 0.8451790809631348, "learning_rate": 0.00018879751055790177, "loss": 0.7923, "step": 2530 }, { "epoch": 0.056244444444444444, "grad_norm": 1.3709419965744019, "learning_rate": 0.00018879306512558348, "loss": 2.2324, "step": 2531 }, { "epoch": 0.056266666666666666, "grad_norm": 1.372127890586853, "learning_rate": 0.0001887886196932652, "loss": 2.0432, "step": 2532 }, { "epoch": 0.05628888888888889, "grad_norm": 1.4520469903945923, "learning_rate": 0.00018878417426094687, "loss": 2.358, "step": 2533 }, { "epoch": 0.05631111111111111, "grad_norm": 1.3024083375930786, "learning_rate": 0.0001887797288286286, "loss": 2.4057, "step": 2534 }, { "epoch": 0.05633333333333333, "grad_norm": 1.2385015487670898, "learning_rate": 0.0001887752833963103, "loss": 1.9186, "step": 2535 }, { "epoch": 0.056355555555555555, "grad_norm": 1.5507334470748901, "learning_rate": 0.000188770837963992, "loss": 2.2698, "step": 2536 }, { "epoch": 0.05637777777777778, "grad_norm": 1.4196962118148804, "learning_rate": 0.0001887663925316737, "loss": 1.8153, "step": 2537 }, { "epoch": 0.0564, "grad_norm": 1.2866084575653076, "learning_rate": 0.00018876194709935542, "loss": 2.0998, "step": 2538 }, { "epoch": 0.05642222222222222, "grad_norm": 1.331620454788208, "learning_rate": 0.00018875750166703713, "loss": 1.8027, "step": 2539 }, { "epoch": 0.05644444444444444, "grad_norm": 1.1863762140274048, "learning_rate": 0.00018875305623471884, "loss": 1.8618, "step": 2540 }, { "epoch": 0.056466666666666665, "grad_norm": 1.1917874813079834, "learning_rate": 0.00018874861080240055, "loss": 1.776, "step": 2541 }, { "epoch": 0.05648888888888889, "grad_norm": 1.3376266956329346, "learning_rate": 0.00018874416537008226, "loss": 2.1375, "step": 2542 }, { "epoch": 0.05651111111111111, "grad_norm": 1.483438491821289, "learning_rate": 0.00018873971993776397, "loss": 2.0117, "step": 2543 }, { "epoch": 0.05653333333333333, "grad_norm": 1.204397439956665, "learning_rate": 0.00018873527450544565, "loss": 1.9788, "step": 2544 }, { "epoch": 0.05655555555555555, "grad_norm": 1.2496213912963867, "learning_rate": 0.0001887308290731274, "loss": 1.6697, "step": 2545 }, { "epoch": 0.056577777777777775, "grad_norm": 1.2381025552749634, "learning_rate": 0.00018872638364080907, "loss": 1.9932, "step": 2546 }, { "epoch": 0.0566, "grad_norm": 0.9621703624725342, "learning_rate": 0.00018872193820849078, "loss": 1.0976, "step": 2547 }, { "epoch": 0.05662222222222222, "grad_norm": 1.4206795692443848, "learning_rate": 0.0001887174927761725, "loss": 2.4123, "step": 2548 }, { "epoch": 0.05664444444444444, "grad_norm": 1.7977161407470703, "learning_rate": 0.0001887130473438542, "loss": 2.0407, "step": 2549 }, { "epoch": 0.056666666666666664, "grad_norm": 1.200404167175293, "learning_rate": 0.0001887086019115359, "loss": 0.7282, "step": 2550 }, { "epoch": 0.056688888888888886, "grad_norm": 1.2886850833892822, "learning_rate": 0.00018870415647921762, "loss": 2.8743, "step": 2551 }, { "epoch": 0.05671111111111111, "grad_norm": 1.3046247959136963, "learning_rate": 0.00018869971104689933, "loss": 2.721, "step": 2552 }, { "epoch": 0.05673333333333333, "grad_norm": 0.9942330718040466, "learning_rate": 0.000188695265614581, "loss": 2.8455, "step": 2553 }, { "epoch": 0.05675555555555555, "grad_norm": 1.0440577268600464, "learning_rate": 0.00018869082018226275, "loss": 2.2894, "step": 2554 }, { "epoch": 0.05677777777777778, "grad_norm": 1.0470658540725708, "learning_rate": 0.00018868637474994443, "loss": 2.5528, "step": 2555 }, { "epoch": 0.0568, "grad_norm": 1.0190290212631226, "learning_rate": 0.00018868192931762614, "loss": 2.4568, "step": 2556 }, { "epoch": 0.056822222222222225, "grad_norm": 1.4050205945968628, "learning_rate": 0.00018867748388530785, "loss": 2.1209, "step": 2557 }, { "epoch": 0.05684444444444445, "grad_norm": 1.1558541059494019, "learning_rate": 0.00018867303845298956, "loss": 2.3952, "step": 2558 }, { "epoch": 0.05686666666666667, "grad_norm": 1.1200963258743286, "learning_rate": 0.00018866859302067127, "loss": 2.0985, "step": 2559 }, { "epoch": 0.05688888888888889, "grad_norm": 1.091135025024414, "learning_rate": 0.00018866414758835298, "loss": 1.8624, "step": 2560 }, { "epoch": 0.056911111111111114, "grad_norm": 1.581621527671814, "learning_rate": 0.0001886597021560347, "loss": 3.2137, "step": 2561 }, { "epoch": 0.056933333333333336, "grad_norm": 1.1373692750930786, "learning_rate": 0.0001886552567237164, "loss": 1.992, "step": 2562 }, { "epoch": 0.05695555555555556, "grad_norm": 1.4724087715148926, "learning_rate": 0.0001886508112913981, "loss": 2.0838, "step": 2563 }, { "epoch": 0.05697777777777778, "grad_norm": 1.3630752563476562, "learning_rate": 0.0001886463658590798, "loss": 1.7094, "step": 2564 }, { "epoch": 0.057, "grad_norm": 1.2479501962661743, "learning_rate": 0.00018864192042676153, "loss": 2.1034, "step": 2565 }, { "epoch": 0.057022222222222224, "grad_norm": 1.1085615158081055, "learning_rate": 0.0001886374749944432, "loss": 1.8555, "step": 2566 }, { "epoch": 0.057044444444444446, "grad_norm": 1.1923258304595947, "learning_rate": 0.00018863302956212492, "loss": 1.9177, "step": 2567 }, { "epoch": 0.05706666666666667, "grad_norm": 1.0570402145385742, "learning_rate": 0.00018862858412980663, "loss": 1.6675, "step": 2568 }, { "epoch": 0.05708888888888889, "grad_norm": 1.3930308818817139, "learning_rate": 0.00018862413869748834, "loss": 2.0568, "step": 2569 }, { "epoch": 0.05711111111111111, "grad_norm": 1.2459723949432373, "learning_rate": 0.00018861969326517005, "loss": 2.5248, "step": 2570 }, { "epoch": 0.057133333333333335, "grad_norm": 1.4689371585845947, "learning_rate": 0.00018861524783285176, "loss": 1.9445, "step": 2571 }, { "epoch": 0.05715555555555556, "grad_norm": 1.2268513441085815, "learning_rate": 0.00018861080240053347, "loss": 2.1856, "step": 2572 }, { "epoch": 0.05717777777777778, "grad_norm": 1.2996394634246826, "learning_rate": 0.00018860635696821515, "loss": 2.4146, "step": 2573 }, { "epoch": 0.0572, "grad_norm": 1.3084443807601929, "learning_rate": 0.00018860191153589689, "loss": 2.2153, "step": 2574 }, { "epoch": 0.05722222222222222, "grad_norm": 1.2762608528137207, "learning_rate": 0.00018859746610357857, "loss": 2.0201, "step": 2575 }, { "epoch": 0.057244444444444445, "grad_norm": 1.3511669635772705, "learning_rate": 0.00018859302067126028, "loss": 1.9618, "step": 2576 }, { "epoch": 0.05726666666666667, "grad_norm": 1.2813236713409424, "learning_rate": 0.000188588575238942, "loss": 1.7119, "step": 2577 }, { "epoch": 0.05728888888888889, "grad_norm": 1.080528736114502, "learning_rate": 0.0001885841298066237, "loss": 1.4051, "step": 2578 }, { "epoch": 0.05731111111111111, "grad_norm": 1.3457008600234985, "learning_rate": 0.00018857968437430543, "loss": 1.9014, "step": 2579 }, { "epoch": 0.05733333333333333, "grad_norm": 1.1213107109069824, "learning_rate": 0.00018857523894198712, "loss": 1.9722, "step": 2580 }, { "epoch": 0.057355555555555555, "grad_norm": 1.2997187376022339, "learning_rate": 0.00018857079350966883, "loss": 2.1289, "step": 2581 }, { "epoch": 0.05737777777777778, "grad_norm": 1.1378041505813599, "learning_rate": 0.00018856634807735054, "loss": 1.8117, "step": 2582 }, { "epoch": 0.0574, "grad_norm": 1.3709129095077515, "learning_rate": 0.00018856190264503225, "loss": 2.0827, "step": 2583 }, { "epoch": 0.05742222222222222, "grad_norm": 1.2919036149978638, "learning_rate": 0.00018855745721271393, "loss": 2.0347, "step": 2584 }, { "epoch": 0.057444444444444444, "grad_norm": 1.0655790567398071, "learning_rate": 0.00018855301178039566, "loss": 1.7323, "step": 2585 }, { "epoch": 0.057466666666666666, "grad_norm": 1.2686959505081177, "learning_rate": 0.00018854856634807735, "loss": 1.7882, "step": 2586 }, { "epoch": 0.05748888888888889, "grad_norm": 1.206129789352417, "learning_rate": 0.00018854412091575906, "loss": 1.6563, "step": 2587 }, { "epoch": 0.05751111111111111, "grad_norm": 1.3334760665893555, "learning_rate": 0.0001885396754834408, "loss": 1.8783, "step": 2588 }, { "epoch": 0.05753333333333333, "grad_norm": 1.4101591110229492, "learning_rate": 0.00018853523005112248, "loss": 1.9708, "step": 2589 }, { "epoch": 0.057555555555555554, "grad_norm": 1.1265485286712646, "learning_rate": 0.00018853078461880419, "loss": 1.5324, "step": 2590 }, { "epoch": 0.057577777777777776, "grad_norm": 1.4062831401824951, "learning_rate": 0.0001885263391864859, "loss": 1.9158, "step": 2591 }, { "epoch": 0.0576, "grad_norm": 1.3258615732192993, "learning_rate": 0.0001885218937541676, "loss": 1.8876, "step": 2592 }, { "epoch": 0.05762222222222222, "grad_norm": 1.366902470588684, "learning_rate": 0.0001885174483218493, "loss": 2.2955, "step": 2593 }, { "epoch": 0.05764444444444444, "grad_norm": 1.2706516981124878, "learning_rate": 0.00018851300288953102, "loss": 1.6714, "step": 2594 }, { "epoch": 0.057666666666666665, "grad_norm": 1.4717543125152588, "learning_rate": 0.0001885085574572127, "loss": 1.9276, "step": 2595 }, { "epoch": 0.05768888888888889, "grad_norm": 1.4014904499053955, "learning_rate": 0.00018850411202489442, "loss": 1.5478, "step": 2596 }, { "epoch": 0.05771111111111111, "grad_norm": 1.5884499549865723, "learning_rate": 0.00018849966659257615, "loss": 2.1932, "step": 2597 }, { "epoch": 0.05773333333333333, "grad_norm": 1.4640851020812988, "learning_rate": 0.00018849522116025784, "loss": 2.0769, "step": 2598 }, { "epoch": 0.05775555555555555, "grad_norm": 1.5820749998092651, "learning_rate": 0.00018849077572793957, "loss": 1.3225, "step": 2599 }, { "epoch": 0.057777777777777775, "grad_norm": 1.4387468099594116, "learning_rate": 0.00018848633029562125, "loss": 1.466, "step": 2600 }, { "epoch": 0.0578, "grad_norm": 1.301875352859497, "learning_rate": 0.00018848188486330296, "loss": 1.2375, "step": 2601 }, { "epoch": 0.05782222222222222, "grad_norm": 0.9710614681243896, "learning_rate": 0.00018847743943098467, "loss": 2.1691, "step": 2602 }, { "epoch": 0.05784444444444444, "grad_norm": 1.0692071914672852, "learning_rate": 0.00018847299399866638, "loss": 2.5301, "step": 2603 }, { "epoch": 0.057866666666666663, "grad_norm": 1.162587285041809, "learning_rate": 0.0001884685485663481, "loss": 2.226, "step": 2604 }, { "epoch": 0.057888888888888886, "grad_norm": 1.0870006084442139, "learning_rate": 0.0001884641031340298, "loss": 2.213, "step": 2605 }, { "epoch": 0.05791111111111111, "grad_norm": 1.3487595319747925, "learning_rate": 0.0001884596577017115, "loss": 2.5889, "step": 2606 }, { "epoch": 0.05793333333333334, "grad_norm": 1.0310118198394775, "learning_rate": 0.0001884552122693932, "loss": 2.2075, "step": 2607 }, { "epoch": 0.05795555555555556, "grad_norm": 1.3258577585220337, "learning_rate": 0.00018845076683707493, "loss": 2.1978, "step": 2608 }, { "epoch": 0.05797777777777778, "grad_norm": 1.0879091024398804, "learning_rate": 0.00018844632140475661, "loss": 2.3445, "step": 2609 }, { "epoch": 0.058, "grad_norm": 1.086910367012024, "learning_rate": 0.00018844187597243832, "loss": 2.0279, "step": 2610 }, { "epoch": 0.058022222222222225, "grad_norm": 1.0693237781524658, "learning_rate": 0.00018843743054012003, "loss": 2.1559, "step": 2611 }, { "epoch": 0.05804444444444445, "grad_norm": 1.2452982664108276, "learning_rate": 0.00018843298510780174, "loss": 2.185, "step": 2612 }, { "epoch": 0.05806666666666667, "grad_norm": 1.248547911643982, "learning_rate": 0.00018842853967548345, "loss": 2.489, "step": 2613 }, { "epoch": 0.05808888888888889, "grad_norm": 1.2178386449813843, "learning_rate": 0.00018842409424316516, "loss": 1.9774, "step": 2614 }, { "epoch": 0.05811111111111111, "grad_norm": 1.3870599269866943, "learning_rate": 0.00018841964881084687, "loss": 2.0721, "step": 2615 }, { "epoch": 0.058133333333333335, "grad_norm": 1.3151402473449707, "learning_rate": 0.00018841520337852858, "loss": 1.9932, "step": 2616 }, { "epoch": 0.05815555555555556, "grad_norm": 1.1721808910369873, "learning_rate": 0.0001884107579462103, "loss": 1.9445, "step": 2617 }, { "epoch": 0.05817777777777778, "grad_norm": 1.2163183689117432, "learning_rate": 0.00018840631251389197, "loss": 2.0455, "step": 2618 }, { "epoch": 0.0582, "grad_norm": 1.1210755109786987, "learning_rate": 0.0001884018670815737, "loss": 2.0786, "step": 2619 }, { "epoch": 0.058222222222222224, "grad_norm": 1.2193481922149658, "learning_rate": 0.0001883974216492554, "loss": 2.1058, "step": 2620 }, { "epoch": 0.058244444444444446, "grad_norm": 1.35350501537323, "learning_rate": 0.0001883929762169371, "loss": 2.4217, "step": 2621 }, { "epoch": 0.05826666666666667, "grad_norm": 1.2459526062011719, "learning_rate": 0.0001883885307846188, "loss": 1.9837, "step": 2622 }, { "epoch": 0.05828888888888889, "grad_norm": 1.4048715829849243, "learning_rate": 0.00018838408535230052, "loss": 2.0499, "step": 2623 }, { "epoch": 0.05831111111111111, "grad_norm": 1.2909272909164429, "learning_rate": 0.00018837963991998223, "loss": 2.4974, "step": 2624 }, { "epoch": 0.058333333333333334, "grad_norm": 1.3306478261947632, "learning_rate": 0.00018837519448766394, "loss": 2.0874, "step": 2625 }, { "epoch": 0.058355555555555556, "grad_norm": 1.4970335960388184, "learning_rate": 0.00018837074905534565, "loss": 2.4613, "step": 2626 }, { "epoch": 0.05837777777777778, "grad_norm": 1.0698506832122803, "learning_rate": 0.00018836630362302733, "loss": 0.9444, "step": 2627 }, { "epoch": 0.0584, "grad_norm": 0.9456402659416199, "learning_rate": 0.00018836185819070907, "loss": 0.8056, "step": 2628 }, { "epoch": 0.05842222222222222, "grad_norm": 1.119666576385498, "learning_rate": 0.00018835741275839075, "loss": 1.778, "step": 2629 }, { "epoch": 0.058444444444444445, "grad_norm": 1.1170711517333984, "learning_rate": 0.00018835296732607246, "loss": 1.6577, "step": 2630 }, { "epoch": 0.05846666666666667, "grad_norm": 1.4737907648086548, "learning_rate": 0.00018834852189375417, "loss": 2.0255, "step": 2631 }, { "epoch": 0.05848888888888889, "grad_norm": 0.8024235367774963, "learning_rate": 0.00018834407646143588, "loss": 0.042, "step": 2632 }, { "epoch": 0.05851111111111111, "grad_norm": 0.9196134209632874, "learning_rate": 0.0001883396310291176, "loss": 1.1848, "step": 2633 }, { "epoch": 0.05853333333333333, "grad_norm": 1.2150448560714722, "learning_rate": 0.0001883351855967993, "loss": 2.0621, "step": 2634 }, { "epoch": 0.058555555555555555, "grad_norm": 1.2711851596832275, "learning_rate": 0.000188330740164481, "loss": 2.3663, "step": 2635 }, { "epoch": 0.05857777777777778, "grad_norm": 1.1945533752441406, "learning_rate": 0.00018832629473216272, "loss": 1.9482, "step": 2636 }, { "epoch": 0.0586, "grad_norm": 1.3538880348205566, "learning_rate": 0.00018832184929984443, "loss": 2.0037, "step": 2637 }, { "epoch": 0.05862222222222222, "grad_norm": 1.2996848821640015, "learning_rate": 0.0001883174038675261, "loss": 1.845, "step": 2638 }, { "epoch": 0.058644444444444443, "grad_norm": 1.2119286060333252, "learning_rate": 0.00018831295843520785, "loss": 1.9236, "step": 2639 }, { "epoch": 0.058666666666666666, "grad_norm": 1.4044220447540283, "learning_rate": 0.00018830851300288953, "loss": 1.7563, "step": 2640 }, { "epoch": 0.05868888888888889, "grad_norm": 1.4642359018325806, "learning_rate": 0.00018830406757057124, "loss": 2.1331, "step": 2641 }, { "epoch": 0.05871111111111111, "grad_norm": 1.6892962455749512, "learning_rate": 0.00018829962213825295, "loss": 2.2671, "step": 2642 }, { "epoch": 0.05873333333333333, "grad_norm": 1.24393630027771, "learning_rate": 0.00018829517670593466, "loss": 2.1696, "step": 2643 }, { "epoch": 0.058755555555555554, "grad_norm": 1.2664800882339478, "learning_rate": 0.00018829073127361637, "loss": 1.893, "step": 2644 }, { "epoch": 0.058777777777777776, "grad_norm": 1.2955024242401123, "learning_rate": 0.00018828628584129808, "loss": 1.7497, "step": 2645 }, { "epoch": 0.0588, "grad_norm": 1.2515419721603394, "learning_rate": 0.0001882818404089798, "loss": 1.8957, "step": 2646 }, { "epoch": 0.05882222222222222, "grad_norm": 1.1638329029083252, "learning_rate": 0.00018827739497666147, "loss": 1.8699, "step": 2647 }, { "epoch": 0.05884444444444444, "grad_norm": 1.2965670824050903, "learning_rate": 0.0001882729495443432, "loss": 1.9793, "step": 2648 }, { "epoch": 0.058866666666666664, "grad_norm": 1.412473201751709, "learning_rate": 0.0001882685041120249, "loss": 1.4989, "step": 2649 }, { "epoch": 0.058888888888888886, "grad_norm": 1.6263394355773926, "learning_rate": 0.0001882640586797066, "loss": 1.9482, "step": 2650 }, { "epoch": 0.05891111111111111, "grad_norm": 0.9874531030654907, "learning_rate": 0.0001882596132473883, "loss": 1.5364, "step": 2651 }, { "epoch": 0.05893333333333333, "grad_norm": 1.2294578552246094, "learning_rate": 0.00018825516781507002, "loss": 2.4627, "step": 2652 }, { "epoch": 0.05895555555555555, "grad_norm": 1.0111150741577148, "learning_rate": 0.00018825072238275173, "loss": 2.3569, "step": 2653 }, { "epoch": 0.058977777777777775, "grad_norm": 0.9751931428909302, "learning_rate": 0.00018824627695043344, "loss": 2.2913, "step": 2654 }, { "epoch": 0.059, "grad_norm": 0.8416575193405151, "learning_rate": 0.00018824183151811515, "loss": 1.6153, "step": 2655 }, { "epoch": 0.05902222222222222, "grad_norm": 0.7639715075492859, "learning_rate": 0.00018823738608579686, "loss": 1.125, "step": 2656 }, { "epoch": 0.05904444444444444, "grad_norm": 1.108520746231079, "learning_rate": 0.00018823294065347857, "loss": 2.386, "step": 2657 }, { "epoch": 0.05906666666666667, "grad_norm": 1.0963854789733887, "learning_rate": 0.00018822849522116025, "loss": 2.1329, "step": 2658 }, { "epoch": 0.05908888888888889, "grad_norm": 1.2453919649124146, "learning_rate": 0.000188224049788842, "loss": 2.0869, "step": 2659 }, { "epoch": 0.059111111111111114, "grad_norm": 1.2493356466293335, "learning_rate": 0.00018821960435652367, "loss": 2.2241, "step": 2660 }, { "epoch": 0.059133333333333336, "grad_norm": 1.305132269859314, "learning_rate": 0.00018821515892420538, "loss": 2.146, "step": 2661 }, { "epoch": 0.05915555555555556, "grad_norm": 1.0485801696777344, "learning_rate": 0.00018821071349188712, "loss": 2.2145, "step": 2662 }, { "epoch": 0.05917777777777778, "grad_norm": 1.009095549583435, "learning_rate": 0.0001882062680595688, "loss": 2.0429, "step": 2663 }, { "epoch": 0.0592, "grad_norm": 1.1831285953521729, "learning_rate": 0.0001882018226272505, "loss": 2.0539, "step": 2664 }, { "epoch": 0.059222222222222225, "grad_norm": 1.1024904251098633, "learning_rate": 0.00018819737719493222, "loss": 1.4612, "step": 2665 }, { "epoch": 0.05924444444444445, "grad_norm": 1.5028462409973145, "learning_rate": 0.00018819293176261393, "loss": 2.0494, "step": 2666 }, { "epoch": 0.05926666666666667, "grad_norm": 1.0544180870056152, "learning_rate": 0.0001881884863302956, "loss": 1.8696, "step": 2667 }, { "epoch": 0.05928888888888889, "grad_norm": 1.3514580726623535, "learning_rate": 0.00018818404089797735, "loss": 2.3341, "step": 2668 }, { "epoch": 0.05931111111111111, "grad_norm": 1.277117371559143, "learning_rate": 0.00018817959546565903, "loss": 2.0593, "step": 2669 }, { "epoch": 0.059333333333333335, "grad_norm": 1.2876468896865845, "learning_rate": 0.00018817515003334074, "loss": 1.8874, "step": 2670 }, { "epoch": 0.05935555555555556, "grad_norm": 1.3006914854049683, "learning_rate": 0.00018817070460102248, "loss": 2.2106, "step": 2671 }, { "epoch": 0.05937777777777778, "grad_norm": 1.1542984247207642, "learning_rate": 0.00018816625916870416, "loss": 2.1074, "step": 2672 }, { "epoch": 0.0594, "grad_norm": 1.2653757333755493, "learning_rate": 0.0001881618137363859, "loss": 2.1737, "step": 2673 }, { "epoch": 0.059422222222222223, "grad_norm": 1.3577500581741333, "learning_rate": 0.00018815736830406758, "loss": 2.1686, "step": 2674 }, { "epoch": 0.059444444444444446, "grad_norm": 1.3510795831680298, "learning_rate": 0.0001881529228717493, "loss": 1.8249, "step": 2675 }, { "epoch": 0.05946666666666667, "grad_norm": 1.200465202331543, "learning_rate": 0.000188148477439431, "loss": 2.2109, "step": 2676 }, { "epoch": 0.05948888888888889, "grad_norm": 1.402846336364746, "learning_rate": 0.0001881440320071127, "loss": 2.086, "step": 2677 }, { "epoch": 0.05951111111111111, "grad_norm": 1.175559639930725, "learning_rate": 0.00018813958657479442, "loss": 2.0767, "step": 2678 }, { "epoch": 0.059533333333333334, "grad_norm": 1.5343458652496338, "learning_rate": 0.00018813514114247612, "loss": 2.2539, "step": 2679 }, { "epoch": 0.059555555555555556, "grad_norm": 1.3648189306259155, "learning_rate": 0.00018813069571015783, "loss": 1.8885, "step": 2680 }, { "epoch": 0.05957777777777778, "grad_norm": 1.2665992975234985, "learning_rate": 0.00018812625027783952, "loss": 1.9425, "step": 2681 }, { "epoch": 0.0596, "grad_norm": 1.395418643951416, "learning_rate": 0.00018812180484552125, "loss": 2.1067, "step": 2682 }, { "epoch": 0.05962222222222222, "grad_norm": 1.5796053409576416, "learning_rate": 0.00018811735941320294, "loss": 2.3931, "step": 2683 }, { "epoch": 0.059644444444444444, "grad_norm": 1.4654911756515503, "learning_rate": 0.00018811291398088465, "loss": 1.7199, "step": 2684 }, { "epoch": 0.059666666666666666, "grad_norm": 1.3232920169830322, "learning_rate": 0.00018810846854856636, "loss": 1.835, "step": 2685 }, { "epoch": 0.05968888888888889, "grad_norm": 1.433729648590088, "learning_rate": 0.00018810402311624807, "loss": 1.8563, "step": 2686 }, { "epoch": 0.05971111111111111, "grad_norm": 1.12021005153656, "learning_rate": 0.00018809957768392977, "loss": 1.7091, "step": 2687 }, { "epoch": 0.05973333333333333, "grad_norm": 1.5535043478012085, "learning_rate": 0.00018809513225161148, "loss": 1.6059, "step": 2688 }, { "epoch": 0.059755555555555555, "grad_norm": 1.2253813743591309, "learning_rate": 0.0001880906868192932, "loss": 1.7265, "step": 2689 }, { "epoch": 0.05977777777777778, "grad_norm": 1.642404317855835, "learning_rate": 0.00018808624138697488, "loss": 1.9222, "step": 2690 }, { "epoch": 0.0598, "grad_norm": 1.5431791543960571, "learning_rate": 0.0001880817959546566, "loss": 2.1426, "step": 2691 }, { "epoch": 0.05982222222222222, "grad_norm": 1.9136180877685547, "learning_rate": 0.0001880773505223383, "loss": 1.9685, "step": 2692 }, { "epoch": 0.05984444444444444, "grad_norm": 1.5058226585388184, "learning_rate": 0.00018807290509002003, "loss": 2.2879, "step": 2693 }, { "epoch": 0.059866666666666665, "grad_norm": 1.3893123865127563, "learning_rate": 0.00018806845965770172, "loss": 1.5688, "step": 2694 }, { "epoch": 0.05988888888888889, "grad_norm": 1.2570210695266724, "learning_rate": 0.00018806401422538342, "loss": 1.6843, "step": 2695 }, { "epoch": 0.05991111111111111, "grad_norm": 1.3790135383605957, "learning_rate": 0.00018805956879306513, "loss": 1.9682, "step": 2696 }, { "epoch": 0.05993333333333333, "grad_norm": 1.2676455974578857, "learning_rate": 0.00018805512336074684, "loss": 1.82, "step": 2697 }, { "epoch": 0.059955555555555554, "grad_norm": 1.3469589948654175, "learning_rate": 0.00018805067792842855, "loss": 1.9467, "step": 2698 }, { "epoch": 0.059977777777777776, "grad_norm": 1.5633183717727661, "learning_rate": 0.00018804623249611026, "loss": 1.7995, "step": 2699 }, { "epoch": 0.06, "grad_norm": 1.041155219078064, "learning_rate": 0.00018804178706379197, "loss": 0.8966, "step": 2700 }, { "epoch": 0.06002222222222222, "grad_norm": 1.1135330200195312, "learning_rate": 0.00018803734163147366, "loss": 3.031, "step": 2701 }, { "epoch": 0.06004444444444444, "grad_norm": 1.0869230031967163, "learning_rate": 0.0001880328961991554, "loss": 2.6311, "step": 2702 }, { "epoch": 0.060066666666666664, "grad_norm": 1.550600290298462, "learning_rate": 0.00018802845076683707, "loss": 0.0537, "step": 2703 }, { "epoch": 0.060088888888888886, "grad_norm": 1.0058884620666504, "learning_rate": 0.00018802400533451878, "loss": 2.2598, "step": 2704 }, { "epoch": 0.06011111111111111, "grad_norm": 1.100688099861145, "learning_rate": 0.0001880195599022005, "loss": 2.4148, "step": 2705 }, { "epoch": 0.06013333333333333, "grad_norm": 1.2154396772384644, "learning_rate": 0.0001880151144698822, "loss": 2.0538, "step": 2706 }, { "epoch": 0.06015555555555555, "grad_norm": 1.4567221403121948, "learning_rate": 0.0001880106690375639, "loss": 2.2234, "step": 2707 }, { "epoch": 0.060177777777777774, "grad_norm": 1.0870659351348877, "learning_rate": 0.00018800622360524562, "loss": 2.2513, "step": 2708 }, { "epoch": 0.0602, "grad_norm": 1.1207247972488403, "learning_rate": 0.00018800177817292733, "loss": 2.1935, "step": 2709 }, { "epoch": 0.060222222222222226, "grad_norm": 1.1757601499557495, "learning_rate": 0.00018799733274060901, "loss": 2.0448, "step": 2710 }, { "epoch": 0.06024444444444445, "grad_norm": 1.1902306079864502, "learning_rate": 0.00018799288730829075, "loss": 2.0958, "step": 2711 }, { "epoch": 0.06026666666666667, "grad_norm": 1.323156476020813, "learning_rate": 0.00018798844187597243, "loss": 2.2326, "step": 2712 }, { "epoch": 0.06028888888888889, "grad_norm": 1.3958797454833984, "learning_rate": 0.00018798399644365417, "loss": 2.3245, "step": 2713 }, { "epoch": 0.060311111111111114, "grad_norm": 1.2544927597045898, "learning_rate": 0.00018797955101133585, "loss": 2.0751, "step": 2714 }, { "epoch": 0.060333333333333336, "grad_norm": 1.2878230810165405, "learning_rate": 0.00018797510557901756, "loss": 2.1235, "step": 2715 }, { "epoch": 0.06035555555555556, "grad_norm": 1.384193778038025, "learning_rate": 0.00018797066014669927, "loss": 2.3822, "step": 2716 }, { "epoch": 0.06037777777777778, "grad_norm": 1.3507394790649414, "learning_rate": 0.00018796621471438098, "loss": 2.4194, "step": 2717 }, { "epoch": 0.0604, "grad_norm": 1.3843426704406738, "learning_rate": 0.0001879617692820627, "loss": 2.7205, "step": 2718 }, { "epoch": 0.060422222222222224, "grad_norm": 1.4611835479736328, "learning_rate": 0.0001879573238497444, "loss": 2.2083, "step": 2719 }, { "epoch": 0.060444444444444446, "grad_norm": 1.0997921228408813, "learning_rate": 0.0001879528784174261, "loss": 1.6927, "step": 2720 }, { "epoch": 0.06046666666666667, "grad_norm": 1.1961749792099, "learning_rate": 0.0001879484329851078, "loss": 1.6353, "step": 2721 }, { "epoch": 0.06048888888888889, "grad_norm": 1.074511170387268, "learning_rate": 0.00018794398755278953, "loss": 2.0993, "step": 2722 }, { "epoch": 0.06051111111111111, "grad_norm": 1.551523208618164, "learning_rate": 0.0001879395421204712, "loss": 1.8092, "step": 2723 }, { "epoch": 0.060533333333333335, "grad_norm": 1.3680505752563477, "learning_rate": 0.00018793509668815292, "loss": 1.9093, "step": 2724 }, { "epoch": 0.06055555555555556, "grad_norm": 1.3623892068862915, "learning_rate": 0.00018793065125583463, "loss": 2.1595, "step": 2725 }, { "epoch": 0.06057777777777778, "grad_norm": 1.5234910249710083, "learning_rate": 0.00018792620582351634, "loss": 2.2459, "step": 2726 }, { "epoch": 0.0606, "grad_norm": 1.1238843202590942, "learning_rate": 0.00018792176039119805, "loss": 1.7761, "step": 2727 }, { "epoch": 0.06062222222222222, "grad_norm": 1.1749337911605835, "learning_rate": 0.00018791731495887976, "loss": 2.0432, "step": 2728 }, { "epoch": 0.060644444444444445, "grad_norm": 1.3248710632324219, "learning_rate": 0.00018791286952656147, "loss": 2.196, "step": 2729 }, { "epoch": 0.06066666666666667, "grad_norm": 1.2294011116027832, "learning_rate": 0.00018790842409424318, "loss": 2.0522, "step": 2730 }, { "epoch": 0.06068888888888889, "grad_norm": 1.3807874917984009, "learning_rate": 0.0001879039786619249, "loss": 2.4806, "step": 2731 }, { "epoch": 0.06071111111111111, "grad_norm": 1.2333709001541138, "learning_rate": 0.00018789953322960657, "loss": 2.2595, "step": 2732 }, { "epoch": 0.060733333333333334, "grad_norm": 1.2325271368026733, "learning_rate": 0.0001878950877972883, "loss": 2.0989, "step": 2733 }, { "epoch": 0.060755555555555556, "grad_norm": 1.327795147895813, "learning_rate": 0.00018789064236497, "loss": 1.5228, "step": 2734 }, { "epoch": 0.06077777777777778, "grad_norm": 1.1936326026916504, "learning_rate": 0.0001878861969326517, "loss": 2.1216, "step": 2735 }, { "epoch": 0.0608, "grad_norm": 1.2500593662261963, "learning_rate": 0.00018788175150033344, "loss": 1.952, "step": 2736 }, { "epoch": 0.06082222222222222, "grad_norm": 1.244486927986145, "learning_rate": 0.00018787730606801512, "loss": 2.3637, "step": 2737 }, { "epoch": 0.060844444444444444, "grad_norm": 1.229892373085022, "learning_rate": 0.00018787286063569683, "loss": 1.8447, "step": 2738 }, { "epoch": 0.060866666666666666, "grad_norm": 1.2490308284759521, "learning_rate": 0.00018786841520337854, "loss": 2.2677, "step": 2739 }, { "epoch": 0.06088888888888889, "grad_norm": 1.5612094402313232, "learning_rate": 0.00018786396977106025, "loss": 2.5267, "step": 2740 }, { "epoch": 0.06091111111111111, "grad_norm": 1.1999012231826782, "learning_rate": 0.00018785952433874193, "loss": 1.9312, "step": 2741 }, { "epoch": 0.06093333333333333, "grad_norm": 1.425302505493164, "learning_rate": 0.00018785507890642367, "loss": 2.3815, "step": 2742 }, { "epoch": 0.060955555555555554, "grad_norm": 1.2308077812194824, "learning_rate": 0.00018785063347410535, "loss": 1.955, "step": 2743 }, { "epoch": 0.06097777777777778, "grad_norm": 1.270875096321106, "learning_rate": 0.00018784618804178706, "loss": 1.5138, "step": 2744 }, { "epoch": 0.061, "grad_norm": 1.3588433265686035, "learning_rate": 0.0001878417426094688, "loss": 2.1025, "step": 2745 }, { "epoch": 0.06102222222222222, "grad_norm": 1.3648747205734253, "learning_rate": 0.00018783729717715048, "loss": 1.4719, "step": 2746 }, { "epoch": 0.06104444444444444, "grad_norm": 1.8942270278930664, "learning_rate": 0.0001878328517448322, "loss": 1.798, "step": 2747 }, { "epoch": 0.061066666666666665, "grad_norm": 1.2607039213180542, "learning_rate": 0.0001878284063125139, "loss": 1.6084, "step": 2748 }, { "epoch": 0.06108888888888889, "grad_norm": 1.2803078889846802, "learning_rate": 0.0001878239608801956, "loss": 1.4297, "step": 2749 }, { "epoch": 0.06111111111111111, "grad_norm": 1.1481022834777832, "learning_rate": 0.00018781951544787732, "loss": 1.3985, "step": 2750 }, { "epoch": 0.06113333333333333, "grad_norm": 1.6368448734283447, "learning_rate": 0.00018781507001555903, "loss": 0.1033, "step": 2751 }, { "epoch": 0.06115555555555555, "grad_norm": 1.005434274673462, "learning_rate": 0.00018781062458324074, "loss": 2.004, "step": 2752 }, { "epoch": 0.061177777777777775, "grad_norm": 1.2184756994247437, "learning_rate": 0.00018780617915092245, "loss": 2.3302, "step": 2753 }, { "epoch": 0.0612, "grad_norm": 1.206376314163208, "learning_rate": 0.00018780173371860416, "loss": 2.659, "step": 2754 }, { "epoch": 0.06122222222222222, "grad_norm": 1.170143961906433, "learning_rate": 0.00018779728828628584, "loss": 2.304, "step": 2755 }, { "epoch": 0.06124444444444444, "grad_norm": 1.1334527730941772, "learning_rate": 0.00018779284285396758, "loss": 2.2875, "step": 2756 }, { "epoch": 0.061266666666666664, "grad_norm": 1.1614525318145752, "learning_rate": 0.00018778839742164926, "loss": 2.3509, "step": 2757 }, { "epoch": 0.061288888888888886, "grad_norm": 1.0268628597259521, "learning_rate": 0.00018778395198933097, "loss": 1.679, "step": 2758 }, { "epoch": 0.06131111111111111, "grad_norm": 1.2325562238693237, "learning_rate": 0.00018777950655701268, "loss": 2.335, "step": 2759 }, { "epoch": 0.06133333333333333, "grad_norm": 1.2036250829696655, "learning_rate": 0.0001877750611246944, "loss": 2.6135, "step": 2760 }, { "epoch": 0.06135555555555556, "grad_norm": 1.0553152561187744, "learning_rate": 0.0001877706156923761, "loss": 2.2641, "step": 2761 }, { "epoch": 0.06137777777777778, "grad_norm": 1.1645313501358032, "learning_rate": 0.0001877661702600578, "loss": 2.5595, "step": 2762 }, { "epoch": 0.0614, "grad_norm": 1.290037989616394, "learning_rate": 0.00018776172482773952, "loss": 2.081, "step": 2763 }, { "epoch": 0.061422222222222225, "grad_norm": 1.2892948389053345, "learning_rate": 0.0001877572793954212, "loss": 2.6998, "step": 2764 }, { "epoch": 0.06144444444444445, "grad_norm": 0.9605525135993958, "learning_rate": 0.00018775283396310294, "loss": 1.1398, "step": 2765 }, { "epoch": 0.06146666666666667, "grad_norm": 0.8386362195014954, "learning_rate": 0.00018774838853078462, "loss": 0.9248, "step": 2766 }, { "epoch": 0.06148888888888889, "grad_norm": 1.2595109939575195, "learning_rate": 0.00018774394309846633, "loss": 2.1991, "step": 2767 }, { "epoch": 0.061511111111111114, "grad_norm": 1.2148172855377197, "learning_rate": 0.00018773949766614804, "loss": 1.8452, "step": 2768 }, { "epoch": 0.061533333333333336, "grad_norm": 1.225450873374939, "learning_rate": 0.00018773505223382975, "loss": 2.3072, "step": 2769 }, { "epoch": 0.06155555555555556, "grad_norm": 0.9813886880874634, "learning_rate": 0.00018773060680151146, "loss": 1.7563, "step": 2770 }, { "epoch": 0.06157777777777778, "grad_norm": 1.2824733257293701, "learning_rate": 0.00018772616136919317, "loss": 2.5918, "step": 2771 }, { "epoch": 0.0616, "grad_norm": 1.4012054204940796, "learning_rate": 0.00018772171593687488, "loss": 1.8665, "step": 2772 }, { "epoch": 0.061622222222222224, "grad_norm": 1.5517586469650269, "learning_rate": 0.00018771727050455659, "loss": 2.2188, "step": 2773 }, { "epoch": 0.061644444444444446, "grad_norm": 1.2170881032943726, "learning_rate": 0.0001877128250722383, "loss": 2.013, "step": 2774 }, { "epoch": 0.06166666666666667, "grad_norm": 1.2392975091934204, "learning_rate": 0.00018770837963991998, "loss": 1.8115, "step": 2775 }, { "epoch": 0.06168888888888889, "grad_norm": 1.1665241718292236, "learning_rate": 0.00018770393420760171, "loss": 1.975, "step": 2776 }, { "epoch": 0.06171111111111111, "grad_norm": 1.4797453880310059, "learning_rate": 0.0001876994887752834, "loss": 1.9079, "step": 2777 }, { "epoch": 0.061733333333333335, "grad_norm": 1.7685197591781616, "learning_rate": 0.0001876950433429651, "loss": 2.7826, "step": 2778 }, { "epoch": 0.06175555555555556, "grad_norm": 1.423384189605713, "learning_rate": 0.00018769059791064682, "loss": 2.3721, "step": 2779 }, { "epoch": 0.06177777777777778, "grad_norm": 1.2108656167984009, "learning_rate": 0.00018768615247832853, "loss": 2.2184, "step": 2780 }, { "epoch": 0.0618, "grad_norm": 1.3421804904937744, "learning_rate": 0.00018768170704601024, "loss": 2.1258, "step": 2781 }, { "epoch": 0.06182222222222222, "grad_norm": 1.1913560628890991, "learning_rate": 0.00018767726161369194, "loss": 1.6139, "step": 2782 }, { "epoch": 0.061844444444444445, "grad_norm": 1.3481956720352173, "learning_rate": 0.00018767281618137365, "loss": 2.3179, "step": 2783 }, { "epoch": 0.06186666666666667, "grad_norm": 1.3821300268173218, "learning_rate": 0.00018766837074905534, "loss": 2.3901, "step": 2784 }, { "epoch": 0.06188888888888889, "grad_norm": 1.388374924659729, "learning_rate": 0.00018766392531673707, "loss": 1.9882, "step": 2785 }, { "epoch": 0.06191111111111111, "grad_norm": 1.2671271562576294, "learning_rate": 0.00018765947988441876, "loss": 1.65, "step": 2786 }, { "epoch": 0.06193333333333333, "grad_norm": 1.394394874572754, "learning_rate": 0.0001876550344521005, "loss": 1.7084, "step": 2787 }, { "epoch": 0.061955555555555555, "grad_norm": 1.286948323249817, "learning_rate": 0.00018765058901978218, "loss": 2.0987, "step": 2788 }, { "epoch": 0.06197777777777778, "grad_norm": 1.3643842935562134, "learning_rate": 0.00018764614358746388, "loss": 2.1491, "step": 2789 }, { "epoch": 0.062, "grad_norm": 1.3351410627365112, "learning_rate": 0.0001876416981551456, "loss": 2.0937, "step": 2790 }, { "epoch": 0.06202222222222222, "grad_norm": 1.4634209871292114, "learning_rate": 0.0001876372527228273, "loss": 1.7482, "step": 2791 }, { "epoch": 0.062044444444444444, "grad_norm": 1.1727733612060547, "learning_rate": 0.00018763280729050901, "loss": 1.5837, "step": 2792 }, { "epoch": 0.062066666666666666, "grad_norm": 1.1772867441177368, "learning_rate": 0.00018762836185819072, "loss": 1.4568, "step": 2793 }, { "epoch": 0.06208888888888889, "grad_norm": 1.4134163856506348, "learning_rate": 0.00018762391642587243, "loss": 2.112, "step": 2794 }, { "epoch": 0.06211111111111111, "grad_norm": 1.1861469745635986, "learning_rate": 0.00018761947099355412, "loss": 1.8895, "step": 2795 }, { "epoch": 0.06213333333333333, "grad_norm": 1.4194509983062744, "learning_rate": 0.00018761502556123585, "loss": 2.0256, "step": 2796 }, { "epoch": 0.062155555555555554, "grad_norm": 1.5349948406219482, "learning_rate": 0.00018761058012891753, "loss": 2.2892, "step": 2797 }, { "epoch": 0.062177777777777776, "grad_norm": 1.7592523097991943, "learning_rate": 0.00018760613469659924, "loss": 2.0511, "step": 2798 }, { "epoch": 0.0622, "grad_norm": 1.3552824258804321, "learning_rate": 0.00018760168926428095, "loss": 1.7338, "step": 2799 }, { "epoch": 0.06222222222222222, "grad_norm": 1.3405883312225342, "learning_rate": 0.00018759724383196266, "loss": 1.4886, "step": 2800 }, { "epoch": 0.06224444444444444, "grad_norm": 1.2436882257461548, "learning_rate": 0.00018759279839964437, "loss": 2.8243, "step": 2801 }, { "epoch": 0.062266666666666665, "grad_norm": 1.0085952281951904, "learning_rate": 0.00018758835296732608, "loss": 2.513, "step": 2802 }, { "epoch": 0.06228888888888889, "grad_norm": 1.0170789957046509, "learning_rate": 0.0001875839075350078, "loss": 2.3906, "step": 2803 }, { "epoch": 0.06231111111111111, "grad_norm": 1.0445818901062012, "learning_rate": 0.00018757946210268947, "loss": 2.6399, "step": 2804 }, { "epoch": 0.06233333333333333, "grad_norm": 1.386362910270691, "learning_rate": 0.0001875750166703712, "loss": 2.7634, "step": 2805 }, { "epoch": 0.06235555555555555, "grad_norm": 1.106680989265442, "learning_rate": 0.0001875705712380529, "loss": 1.8372, "step": 2806 }, { "epoch": 0.062377777777777775, "grad_norm": 1.2204889059066772, "learning_rate": 0.00018756612580573463, "loss": 2.5184, "step": 2807 }, { "epoch": 0.0624, "grad_norm": 1.1121426820755005, "learning_rate": 0.0001875616803734163, "loss": 2.5418, "step": 2808 }, { "epoch": 0.06242222222222222, "grad_norm": 1.4679434299468994, "learning_rate": 0.00018755723494109802, "loss": 1.3454, "step": 2809 }, { "epoch": 0.06244444444444444, "grad_norm": 0.9511885046958923, "learning_rate": 0.00018755278950877976, "loss": 1.1478, "step": 2810 }, { "epoch": 0.06246666666666666, "grad_norm": 1.0716321468353271, "learning_rate": 0.00018754834407646144, "loss": 1.9095, "step": 2811 }, { "epoch": 0.062488888888888885, "grad_norm": 1.140427827835083, "learning_rate": 0.00018754389864414315, "loss": 2.4517, "step": 2812 }, { "epoch": 0.06251111111111111, "grad_norm": 1.4585435390472412, "learning_rate": 0.00018753945321182486, "loss": 2.5529, "step": 2813 }, { "epoch": 0.06253333333333333, "grad_norm": 1.23036527633667, "learning_rate": 0.00018753500777950657, "loss": 2.0753, "step": 2814 }, { "epoch": 0.06255555555555556, "grad_norm": 1.2273170948028564, "learning_rate": 0.00018753056234718825, "loss": 2.147, "step": 2815 }, { "epoch": 0.06257777777777777, "grad_norm": 1.2008864879608154, "learning_rate": 0.00018752611691487, "loss": 2.1604, "step": 2816 }, { "epoch": 0.0626, "grad_norm": 1.2139441967010498, "learning_rate": 0.00018752167148255167, "loss": 2.3451, "step": 2817 }, { "epoch": 0.06262222222222222, "grad_norm": 1.1427327394485474, "learning_rate": 0.00018751722605023338, "loss": 2.1952, "step": 2818 }, { "epoch": 0.06264444444444445, "grad_norm": 1.1389628648757935, "learning_rate": 0.00018751278061791512, "loss": 2.0855, "step": 2819 }, { "epoch": 0.06266666666666666, "grad_norm": 1.625450849533081, "learning_rate": 0.0001875083351855968, "loss": 2.9112, "step": 2820 }, { "epoch": 0.06268888888888889, "grad_norm": 1.1499130725860596, "learning_rate": 0.0001875038897532785, "loss": 1.9011, "step": 2821 }, { "epoch": 0.0627111111111111, "grad_norm": 1.1928070783615112, "learning_rate": 0.00018749944432096022, "loss": 1.962, "step": 2822 }, { "epoch": 0.06273333333333334, "grad_norm": 1.2368239164352417, "learning_rate": 0.00018749499888864193, "loss": 2.0371, "step": 2823 }, { "epoch": 0.06275555555555555, "grad_norm": 1.1952697038650513, "learning_rate": 0.0001874905534563236, "loss": 2.1889, "step": 2824 }, { "epoch": 0.06277777777777778, "grad_norm": 1.3594785928726196, "learning_rate": 0.00018748610802400535, "loss": 2.292, "step": 2825 }, { "epoch": 0.0628, "grad_norm": 1.1406694650650024, "learning_rate": 0.00018748166259168706, "loss": 1.6252, "step": 2826 }, { "epoch": 0.06282222222222222, "grad_norm": 1.325881004333496, "learning_rate": 0.00018747721715936877, "loss": 2.0782, "step": 2827 }, { "epoch": 0.06284444444444444, "grad_norm": 1.143120527267456, "learning_rate": 0.00018747277172705048, "loss": 2.2459, "step": 2828 }, { "epoch": 0.06286666666666667, "grad_norm": 1.4137969017028809, "learning_rate": 0.00018746832629473216, "loss": 2.407, "step": 2829 }, { "epoch": 0.06288888888888888, "grad_norm": 1.3756927251815796, "learning_rate": 0.0001874638808624139, "loss": 2.4468, "step": 2830 }, { "epoch": 0.06291111111111111, "grad_norm": 1.468861699104309, "learning_rate": 0.00018745943543009558, "loss": 1.8074, "step": 2831 }, { "epoch": 0.06293333333333333, "grad_norm": 1.2983373403549194, "learning_rate": 0.0001874549899977773, "loss": 0.8226, "step": 2832 }, { "epoch": 0.06295555555555556, "grad_norm": 1.1781848669052124, "learning_rate": 0.000187450544565459, "loss": 2.1623, "step": 2833 }, { "epoch": 0.06297777777777777, "grad_norm": 1.2764322757720947, "learning_rate": 0.0001874460991331407, "loss": 2.144, "step": 2834 }, { "epoch": 0.063, "grad_norm": 1.711207628250122, "learning_rate": 0.00018744165370082242, "loss": 1.8346, "step": 2835 }, { "epoch": 0.06302222222222222, "grad_norm": 1.279605507850647, "learning_rate": 0.00018743720826850413, "loss": 2.3286, "step": 2836 }, { "epoch": 0.06304444444444444, "grad_norm": 1.5101478099822998, "learning_rate": 0.00018743276283618584, "loss": 1.8199, "step": 2837 }, { "epoch": 0.06306666666666666, "grad_norm": 1.287416696548462, "learning_rate": 0.00018742831740386752, "loss": 2.0824, "step": 2838 }, { "epoch": 0.06308888888888889, "grad_norm": 1.3675342798233032, "learning_rate": 0.00018742387197154926, "loss": 2.1448, "step": 2839 }, { "epoch": 0.06311111111111112, "grad_norm": 1.4690383672714233, "learning_rate": 0.00018741942653923094, "loss": 2.0374, "step": 2840 }, { "epoch": 0.06313333333333333, "grad_norm": 1.097183346748352, "learning_rate": 0.00018741498110691265, "loss": 1.521, "step": 2841 }, { "epoch": 0.06315555555555556, "grad_norm": 1.5291551351547241, "learning_rate": 0.00018741053567459436, "loss": 2.2333, "step": 2842 }, { "epoch": 0.06317777777777778, "grad_norm": 1.4804224967956543, "learning_rate": 0.00018740609024227607, "loss": 2.4405, "step": 2843 }, { "epoch": 0.0632, "grad_norm": 1.5842746496200562, "learning_rate": 0.00018740164480995778, "loss": 1.8985, "step": 2844 }, { "epoch": 0.06322222222222222, "grad_norm": 1.1302268505096436, "learning_rate": 0.0001873971993776395, "loss": 1.8275, "step": 2845 }, { "epoch": 0.06324444444444445, "grad_norm": 1.2689913511276245, "learning_rate": 0.0001873927539453212, "loss": 1.718, "step": 2846 }, { "epoch": 0.06326666666666667, "grad_norm": 1.7518043518066406, "learning_rate": 0.0001873883085130029, "loss": 1.5398, "step": 2847 }, { "epoch": 0.0632888888888889, "grad_norm": 1.5163757801055908, "learning_rate": 0.00018738386308068462, "loss": 2.1679, "step": 2848 }, { "epoch": 0.06331111111111111, "grad_norm": 1.617437481880188, "learning_rate": 0.0001873794176483663, "loss": 2.0754, "step": 2849 }, { "epoch": 0.06333333333333334, "grad_norm": 1.4291324615478516, "learning_rate": 0.00018737497221604804, "loss": 1.8027, "step": 2850 }, { "epoch": 0.06335555555555555, "grad_norm": 1.1678494215011597, "learning_rate": 0.00018737052678372972, "loss": 2.2499, "step": 2851 }, { "epoch": 0.06337777777777778, "grad_norm": 1.0958876609802246, "learning_rate": 0.00018736608135141143, "loss": 1.8325, "step": 2852 }, { "epoch": 0.0634, "grad_norm": 1.0336941480636597, "learning_rate": 0.00018736163591909314, "loss": 2.2601, "step": 2853 }, { "epoch": 0.06342222222222223, "grad_norm": 1.4533902406692505, "learning_rate": 0.00018735719048677485, "loss": 2.7845, "step": 2854 }, { "epoch": 0.06344444444444444, "grad_norm": 1.1829084157943726, "learning_rate": 0.00018735274505445656, "loss": 2.0914, "step": 2855 }, { "epoch": 0.06346666666666667, "grad_norm": 1.1751196384429932, "learning_rate": 0.00018734829962213827, "loss": 2.3863, "step": 2856 }, { "epoch": 0.06348888888888889, "grad_norm": 1.1886322498321533, "learning_rate": 0.00018734385418981998, "loss": 2.1591, "step": 2857 }, { "epoch": 0.06351111111111112, "grad_norm": 1.1325668096542358, "learning_rate": 0.00018733940875750166, "loss": 2.0609, "step": 2858 }, { "epoch": 0.06353333333333333, "grad_norm": 1.2165454626083374, "learning_rate": 0.0001873349633251834, "loss": 1.9328, "step": 2859 }, { "epoch": 0.06355555555555556, "grad_norm": 1.6444909572601318, "learning_rate": 0.00018733051789286508, "loss": 2.1612, "step": 2860 }, { "epoch": 0.06357777777777777, "grad_norm": 1.1900150775909424, "learning_rate": 0.0001873260724605468, "loss": 2.0717, "step": 2861 }, { "epoch": 0.0636, "grad_norm": 1.4153571128845215, "learning_rate": 0.0001873216270282285, "loss": 2.2644, "step": 2862 }, { "epoch": 0.06362222222222222, "grad_norm": 1.2564882040023804, "learning_rate": 0.0001873171815959102, "loss": 2.4158, "step": 2863 }, { "epoch": 0.06364444444444445, "grad_norm": 1.398049235343933, "learning_rate": 0.00018731273616359192, "loss": 2.5145, "step": 2864 }, { "epoch": 0.06366666666666666, "grad_norm": 1.2139917612075806, "learning_rate": 0.00018730829073127363, "loss": 1.9035, "step": 2865 }, { "epoch": 0.06368888888888889, "grad_norm": 1.1815810203552246, "learning_rate": 0.00018730384529895534, "loss": 1.9507, "step": 2866 }, { "epoch": 0.06371111111111111, "grad_norm": 1.2247095108032227, "learning_rate": 0.00018729939986663705, "loss": 1.6939, "step": 2867 }, { "epoch": 0.06373333333333334, "grad_norm": 1.1871031522750854, "learning_rate": 0.00018729495443431876, "loss": 1.7179, "step": 2868 }, { "epoch": 0.06375555555555555, "grad_norm": 1.065414309501648, "learning_rate": 0.00018729050900200044, "loss": 1.7596, "step": 2869 }, { "epoch": 0.06377777777777778, "grad_norm": 1.3309180736541748, "learning_rate": 0.00018728606356968217, "loss": 2.2074, "step": 2870 }, { "epoch": 0.0638, "grad_norm": 1.3962008953094482, "learning_rate": 0.00018728161813736386, "loss": 2.3044, "step": 2871 }, { "epoch": 0.06382222222222222, "grad_norm": 1.196290373802185, "learning_rate": 0.00018727717270504557, "loss": 2.0767, "step": 2872 }, { "epoch": 0.06384444444444444, "grad_norm": 1.361983060836792, "learning_rate": 0.00018727272727272728, "loss": 1.5672, "step": 2873 }, { "epoch": 0.06386666666666667, "grad_norm": 1.329243779182434, "learning_rate": 0.00018726828184040899, "loss": 2.134, "step": 2874 }, { "epoch": 0.06388888888888888, "grad_norm": 1.4311535358428955, "learning_rate": 0.0001872638364080907, "loss": 1.9253, "step": 2875 }, { "epoch": 0.06391111111111111, "grad_norm": 1.2310140132904053, "learning_rate": 0.0001872593909757724, "loss": 2.399, "step": 2876 }, { "epoch": 0.06393333333333333, "grad_norm": 1.211095929145813, "learning_rate": 0.00018725494554345411, "loss": 1.9466, "step": 2877 }, { "epoch": 0.06395555555555556, "grad_norm": 1.2007399797439575, "learning_rate": 0.0001872505001111358, "loss": 0.9996, "step": 2878 }, { "epoch": 0.06397777777777777, "grad_norm": 0.9361677169799805, "learning_rate": 0.00018724605467881753, "loss": 0.7916, "step": 2879 }, { "epoch": 0.064, "grad_norm": 1.1869984865188599, "learning_rate": 0.00018724160924649922, "loss": 1.9986, "step": 2880 }, { "epoch": 0.06402222222222222, "grad_norm": 1.2744450569152832, "learning_rate": 0.00018723716381418093, "loss": 2.0631, "step": 2881 }, { "epoch": 0.06404444444444445, "grad_norm": 1.4359490871429443, "learning_rate": 0.00018723271838186264, "loss": 2.2638, "step": 2882 }, { "epoch": 0.06406666666666666, "grad_norm": 1.4689186811447144, "learning_rate": 0.00018722827294954435, "loss": 2.24, "step": 2883 }, { "epoch": 0.06408888888888889, "grad_norm": 1.5831794738769531, "learning_rate": 0.00018722382751722608, "loss": 1.9336, "step": 2884 }, { "epoch": 0.0641111111111111, "grad_norm": 1.377138376235962, "learning_rate": 0.00018721938208490776, "loss": 1.7798, "step": 2885 }, { "epoch": 0.06413333333333333, "grad_norm": 1.2785342931747437, "learning_rate": 0.00018721493665258947, "loss": 1.6762, "step": 2886 }, { "epoch": 0.06415555555555555, "grad_norm": 1.338173270225525, "learning_rate": 0.00018721049122027118, "loss": 2.1951, "step": 2887 }, { "epoch": 0.06417777777777778, "grad_norm": 1.2330443859100342, "learning_rate": 0.0001872060457879529, "loss": 1.7759, "step": 2888 }, { "epoch": 0.0642, "grad_norm": 1.123676061630249, "learning_rate": 0.00018720160035563458, "loss": 1.7727, "step": 2889 }, { "epoch": 0.06422222222222222, "grad_norm": 1.535964846611023, "learning_rate": 0.0001871971549233163, "loss": 2.4233, "step": 2890 }, { "epoch": 0.06424444444444445, "grad_norm": 1.6187751293182373, "learning_rate": 0.000187192709490998, "loss": 2.2979, "step": 2891 }, { "epoch": 0.06426666666666667, "grad_norm": 1.4702938795089722, "learning_rate": 0.0001871882640586797, "loss": 1.7224, "step": 2892 }, { "epoch": 0.0642888888888889, "grad_norm": 1.23790442943573, "learning_rate": 0.00018718381862636144, "loss": 1.9536, "step": 2893 }, { "epoch": 0.06431111111111111, "grad_norm": 3.832672357559204, "learning_rate": 0.00018717937319404312, "loss": 1.5924, "step": 2894 }, { "epoch": 0.06433333333333334, "grad_norm": 1.7005996704101562, "learning_rate": 0.00018717492776172483, "loss": 2.1979, "step": 2895 }, { "epoch": 0.06435555555555555, "grad_norm": 1.3920700550079346, "learning_rate": 0.00018717048232940654, "loss": 2.0793, "step": 2896 }, { "epoch": 0.06437777777777778, "grad_norm": 1.4044344425201416, "learning_rate": 0.00018716603689708825, "loss": 2.0541, "step": 2897 }, { "epoch": 0.0644, "grad_norm": 0.8926104307174683, "learning_rate": 0.00018716159146476994, "loss": 0.068, "step": 2898 }, { "epoch": 0.06442222222222223, "grad_norm": 1.3923569917678833, "learning_rate": 0.00018715714603245167, "loss": 2.0106, "step": 2899 }, { "epoch": 0.06444444444444444, "grad_norm": 1.5569005012512207, "learning_rate": 0.00018715270060013338, "loss": 2.3801, "step": 2900 }, { "epoch": 0.06446666666666667, "grad_norm": 1.1904070377349854, "learning_rate": 0.0001871482551678151, "loss": 2.3971, "step": 2901 }, { "epoch": 0.06448888888888889, "grad_norm": 1.1103323698043823, "learning_rate": 0.0001871438097354968, "loss": 2.9624, "step": 2902 }, { "epoch": 0.06451111111111112, "grad_norm": 1.1648145914077759, "learning_rate": 0.00018713936430317848, "loss": 2.8519, "step": 2903 }, { "epoch": 0.06453333333333333, "grad_norm": 1.321471095085144, "learning_rate": 0.00018713491887086022, "loss": 2.2298, "step": 2904 }, { "epoch": 0.06455555555555556, "grad_norm": 1.0446627140045166, "learning_rate": 0.0001871304734385419, "loss": 1.8494, "step": 2905 }, { "epoch": 0.06457777777777778, "grad_norm": 1.0981947183609009, "learning_rate": 0.0001871260280062236, "loss": 2.3779, "step": 2906 }, { "epoch": 0.0646, "grad_norm": 1.2915189266204834, "learning_rate": 0.00018712158257390532, "loss": 2.555, "step": 2907 }, { "epoch": 0.06462222222222222, "grad_norm": 1.1062654256820679, "learning_rate": 0.00018711713714158703, "loss": 1.9837, "step": 2908 }, { "epoch": 0.06464444444444445, "grad_norm": 1.5189040899276733, "learning_rate": 0.00018711269170926874, "loss": 2.3476, "step": 2909 }, { "epoch": 0.06466666666666666, "grad_norm": 0.9821382761001587, "learning_rate": 0.00018710824627695045, "loss": 1.9061, "step": 2910 }, { "epoch": 0.06468888888888889, "grad_norm": 1.4676059484481812, "learning_rate": 0.00018710380084463216, "loss": 0.9321, "step": 2911 }, { "epoch": 0.06471111111111111, "grad_norm": 1.2174110412597656, "learning_rate": 0.00018709935541231384, "loss": 2.587, "step": 2912 }, { "epoch": 0.06473333333333334, "grad_norm": 1.4045873880386353, "learning_rate": 0.00018709490997999558, "loss": 2.0754, "step": 2913 }, { "epoch": 0.06475555555555555, "grad_norm": 1.3377821445465088, "learning_rate": 0.00018709046454767726, "loss": 2.4397, "step": 2914 }, { "epoch": 0.06477777777777778, "grad_norm": 1.3285831212997437, "learning_rate": 0.00018708601911535897, "loss": 2.3949, "step": 2915 }, { "epoch": 0.0648, "grad_norm": 1.1161266565322876, "learning_rate": 0.00018708157368304068, "loss": 2.1046, "step": 2916 }, { "epoch": 0.06482222222222223, "grad_norm": 1.2522786855697632, "learning_rate": 0.0001870771282507224, "loss": 2.0933, "step": 2917 }, { "epoch": 0.06484444444444444, "grad_norm": 1.0407394170761108, "learning_rate": 0.0001870726828184041, "loss": 1.5523, "step": 2918 }, { "epoch": 0.06486666666666667, "grad_norm": 1.158358097076416, "learning_rate": 0.0001870682373860858, "loss": 1.916, "step": 2919 }, { "epoch": 0.06488888888888888, "grad_norm": 1.2848894596099854, "learning_rate": 0.00018706379195376752, "loss": 2.2947, "step": 2920 }, { "epoch": 0.06491111111111111, "grad_norm": 1.0948340892791748, "learning_rate": 0.00018705934652144923, "loss": 2.0626, "step": 2921 }, { "epoch": 0.06493333333333333, "grad_norm": 1.1861344575881958, "learning_rate": 0.00018705490108913094, "loss": 1.5792, "step": 2922 }, { "epoch": 0.06495555555555556, "grad_norm": 1.1330589056015015, "learning_rate": 0.00018705045565681262, "loss": 1.4587, "step": 2923 }, { "epoch": 0.06497777777777777, "grad_norm": 1.2363415956497192, "learning_rate": 0.00018704601022449436, "loss": 1.4322, "step": 2924 }, { "epoch": 0.065, "grad_norm": 1.2434296607971191, "learning_rate": 0.00018704156479217604, "loss": 1.6379, "step": 2925 }, { "epoch": 0.06502222222222222, "grad_norm": 0.8686671853065491, "learning_rate": 0.00018703711935985775, "loss": 0.8112, "step": 2926 }, { "epoch": 0.06504444444444445, "grad_norm": 1.4256782531738281, "learning_rate": 0.00018703267392753946, "loss": 2.3366, "step": 2927 }, { "epoch": 0.06506666666666666, "grad_norm": 1.5060585737228394, "learning_rate": 0.00018702822849522117, "loss": 2.168, "step": 2928 }, { "epoch": 0.06508888888888889, "grad_norm": 1.5477279424667358, "learning_rate": 0.00018702378306290288, "loss": 2.1754, "step": 2929 }, { "epoch": 0.0651111111111111, "grad_norm": 1.215466022491455, "learning_rate": 0.0001870193376305846, "loss": 2.0217, "step": 2930 }, { "epoch": 0.06513333333333333, "grad_norm": 1.123188853263855, "learning_rate": 0.0001870148921982663, "loss": 1.8177, "step": 2931 }, { "epoch": 0.06515555555555555, "grad_norm": 1.2271870374679565, "learning_rate": 0.00018701044676594798, "loss": 1.9829, "step": 2932 }, { "epoch": 0.06517777777777778, "grad_norm": 1.3322367668151855, "learning_rate": 0.00018700600133362972, "loss": 2.1528, "step": 2933 }, { "epoch": 0.0652, "grad_norm": 1.3902933597564697, "learning_rate": 0.0001870015559013114, "loss": 1.7664, "step": 2934 }, { "epoch": 0.06522222222222222, "grad_norm": 1.5843971967697144, "learning_rate": 0.0001869971104689931, "loss": 2.1908, "step": 2935 }, { "epoch": 0.06524444444444444, "grad_norm": 1.4482966661453247, "learning_rate": 0.00018699266503667482, "loss": 1.7021, "step": 2936 }, { "epoch": 0.06526666666666667, "grad_norm": 1.2024801969528198, "learning_rate": 0.00018698821960435653, "loss": 1.6508, "step": 2937 }, { "epoch": 0.06528888888888888, "grad_norm": 2.0721898078918457, "learning_rate": 0.00018698377417203824, "loss": 2.3115, "step": 2938 }, { "epoch": 0.06531111111111111, "grad_norm": 1.3167922496795654, "learning_rate": 0.00018697932873971995, "loss": 1.9785, "step": 2939 }, { "epoch": 0.06533333333333333, "grad_norm": 1.2480032444000244, "learning_rate": 0.00018697488330740166, "loss": 1.8314, "step": 2940 }, { "epoch": 0.06535555555555556, "grad_norm": 1.7373868227005005, "learning_rate": 0.00018697043787508337, "loss": 1.6736, "step": 2941 }, { "epoch": 0.06537777777777778, "grad_norm": 1.5857715606689453, "learning_rate": 0.00018696599244276508, "loss": 2.1099, "step": 2942 }, { "epoch": 0.0654, "grad_norm": 1.4830741882324219, "learning_rate": 0.00018696154701044676, "loss": 2.4202, "step": 2943 }, { "epoch": 0.06542222222222223, "grad_norm": 1.744685173034668, "learning_rate": 0.0001869571015781285, "loss": 2.4221, "step": 2944 }, { "epoch": 0.06544444444444444, "grad_norm": 1.5185177326202393, "learning_rate": 0.00018695265614581018, "loss": 2.1403, "step": 2945 }, { "epoch": 0.06546666666666667, "grad_norm": 1.6151337623596191, "learning_rate": 0.0001869482107134919, "loss": 1.9364, "step": 2946 }, { "epoch": 0.06548888888888889, "grad_norm": 1.2621005773544312, "learning_rate": 0.0001869437652811736, "loss": 1.6986, "step": 2947 }, { "epoch": 0.06551111111111112, "grad_norm": 1.4591064453125, "learning_rate": 0.0001869393198488553, "loss": 1.7923, "step": 2948 }, { "epoch": 0.06553333333333333, "grad_norm": 1.4285699129104614, "learning_rate": 0.00018693487441653702, "loss": 1.8047, "step": 2949 }, { "epoch": 0.06555555555555556, "grad_norm": 1.3380799293518066, "learning_rate": 0.00018693042898421873, "loss": 0.9882, "step": 2950 }, { "epoch": 0.06557777777777778, "grad_norm": 1.093501091003418, "learning_rate": 0.00018692598355190044, "loss": 2.283, "step": 2951 }, { "epoch": 0.0656, "grad_norm": 1.0866544246673584, "learning_rate": 0.00018692153811958212, "loss": 2.5448, "step": 2952 }, { "epoch": 0.06562222222222222, "grad_norm": 1.1365560293197632, "learning_rate": 0.00018691709268726386, "loss": 1.4154, "step": 2953 }, { "epoch": 0.06564444444444445, "grad_norm": 1.0331106185913086, "learning_rate": 0.00018691264725494554, "loss": 2.2571, "step": 2954 }, { "epoch": 0.06566666666666666, "grad_norm": 1.2269850969314575, "learning_rate": 0.00018690820182262725, "loss": 2.5064, "step": 2955 }, { "epoch": 0.0656888888888889, "grad_norm": 1.134602665901184, "learning_rate": 0.00018690375639030896, "loss": 2.6194, "step": 2956 }, { "epoch": 0.06571111111111111, "grad_norm": 1.301027774810791, "learning_rate": 0.00018689931095799067, "loss": 2.091, "step": 2957 }, { "epoch": 0.06573333333333334, "grad_norm": 0.9488211274147034, "learning_rate": 0.0001868948655256724, "loss": 1.8559, "step": 2958 }, { "epoch": 0.06575555555555555, "grad_norm": 1.2814669609069824, "learning_rate": 0.00018689042009335409, "loss": 1.7113, "step": 2959 }, { "epoch": 0.06577777777777778, "grad_norm": 1.0940461158752441, "learning_rate": 0.0001868859746610358, "loss": 2.2205, "step": 2960 }, { "epoch": 0.0658, "grad_norm": 1.4841840267181396, "learning_rate": 0.0001868815292287175, "loss": 2.0461, "step": 2961 }, { "epoch": 0.06582222222222223, "grad_norm": 1.206834077835083, "learning_rate": 0.00018687708379639922, "loss": 2.2952, "step": 2962 }, { "epoch": 0.06584444444444444, "grad_norm": 1.6178420782089233, "learning_rate": 0.0001868726383640809, "loss": 2.5222, "step": 2963 }, { "epoch": 0.06586666666666667, "grad_norm": 1.3316757678985596, "learning_rate": 0.00018686819293176263, "loss": 2.0074, "step": 2964 }, { "epoch": 0.06588888888888889, "grad_norm": 1.2255252599716187, "learning_rate": 0.00018686374749944432, "loss": 2.1827, "step": 2965 }, { "epoch": 0.06591111111111111, "grad_norm": 1.3230050802230835, "learning_rate": 0.00018685930206712603, "loss": 2.215, "step": 2966 }, { "epoch": 0.06593333333333333, "grad_norm": 1.6141905784606934, "learning_rate": 0.00018685485663480776, "loss": 2.1713, "step": 2967 }, { "epoch": 0.06595555555555556, "grad_norm": 1.312644362449646, "learning_rate": 0.00018685041120248945, "loss": 2.3945, "step": 2968 }, { "epoch": 0.06597777777777777, "grad_norm": 1.4654008150100708, "learning_rate": 0.00018684596577017116, "loss": 1.9946, "step": 2969 }, { "epoch": 0.066, "grad_norm": 1.1366113424301147, "learning_rate": 0.00018684152033785287, "loss": 1.2741, "step": 2970 }, { "epoch": 0.06602222222222222, "grad_norm": 1.2720532417297363, "learning_rate": 0.00018683707490553457, "loss": 2.1521, "step": 2971 }, { "epoch": 0.06604444444444445, "grad_norm": 1.1944630146026611, "learning_rate": 0.00018683262947321626, "loss": 1.8751, "step": 2972 }, { "epoch": 0.06606666666666666, "grad_norm": 1.3374707698822021, "learning_rate": 0.000186828184040898, "loss": 1.915, "step": 2973 }, { "epoch": 0.06608888888888889, "grad_norm": 1.4358044862747192, "learning_rate": 0.0001868237386085797, "loss": 2.1463, "step": 2974 }, { "epoch": 0.0661111111111111, "grad_norm": 1.3154842853546143, "learning_rate": 0.00018681929317626139, "loss": 2.1661, "step": 2975 }, { "epoch": 0.06613333333333334, "grad_norm": 1.30441153049469, "learning_rate": 0.00018681484774394312, "loss": 2.2619, "step": 2976 }, { "epoch": 0.06615555555555555, "grad_norm": 1.3629746437072754, "learning_rate": 0.0001868104023116248, "loss": 2.2015, "step": 2977 }, { "epoch": 0.06617777777777778, "grad_norm": 1.2790447473526, "learning_rate": 0.00018680595687930654, "loss": 2.0242, "step": 2978 }, { "epoch": 0.0662, "grad_norm": 1.2373870611190796, "learning_rate": 0.00018680151144698822, "loss": 1.9283, "step": 2979 }, { "epoch": 0.06622222222222222, "grad_norm": 1.386643409729004, "learning_rate": 0.00018679706601466993, "loss": 2.143, "step": 2980 }, { "epoch": 0.06624444444444444, "grad_norm": 1.39663827419281, "learning_rate": 0.00018679262058235164, "loss": 1.775, "step": 2981 }, { "epoch": 0.06626666666666667, "grad_norm": 1.175649881362915, "learning_rate": 0.00018678817515003335, "loss": 1.6227, "step": 2982 }, { "epoch": 0.06628888888888888, "grad_norm": 1.2920302152633667, "learning_rate": 0.00018678372971771506, "loss": 1.9243, "step": 2983 }, { "epoch": 0.06631111111111111, "grad_norm": 1.3073742389678955, "learning_rate": 0.00018677928428539677, "loss": 1.7718, "step": 2984 }, { "epoch": 0.06633333333333333, "grad_norm": 1.3262230157852173, "learning_rate": 0.00018677483885307848, "loss": 2.0117, "step": 2985 }, { "epoch": 0.06635555555555556, "grad_norm": 1.3040411472320557, "learning_rate": 0.00018677039342076016, "loss": 2.2123, "step": 2986 }, { "epoch": 0.06637777777777777, "grad_norm": 1.455625295639038, "learning_rate": 0.0001867659479884419, "loss": 1.8989, "step": 2987 }, { "epoch": 0.0664, "grad_norm": 1.3047820329666138, "learning_rate": 0.00018676150255612358, "loss": 1.6882, "step": 2988 }, { "epoch": 0.06642222222222222, "grad_norm": 1.1425246000289917, "learning_rate": 0.0001867570571238053, "loss": 1.6086, "step": 2989 }, { "epoch": 0.06644444444444444, "grad_norm": 1.5826201438903809, "learning_rate": 0.000186752611691487, "loss": 2.2842, "step": 2990 }, { "epoch": 0.06646666666666666, "grad_norm": 1.4101442098617554, "learning_rate": 0.0001867481662591687, "loss": 1.8246, "step": 2991 }, { "epoch": 0.06648888888888889, "grad_norm": 1.6880214214324951, "learning_rate": 0.00018674372082685042, "loss": 2.3414, "step": 2992 }, { "epoch": 0.0665111111111111, "grad_norm": 1.3211586475372314, "learning_rate": 0.00018673927539453213, "loss": 1.5972, "step": 2993 }, { "epoch": 0.06653333333333333, "grad_norm": 1.5031882524490356, "learning_rate": 0.00018673482996221384, "loss": 1.8175, "step": 2994 }, { "epoch": 0.06655555555555556, "grad_norm": 1.3425596952438354, "learning_rate": 0.00018673038452989555, "loss": 2.01, "step": 2995 }, { "epoch": 0.06657777777777778, "grad_norm": 1.378546953201294, "learning_rate": 0.00018672593909757726, "loss": 1.8262, "step": 2996 }, { "epoch": 0.0666, "grad_norm": 1.2477855682373047, "learning_rate": 0.00018672149366525894, "loss": 1.0512, "step": 2997 }, { "epoch": 0.06662222222222222, "grad_norm": 1.329624891281128, "learning_rate": 0.00018671704823294068, "loss": 1.7874, "step": 2998 }, { "epoch": 0.06664444444444445, "grad_norm": 1.3171143531799316, "learning_rate": 0.00018671260280062236, "loss": 1.4029, "step": 2999 }, { "epoch": 0.06666666666666667, "grad_norm": 1.3119182586669922, "learning_rate": 0.00018670815736830407, "loss": 1.1867, "step": 3000 }, { "epoch": 0.0666888888888889, "grad_norm": 1.1418683528900146, "learning_rate": 0.00018670371193598578, "loss": 1.4056, "step": 3001 }, { "epoch": 0.06671111111111111, "grad_norm": 0.7446819543838501, "learning_rate": 0.0001866992665036675, "loss": 1.2558, "step": 3002 }, { "epoch": 0.06673333333333334, "grad_norm": 1.2388083934783936, "learning_rate": 0.0001866948210713492, "loss": 2.4907, "step": 3003 }, { "epoch": 0.06675555555555555, "grad_norm": 1.4944300651550293, "learning_rate": 0.0001866903756390309, "loss": 0.5905, "step": 3004 }, { "epoch": 0.06677777777777778, "grad_norm": 1.0793980360031128, "learning_rate": 0.00018668593020671262, "loss": 2.2229, "step": 3005 }, { "epoch": 0.0668, "grad_norm": 1.066013216972351, "learning_rate": 0.0001866814847743943, "loss": 2.1372, "step": 3006 }, { "epoch": 0.06682222222222223, "grad_norm": 1.2131024599075317, "learning_rate": 0.00018667703934207604, "loss": 2.618, "step": 3007 }, { "epoch": 0.06684444444444444, "grad_norm": 1.1012964248657227, "learning_rate": 0.00018667259390975772, "loss": 1.9943, "step": 3008 }, { "epoch": 0.06686666666666667, "grad_norm": 1.2611958980560303, "learning_rate": 0.00018666814847743943, "loss": 2.9643, "step": 3009 }, { "epoch": 0.06688888888888889, "grad_norm": 1.0779814720153809, "learning_rate": 0.00018666370304512114, "loss": 2.4533, "step": 3010 }, { "epoch": 0.06691111111111112, "grad_norm": 1.0852347612380981, "learning_rate": 0.00018665925761280285, "loss": 2.168, "step": 3011 }, { "epoch": 0.06693333333333333, "grad_norm": 1.242493748664856, "learning_rate": 0.00018665481218048456, "loss": 2.2027, "step": 3012 }, { "epoch": 0.06695555555555556, "grad_norm": 1.1750240325927734, "learning_rate": 0.00018665036674816627, "loss": 2.008, "step": 3013 }, { "epoch": 0.06697777777777777, "grad_norm": 1.033508539199829, "learning_rate": 0.00018664592131584798, "loss": 1.9661, "step": 3014 }, { "epoch": 0.067, "grad_norm": 1.4327009916305542, "learning_rate": 0.0001866414758835297, "loss": 2.6899, "step": 3015 }, { "epoch": 0.06702222222222222, "grad_norm": 1.4444184303283691, "learning_rate": 0.0001866370304512114, "loss": 2.1263, "step": 3016 }, { "epoch": 0.06704444444444445, "grad_norm": 1.3516345024108887, "learning_rate": 0.00018663258501889308, "loss": 2.1334, "step": 3017 }, { "epoch": 0.06706666666666666, "grad_norm": 1.1286693811416626, "learning_rate": 0.00018662813958657482, "loss": 1.9396, "step": 3018 }, { "epoch": 0.06708888888888889, "grad_norm": 1.0525747537612915, "learning_rate": 0.0001866236941542565, "loss": 2.0104, "step": 3019 }, { "epoch": 0.06711111111111111, "grad_norm": 1.2158340215682983, "learning_rate": 0.0001866192487219382, "loss": 2.2476, "step": 3020 }, { "epoch": 0.06713333333333334, "grad_norm": 2.0288302898406982, "learning_rate": 0.00018661480328961992, "loss": 0.9421, "step": 3021 }, { "epoch": 0.06715555555555555, "grad_norm": 1.3440532684326172, "learning_rate": 0.00018661035785730163, "loss": 2.0325, "step": 3022 }, { "epoch": 0.06717777777777778, "grad_norm": 1.0971245765686035, "learning_rate": 0.00018660591242498334, "loss": 1.845, "step": 3023 }, { "epoch": 0.0672, "grad_norm": 1.400359034538269, "learning_rate": 0.00018660146699266505, "loss": 2.2704, "step": 3024 }, { "epoch": 0.06722222222222222, "grad_norm": 1.3983571529388428, "learning_rate": 0.00018659702156034676, "loss": 1.9317, "step": 3025 }, { "epoch": 0.06724444444444444, "grad_norm": 1.3775551319122314, "learning_rate": 0.00018659257612802844, "loss": 2.1884, "step": 3026 }, { "epoch": 0.06726666666666667, "grad_norm": 1.1605805158615112, "learning_rate": 0.00018658813069571018, "loss": 1.9882, "step": 3027 }, { "epoch": 0.06728888888888888, "grad_norm": 1.212649941444397, "learning_rate": 0.00018658368526339186, "loss": 2.1658, "step": 3028 }, { "epoch": 0.06731111111111111, "grad_norm": 1.1757985353469849, "learning_rate": 0.00018657923983107357, "loss": 2.0947, "step": 3029 }, { "epoch": 0.06733333333333333, "grad_norm": 1.36328125, "learning_rate": 0.00018657479439875528, "loss": 2.043, "step": 3030 }, { "epoch": 0.06735555555555556, "grad_norm": 1.6213213205337524, "learning_rate": 0.000186570348966437, "loss": 2.0704, "step": 3031 }, { "epoch": 0.06737777777777777, "grad_norm": 1.1763414144515991, "learning_rate": 0.0001865659035341187, "loss": 1.8164, "step": 3032 }, { "epoch": 0.0674, "grad_norm": 1.5299826860427856, "learning_rate": 0.0001865614581018004, "loss": 1.1157, "step": 3033 }, { "epoch": 0.06742222222222222, "grad_norm": 1.3983116149902344, "learning_rate": 0.00018655701266948212, "loss": 2.1105, "step": 3034 }, { "epoch": 0.06744444444444445, "grad_norm": 1.37330162525177, "learning_rate": 0.00018655256723716383, "loss": 2.2656, "step": 3035 }, { "epoch": 0.06746666666666666, "grad_norm": 1.310173749923706, "learning_rate": 0.00018654812180484554, "loss": 1.8935, "step": 3036 }, { "epoch": 0.06748888888888889, "grad_norm": 1.4299370050430298, "learning_rate": 0.00018654367637252722, "loss": 1.7469, "step": 3037 }, { "epoch": 0.0675111111111111, "grad_norm": 1.5664149522781372, "learning_rate": 0.00018653923094020896, "loss": 1.2068, "step": 3038 }, { "epoch": 0.06753333333333333, "grad_norm": 1.337867259979248, "learning_rate": 0.00018653478550789064, "loss": 2.2552, "step": 3039 }, { "epoch": 0.06755555555555555, "grad_norm": 1.4328793287277222, "learning_rate": 0.00018653034007557235, "loss": 2.0573, "step": 3040 }, { "epoch": 0.06757777777777778, "grad_norm": 1.305863380432129, "learning_rate": 0.00018652589464325409, "loss": 2.099, "step": 3041 }, { "epoch": 0.0676, "grad_norm": 1.2517766952514648, "learning_rate": 0.00018652144921093577, "loss": 1.9474, "step": 3042 }, { "epoch": 0.06762222222222222, "grad_norm": 1.4265320301055908, "learning_rate": 0.00018651700377861748, "loss": 2.1624, "step": 3043 }, { "epoch": 0.06764444444444444, "grad_norm": 1.4899251461029053, "learning_rate": 0.0001865125583462992, "loss": 1.9703, "step": 3044 }, { "epoch": 0.06766666666666667, "grad_norm": 1.5499143600463867, "learning_rate": 0.0001865081129139809, "loss": 1.6343, "step": 3045 }, { "epoch": 0.0676888888888889, "grad_norm": 1.2661762237548828, "learning_rate": 0.00018650366748166258, "loss": 1.8185, "step": 3046 }, { "epoch": 0.06771111111111111, "grad_norm": 1.5745210647583008, "learning_rate": 0.00018649922204934432, "loss": 2.1845, "step": 3047 }, { "epoch": 0.06773333333333334, "grad_norm": 1.808465838432312, "learning_rate": 0.00018649477661702603, "loss": 2.3673, "step": 3048 }, { "epoch": 0.06775555555555555, "grad_norm": 1.4940499067306519, "learning_rate": 0.0001864903311847077, "loss": 1.6193, "step": 3049 }, { "epoch": 0.06777777777777778, "grad_norm": 1.7693639993667603, "learning_rate": 0.00018648588575238944, "loss": 1.5863, "step": 3050 }, { "epoch": 0.0678, "grad_norm": 1.020078182220459, "learning_rate": 0.00018648144032007113, "loss": 2.3726, "step": 3051 }, { "epoch": 0.06782222222222223, "grad_norm": 0.9951558113098145, "learning_rate": 0.00018647699488775286, "loss": 2.391, "step": 3052 }, { "epoch": 0.06784444444444444, "grad_norm": 1.3614338636398315, "learning_rate": 0.00018647254945543455, "loss": 2.2853, "step": 3053 }, { "epoch": 0.06786666666666667, "grad_norm": 1.1202802658081055, "learning_rate": 0.00018646810402311626, "loss": 2.4977, "step": 3054 }, { "epoch": 0.06788888888888889, "grad_norm": 1.1676385402679443, "learning_rate": 0.00018646365859079797, "loss": 2.2791, "step": 3055 }, { "epoch": 0.06791111111111112, "grad_norm": 1.3840031623840332, "learning_rate": 0.00018645921315847968, "loss": 2.3632, "step": 3056 }, { "epoch": 0.06793333333333333, "grad_norm": 1.6053420305252075, "learning_rate": 0.00018645476772616139, "loss": 2.0755, "step": 3057 }, { "epoch": 0.06795555555555556, "grad_norm": 1.1942670345306396, "learning_rate": 0.0001864503222938431, "loss": 2.4001, "step": 3058 }, { "epoch": 0.06797777777777778, "grad_norm": 1.1291829347610474, "learning_rate": 0.0001864458768615248, "loss": 2.6332, "step": 3059 }, { "epoch": 0.068, "grad_norm": 1.2013721466064453, "learning_rate": 0.0001864414314292065, "loss": 1.0045, "step": 3060 }, { "epoch": 0.06802222222222222, "grad_norm": 1.0784189701080322, "learning_rate": 0.00018643698599688822, "loss": 1.6403, "step": 3061 }, { "epoch": 0.06804444444444445, "grad_norm": 1.1853705644607544, "learning_rate": 0.0001864325405645699, "loss": 2.3722, "step": 3062 }, { "epoch": 0.06806666666666666, "grad_norm": 1.1500760316848755, "learning_rate": 0.00018642809513225162, "loss": 2.3134, "step": 3063 }, { "epoch": 0.0680888888888889, "grad_norm": 1.1305676698684692, "learning_rate": 0.00018642364969993333, "loss": 2.2578, "step": 3064 }, { "epoch": 0.06811111111111111, "grad_norm": 1.1511883735656738, "learning_rate": 0.00018641920426761503, "loss": 1.9826, "step": 3065 }, { "epoch": 0.06813333333333334, "grad_norm": 1.2255641222000122, "learning_rate": 0.00018641475883529674, "loss": 1.7309, "step": 3066 }, { "epoch": 0.06815555555555555, "grad_norm": 1.1795870065689087, "learning_rate": 0.00018641031340297845, "loss": 2.0513, "step": 3067 }, { "epoch": 0.06817777777777778, "grad_norm": 1.4166266918182373, "learning_rate": 0.00018640586797066016, "loss": 2.2812, "step": 3068 }, { "epoch": 0.0682, "grad_norm": 1.3183900117874146, "learning_rate": 0.00018640142253834185, "loss": 1.9412, "step": 3069 }, { "epoch": 0.06822222222222223, "grad_norm": 1.2181826829910278, "learning_rate": 0.00018639697710602358, "loss": 2.3809, "step": 3070 }, { "epoch": 0.06824444444444444, "grad_norm": 1.381649374961853, "learning_rate": 0.00018639253167370527, "loss": 2.4266, "step": 3071 }, { "epoch": 0.06826666666666667, "grad_norm": 1.336442232131958, "learning_rate": 0.000186388086241387, "loss": 2.2447, "step": 3072 }, { "epoch": 0.06828888888888889, "grad_norm": 1.0556756258010864, "learning_rate": 0.00018638364080906868, "loss": 1.7687, "step": 3073 }, { "epoch": 0.06831111111111111, "grad_norm": 1.1357994079589844, "learning_rate": 0.0001863791953767504, "loss": 1.8913, "step": 3074 }, { "epoch": 0.06833333333333333, "grad_norm": 1.1601805686950684, "learning_rate": 0.0001863747499444321, "loss": 2.186, "step": 3075 }, { "epoch": 0.06835555555555556, "grad_norm": 1.316452980041504, "learning_rate": 0.00018637030451211381, "loss": 2.2864, "step": 3076 }, { "epoch": 0.06837777777777777, "grad_norm": 1.1213129758834839, "learning_rate": 0.00018636585907979552, "loss": 1.54, "step": 3077 }, { "epoch": 0.0684, "grad_norm": 1.4808624982833862, "learning_rate": 0.00018636141364747723, "loss": 2.5633, "step": 3078 }, { "epoch": 0.06842222222222222, "grad_norm": 1.555956244468689, "learning_rate": 0.00018635696821515894, "loss": 2.0051, "step": 3079 }, { "epoch": 0.06844444444444445, "grad_norm": 1.4880449771881104, "learning_rate": 0.00018635252278284063, "loss": 2.5767, "step": 3080 }, { "epoch": 0.06846666666666666, "grad_norm": 1.6123839616775513, "learning_rate": 0.00018634807735052236, "loss": 2.1698, "step": 3081 }, { "epoch": 0.06848888888888889, "grad_norm": 1.490860104560852, "learning_rate": 0.00018634363191820404, "loss": 2.6339, "step": 3082 }, { "epoch": 0.0685111111111111, "grad_norm": 1.5396085977554321, "learning_rate": 0.00018633918648588575, "loss": 2.54, "step": 3083 }, { "epoch": 0.06853333333333333, "grad_norm": 1.157238483428955, "learning_rate": 0.00018633474105356746, "loss": 1.9568, "step": 3084 }, { "epoch": 0.06855555555555555, "grad_norm": 1.3200165033340454, "learning_rate": 0.00018633029562124917, "loss": 2.0114, "step": 3085 }, { "epoch": 0.06857777777777778, "grad_norm": 1.2527263164520264, "learning_rate": 0.00018632585018893088, "loss": 1.9291, "step": 3086 }, { "epoch": 0.0686, "grad_norm": 1.1514992713928223, "learning_rate": 0.0001863214047566126, "loss": 1.8126, "step": 3087 }, { "epoch": 0.06862222222222222, "grad_norm": 1.322563648223877, "learning_rate": 0.0001863169593242943, "loss": 1.9282, "step": 3088 }, { "epoch": 0.06864444444444444, "grad_norm": 1.3832098245620728, "learning_rate": 0.00018631251389197598, "loss": 1.6543, "step": 3089 }, { "epoch": 0.06866666666666667, "grad_norm": 1.2836965322494507, "learning_rate": 0.00018630806845965772, "loss": 1.9576, "step": 3090 }, { "epoch": 0.06868888888888888, "grad_norm": 1.480849027633667, "learning_rate": 0.0001863036230273394, "loss": 2.1873, "step": 3091 }, { "epoch": 0.06871111111111111, "grad_norm": 1.444036841392517, "learning_rate": 0.00018629917759502114, "loss": 2.4291, "step": 3092 }, { "epoch": 0.06873333333333333, "grad_norm": 1.2380448579788208, "learning_rate": 0.00018629473216270282, "loss": 1.7406, "step": 3093 }, { "epoch": 0.06875555555555556, "grad_norm": 1.5346790552139282, "learning_rate": 0.00018629028673038453, "loss": 2.0464, "step": 3094 }, { "epoch": 0.06877777777777777, "grad_norm": 1.323529839515686, "learning_rate": 0.00018628584129806624, "loss": 1.6314, "step": 3095 }, { "epoch": 0.0688, "grad_norm": 1.481766700744629, "learning_rate": 0.00018628139586574795, "loss": 2.0781, "step": 3096 }, { "epoch": 0.06882222222222223, "grad_norm": 1.0874724388122559, "learning_rate": 0.00018627695043342966, "loss": 1.2723, "step": 3097 }, { "epoch": 0.06884444444444444, "grad_norm": 1.6798361539840698, "learning_rate": 0.00018627250500111137, "loss": 1.7107, "step": 3098 }, { "epoch": 0.06886666666666667, "grad_norm": 1.4015706777572632, "learning_rate": 0.00018626805956879308, "loss": 1.4299, "step": 3099 }, { "epoch": 0.06888888888888889, "grad_norm": 1.3325926065444946, "learning_rate": 0.00018626361413647476, "loss": 1.3214, "step": 3100 }, { "epoch": 0.06891111111111112, "grad_norm": 1.0045979022979736, "learning_rate": 0.0001862591687041565, "loss": 2.0906, "step": 3101 }, { "epoch": 0.06893333333333333, "grad_norm": 1.0200821161270142, "learning_rate": 0.00018625472327183818, "loss": 1.8968, "step": 3102 }, { "epoch": 0.06895555555555556, "grad_norm": 1.2551326751708984, "learning_rate": 0.0001862502778395199, "loss": 1.9392, "step": 3103 }, { "epoch": 0.06897777777777778, "grad_norm": 1.1553781032562256, "learning_rate": 0.0001862458324072016, "loss": 1.9881, "step": 3104 }, { "epoch": 0.069, "grad_norm": 1.3161534070968628, "learning_rate": 0.0001862413869748833, "loss": 2.1154, "step": 3105 }, { "epoch": 0.06902222222222222, "grad_norm": 1.1664115190505981, "learning_rate": 0.00018623694154256502, "loss": 2.5115, "step": 3106 }, { "epoch": 0.06904444444444445, "grad_norm": 1.265507698059082, "learning_rate": 0.00018623249611024673, "loss": 1.6962, "step": 3107 }, { "epoch": 0.06906666666666667, "grad_norm": 1.2219555377960205, "learning_rate": 0.00018622805067792844, "loss": 2.0094, "step": 3108 }, { "epoch": 0.0690888888888889, "grad_norm": 1.172410249710083, "learning_rate": 0.00018622360524561015, "loss": 2.032, "step": 3109 }, { "epoch": 0.06911111111111111, "grad_norm": 1.0577607154846191, "learning_rate": 0.00018621915981329186, "loss": 2.0619, "step": 3110 }, { "epoch": 0.06913333333333334, "grad_norm": 1.371067762374878, "learning_rate": 0.00018621471438097354, "loss": 1.9002, "step": 3111 }, { "epoch": 0.06915555555555555, "grad_norm": 1.2463182210922241, "learning_rate": 0.00018621026894865528, "loss": 2.2429, "step": 3112 }, { "epoch": 0.06917777777777778, "grad_norm": 1.2977174520492554, "learning_rate": 0.00018620582351633696, "loss": 1.2412, "step": 3113 }, { "epoch": 0.0692, "grad_norm": 1.1670761108398438, "learning_rate": 0.00018620137808401867, "loss": 1.84, "step": 3114 }, { "epoch": 0.06922222222222223, "grad_norm": 1.3535349369049072, "learning_rate": 0.0001861969326517004, "loss": 2.0711, "step": 3115 }, { "epoch": 0.06924444444444444, "grad_norm": 1.202639102935791, "learning_rate": 0.0001861924872193821, "loss": 1.8456, "step": 3116 }, { "epoch": 0.06926666666666667, "grad_norm": 1.3139315843582153, "learning_rate": 0.0001861880417870638, "loss": 2.2342, "step": 3117 }, { "epoch": 0.06928888888888889, "grad_norm": 1.4702835083007812, "learning_rate": 0.0001861835963547455, "loss": 2.0615, "step": 3118 }, { "epoch": 0.06931111111111112, "grad_norm": 1.2553362846374512, "learning_rate": 0.00018617915092242722, "loss": 1.5745, "step": 3119 }, { "epoch": 0.06933333333333333, "grad_norm": 1.3718432188034058, "learning_rate": 0.0001861747054901089, "loss": 1.7778, "step": 3120 }, { "epoch": 0.06935555555555556, "grad_norm": 1.2589430809020996, "learning_rate": 0.00018617026005779064, "loss": 1.917, "step": 3121 }, { "epoch": 0.06937777777777777, "grad_norm": 1.4061884880065918, "learning_rate": 0.00018616581462547235, "loss": 1.8717, "step": 3122 }, { "epoch": 0.0694, "grad_norm": 1.637049674987793, "learning_rate": 0.00018616136919315403, "loss": 1.8411, "step": 3123 }, { "epoch": 0.06942222222222222, "grad_norm": 1.2560381889343262, "learning_rate": 0.00018615692376083577, "loss": 1.9734, "step": 3124 }, { "epoch": 0.06944444444444445, "grad_norm": 1.384864091873169, "learning_rate": 0.00018615247832851745, "loss": 1.9053, "step": 3125 }, { "epoch": 0.06946666666666666, "grad_norm": 1.17531156539917, "learning_rate": 0.00018614803289619916, "loss": 1.7236, "step": 3126 }, { "epoch": 0.06948888888888889, "grad_norm": 1.4617774486541748, "learning_rate": 0.00018614358746388087, "loss": 2.0953, "step": 3127 }, { "epoch": 0.0695111111111111, "grad_norm": 1.4734753370285034, "learning_rate": 0.00018613914203156258, "loss": 2.2885, "step": 3128 }, { "epoch": 0.06953333333333334, "grad_norm": 1.1499420404434204, "learning_rate": 0.0001861346965992443, "loss": 1.9675, "step": 3129 }, { "epoch": 0.06955555555555555, "grad_norm": 1.016000509262085, "learning_rate": 0.000186130251166926, "loss": 0.0677, "step": 3130 }, { "epoch": 0.06957777777777778, "grad_norm": 1.397423505783081, "learning_rate": 0.0001861258057346077, "loss": 2.1454, "step": 3131 }, { "epoch": 0.0696, "grad_norm": 1.375404953956604, "learning_rate": 0.00018612136030228942, "loss": 2.1344, "step": 3132 }, { "epoch": 0.06962222222222222, "grad_norm": 1.4570456743240356, "learning_rate": 0.00018611691486997113, "loss": 1.9302, "step": 3133 }, { "epoch": 0.06964444444444444, "grad_norm": 1.3582453727722168, "learning_rate": 0.0001861124694376528, "loss": 1.9745, "step": 3134 }, { "epoch": 0.06966666666666667, "grad_norm": 1.440842628479004, "learning_rate": 0.00018610802400533455, "loss": 2.4853, "step": 3135 }, { "epoch": 0.06968888888888888, "grad_norm": 1.5460126399993896, "learning_rate": 0.00018610357857301623, "loss": 1.958, "step": 3136 }, { "epoch": 0.06971111111111111, "grad_norm": 1.3783636093139648, "learning_rate": 0.00018609913314069794, "loss": 1.8361, "step": 3137 }, { "epoch": 0.06973333333333333, "grad_norm": 1.6017347574234009, "learning_rate": 0.00018609468770837965, "loss": 2.0159, "step": 3138 }, { "epoch": 0.06975555555555556, "grad_norm": 1.5302122831344604, "learning_rate": 0.00018609024227606136, "loss": 2.2509, "step": 3139 }, { "epoch": 0.06977777777777777, "grad_norm": 1.4924696683883667, "learning_rate": 0.00018608579684374307, "loss": 1.936, "step": 3140 }, { "epoch": 0.0698, "grad_norm": 1.1864842176437378, "learning_rate": 0.00018608135141142478, "loss": 1.7742, "step": 3141 }, { "epoch": 0.06982222222222222, "grad_norm": 1.2760343551635742, "learning_rate": 0.00018607690597910649, "loss": 1.574, "step": 3142 }, { "epoch": 0.06984444444444445, "grad_norm": 1.4915947914123535, "learning_rate": 0.00018607246054678817, "loss": 2.1868, "step": 3143 }, { "epoch": 0.06986666666666666, "grad_norm": 1.639445424079895, "learning_rate": 0.0001860680151144699, "loss": 1.9876, "step": 3144 }, { "epoch": 0.06988888888888889, "grad_norm": 1.33467435836792, "learning_rate": 0.0001860635696821516, "loss": 1.5571, "step": 3145 }, { "epoch": 0.0699111111111111, "grad_norm": 1.4326633214950562, "learning_rate": 0.0001860591242498333, "loss": 1.8554, "step": 3146 }, { "epoch": 0.06993333333333333, "grad_norm": 1.8822603225708008, "learning_rate": 0.000186054678817515, "loss": 2.0675, "step": 3147 }, { "epoch": 0.06995555555555556, "grad_norm": 1.400314450263977, "learning_rate": 0.00018605023338519672, "loss": 1.7519, "step": 3148 }, { "epoch": 0.06997777777777778, "grad_norm": 1.376460075378418, "learning_rate": 0.00018604578795287843, "loss": 1.9243, "step": 3149 }, { "epoch": 0.07, "grad_norm": 1.4170759916305542, "learning_rate": 0.00018604134252056014, "loss": 1.4566, "step": 3150 }, { "epoch": 0.07002222222222222, "grad_norm": 1.176084280014038, "learning_rate": 0.00018603689708824185, "loss": 2.5171, "step": 3151 }, { "epoch": 0.07004444444444445, "grad_norm": 0.796825647354126, "learning_rate": 0.00018603245165592355, "loss": 1.0659, "step": 3152 }, { "epoch": 0.07006666666666667, "grad_norm": 1.1480032205581665, "learning_rate": 0.00018602800622360526, "loss": 2.6119, "step": 3153 }, { "epoch": 0.0700888888888889, "grad_norm": 1.0482373237609863, "learning_rate": 0.00018602356079128695, "loss": 2.0065, "step": 3154 }, { "epoch": 0.07011111111111111, "grad_norm": 1.150799036026001, "learning_rate": 0.00018601911535896868, "loss": 2.5115, "step": 3155 }, { "epoch": 0.07013333333333334, "grad_norm": 1.0664395093917847, "learning_rate": 0.00018601466992665037, "loss": 1.4442, "step": 3156 }, { "epoch": 0.07015555555555555, "grad_norm": 1.257991909980774, "learning_rate": 0.00018601022449433208, "loss": 2.3767, "step": 3157 }, { "epoch": 0.07017777777777778, "grad_norm": 1.173624038696289, "learning_rate": 0.00018600577906201379, "loss": 2.4001, "step": 3158 }, { "epoch": 0.0702, "grad_norm": 1.3107126951217651, "learning_rate": 0.0001860013336296955, "loss": 2.0785, "step": 3159 }, { "epoch": 0.07022222222222223, "grad_norm": 1.125231385231018, "learning_rate": 0.0001859968881973772, "loss": 2.2874, "step": 3160 }, { "epoch": 0.07024444444444444, "grad_norm": 0.962848424911499, "learning_rate": 0.00018599244276505891, "loss": 1.7164, "step": 3161 }, { "epoch": 0.07026666666666667, "grad_norm": 1.4906202554702759, "learning_rate": 0.00018598799733274062, "loss": 1.9267, "step": 3162 }, { "epoch": 0.07028888888888889, "grad_norm": 1.3258379697799683, "learning_rate": 0.0001859835519004223, "loss": 2.2396, "step": 3163 }, { "epoch": 0.07031111111111112, "grad_norm": 1.1507848501205444, "learning_rate": 0.00018597910646810404, "loss": 1.5691, "step": 3164 }, { "epoch": 0.07033333333333333, "grad_norm": 1.2545636892318726, "learning_rate": 0.00018597466103578573, "loss": 2.3422, "step": 3165 }, { "epoch": 0.07035555555555556, "grad_norm": 1.3093425035476685, "learning_rate": 0.00018597021560346746, "loss": 2.2198, "step": 3166 }, { "epoch": 0.07037777777777778, "grad_norm": 1.6808485984802246, "learning_rate": 0.00018596577017114915, "loss": 1.3773, "step": 3167 }, { "epoch": 0.0704, "grad_norm": 1.3006585836410522, "learning_rate": 0.00018596132473883085, "loss": 1.9069, "step": 3168 }, { "epoch": 0.07042222222222222, "grad_norm": 1.3212761878967285, "learning_rate": 0.00018595687930651256, "loss": 2.132, "step": 3169 }, { "epoch": 0.07044444444444445, "grad_norm": 1.015975832939148, "learning_rate": 0.00018595243387419427, "loss": 1.5151, "step": 3170 }, { "epoch": 0.07046666666666666, "grad_norm": 1.2584716081619263, "learning_rate": 0.00018594798844187598, "loss": 1.969, "step": 3171 }, { "epoch": 0.07048888888888889, "grad_norm": 1.0883800983428955, "learning_rate": 0.0001859435430095577, "loss": 1.6872, "step": 3172 }, { "epoch": 0.07051111111111111, "grad_norm": 1.2211334705352783, "learning_rate": 0.0001859390975772394, "loss": 2.3762, "step": 3173 }, { "epoch": 0.07053333333333334, "grad_norm": 1.3487976789474487, "learning_rate": 0.00018593465214492109, "loss": 2.2317, "step": 3174 }, { "epoch": 0.07055555555555555, "grad_norm": 1.2125729322433472, "learning_rate": 0.00018593020671260282, "loss": 2.0716, "step": 3175 }, { "epoch": 0.07057777777777778, "grad_norm": 1.124316692352295, "learning_rate": 0.0001859257612802845, "loss": 1.8635, "step": 3176 }, { "epoch": 0.0706, "grad_norm": 1.2815332412719727, "learning_rate": 0.00018592131584796621, "loss": 1.8667, "step": 3177 }, { "epoch": 0.07062222222222223, "grad_norm": 1.1639313697814941, "learning_rate": 0.00018591687041564792, "loss": 1.9161, "step": 3178 }, { "epoch": 0.07064444444444444, "grad_norm": 1.319077491760254, "learning_rate": 0.00018591242498332963, "loss": 1.9424, "step": 3179 }, { "epoch": 0.07066666666666667, "grad_norm": 1.3556466102600098, "learning_rate": 0.00018590797955101134, "loss": 2.0775, "step": 3180 }, { "epoch": 0.07068888888888888, "grad_norm": 1.3292410373687744, "learning_rate": 0.00018590353411869305, "loss": 1.8626, "step": 3181 }, { "epoch": 0.07071111111111111, "grad_norm": 1.4909486770629883, "learning_rate": 0.00018589908868637476, "loss": 2.0275, "step": 3182 }, { "epoch": 0.07073333333333333, "grad_norm": 1.35085129737854, "learning_rate": 0.00018589464325405644, "loss": 1.8455, "step": 3183 }, { "epoch": 0.07075555555555556, "grad_norm": 1.5771790742874146, "learning_rate": 0.00018589019782173818, "loss": 2.5952, "step": 3184 }, { "epoch": 0.07077777777777777, "grad_norm": 1.8196218013763428, "learning_rate": 0.00018588575238941986, "loss": 2.253, "step": 3185 }, { "epoch": 0.0708, "grad_norm": 1.6080139875411987, "learning_rate": 0.0001858813069571016, "loss": 1.9148, "step": 3186 }, { "epoch": 0.07082222222222222, "grad_norm": 1.427482008934021, "learning_rate": 0.00018587686152478328, "loss": 2.3963, "step": 3187 }, { "epoch": 0.07084444444444445, "grad_norm": 1.2649651765823364, "learning_rate": 0.000185872416092465, "loss": 1.923, "step": 3188 }, { "epoch": 0.07086666666666666, "grad_norm": 1.2580745220184326, "learning_rate": 0.00018586797066014673, "loss": 2.0556, "step": 3189 }, { "epoch": 0.07088888888888889, "grad_norm": 1.4637434482574463, "learning_rate": 0.0001858635252278284, "loss": 2.0906, "step": 3190 }, { "epoch": 0.0709111111111111, "grad_norm": 1.472300410270691, "learning_rate": 0.00018585907979551012, "loss": 1.7587, "step": 3191 }, { "epoch": 0.07093333333333333, "grad_norm": 1.302419662475586, "learning_rate": 0.00018585463436319183, "loss": 1.9788, "step": 3192 }, { "epoch": 0.07095555555555555, "grad_norm": 1.4993181228637695, "learning_rate": 0.00018585018893087354, "loss": 1.7982, "step": 3193 }, { "epoch": 0.07097777777777778, "grad_norm": 1.391061782836914, "learning_rate": 0.00018584574349855522, "loss": 1.6953, "step": 3194 }, { "epoch": 0.071, "grad_norm": 1.4594935178756714, "learning_rate": 0.00018584129806623696, "loss": 1.8619, "step": 3195 }, { "epoch": 0.07102222222222222, "grad_norm": 1.8263238668441772, "learning_rate": 0.00018583685263391867, "loss": 1.9633, "step": 3196 }, { "epoch": 0.07104444444444444, "grad_norm": 1.0885010957717896, "learning_rate": 0.00018583240720160035, "loss": 1.0194, "step": 3197 }, { "epoch": 0.07106666666666667, "grad_norm": 1.3592110872268677, "learning_rate": 0.0001858279617692821, "loss": 1.8874, "step": 3198 }, { "epoch": 0.07108888888888888, "grad_norm": 1.5188533067703247, "learning_rate": 0.00018582351633696377, "loss": 2.103, "step": 3199 }, { "epoch": 0.07111111111111111, "grad_norm": 0.9653910398483276, "learning_rate": 0.00018581907090464548, "loss": 1.0329, "step": 3200 }, { "epoch": 0.07113333333333334, "grad_norm": 1.450005054473877, "learning_rate": 0.0001858146254723272, "loss": 1.4119, "step": 3201 }, { "epoch": 0.07115555555555556, "grad_norm": 1.0671168565750122, "learning_rate": 0.0001858101800400089, "loss": 2.0543, "step": 3202 }, { "epoch": 0.07117777777777778, "grad_norm": 1.2091753482818604, "learning_rate": 0.00018580573460769058, "loss": 2.3077, "step": 3203 }, { "epoch": 0.0712, "grad_norm": 1.1918028593063354, "learning_rate": 0.00018580128917537232, "loss": 2.586, "step": 3204 }, { "epoch": 0.07122222222222223, "grad_norm": 1.254113793373108, "learning_rate": 0.00018579684374305403, "loss": 2.2683, "step": 3205 }, { "epoch": 0.07124444444444444, "grad_norm": 1.0458388328552246, "learning_rate": 0.00018579239831073574, "loss": 1.7775, "step": 3206 }, { "epoch": 0.07126666666666667, "grad_norm": 1.2077213525772095, "learning_rate": 0.00018578795287841745, "loss": 1.9684, "step": 3207 }, { "epoch": 0.07128888888888889, "grad_norm": 1.3320894241333008, "learning_rate": 0.00018578350744609913, "loss": 2.2517, "step": 3208 }, { "epoch": 0.07131111111111112, "grad_norm": 1.3747494220733643, "learning_rate": 0.00018577906201378087, "loss": 2.5526, "step": 3209 }, { "epoch": 0.07133333333333333, "grad_norm": 1.362795114517212, "learning_rate": 0.00018577461658146255, "loss": 2.24, "step": 3210 }, { "epoch": 0.07135555555555556, "grad_norm": 1.2927980422973633, "learning_rate": 0.00018577017114914426, "loss": 2.7523, "step": 3211 }, { "epoch": 0.07137777777777778, "grad_norm": 1.3677923679351807, "learning_rate": 0.00018576572571682597, "loss": 2.0425, "step": 3212 }, { "epoch": 0.0714, "grad_norm": 1.250320553779602, "learning_rate": 0.00018576128028450768, "loss": 2.0995, "step": 3213 }, { "epoch": 0.07142222222222222, "grad_norm": 1.1317499876022339, "learning_rate": 0.0001857568348521894, "loss": 1.8188, "step": 3214 }, { "epoch": 0.07144444444444445, "grad_norm": 1.0998951196670532, "learning_rate": 0.0001857523894198711, "loss": 1.7639, "step": 3215 }, { "epoch": 0.07146666666666666, "grad_norm": 1.065973162651062, "learning_rate": 0.0001857479439875528, "loss": 1.5334, "step": 3216 }, { "epoch": 0.0714888888888889, "grad_norm": 1.1874308586120605, "learning_rate": 0.0001857434985552345, "loss": 2.2267, "step": 3217 }, { "epoch": 0.07151111111111111, "grad_norm": 1.1485834121704102, "learning_rate": 0.00018573905312291623, "loss": 1.911, "step": 3218 }, { "epoch": 0.07153333333333334, "grad_norm": 1.3985886573791504, "learning_rate": 0.0001857346076905979, "loss": 2.3273, "step": 3219 }, { "epoch": 0.07155555555555555, "grad_norm": 1.212371587753296, "learning_rate": 0.00018573016225827962, "loss": 2.0963, "step": 3220 }, { "epoch": 0.07157777777777778, "grad_norm": 1.2432383298873901, "learning_rate": 0.00018572571682596133, "loss": 2.1041, "step": 3221 }, { "epoch": 0.0716, "grad_norm": 1.245377779006958, "learning_rate": 0.00018572127139364304, "loss": 1.9445, "step": 3222 }, { "epoch": 0.07162222222222223, "grad_norm": 1.2812609672546387, "learning_rate": 0.00018571682596132475, "loss": 2.092, "step": 3223 }, { "epoch": 0.07164444444444444, "grad_norm": 1.3125207424163818, "learning_rate": 0.00018571238052900646, "loss": 1.9547, "step": 3224 }, { "epoch": 0.07166666666666667, "grad_norm": 1.4647374153137207, "learning_rate": 0.00018570793509668817, "loss": 1.7872, "step": 3225 }, { "epoch": 0.07168888888888889, "grad_norm": 1.5493143796920776, "learning_rate": 0.00018570348966436988, "loss": 1.9315, "step": 3226 }, { "epoch": 0.07171111111111111, "grad_norm": 1.7617371082305908, "learning_rate": 0.0001856990442320516, "loss": 2.237, "step": 3227 }, { "epoch": 0.07173333333333333, "grad_norm": 1.39019775390625, "learning_rate": 0.00018569459879973327, "loss": 2.4093, "step": 3228 }, { "epoch": 0.07175555555555556, "grad_norm": 1.3510781526565552, "learning_rate": 0.000185690153367415, "loss": 2.1221, "step": 3229 }, { "epoch": 0.07177777777777777, "grad_norm": 1.2744882106781006, "learning_rate": 0.0001856857079350967, "loss": 1.9313, "step": 3230 }, { "epoch": 0.0718, "grad_norm": 1.177996039390564, "learning_rate": 0.0001856812625027784, "loss": 1.5578, "step": 3231 }, { "epoch": 0.07182222222222222, "grad_norm": 1.3063701391220093, "learning_rate": 0.0001856768170704601, "loss": 2.0013, "step": 3232 }, { "epoch": 0.07184444444444445, "grad_norm": 1.3159078359603882, "learning_rate": 0.00018567237163814182, "loss": 2.0254, "step": 3233 }, { "epoch": 0.07186666666666666, "grad_norm": 1.2836161851882935, "learning_rate": 0.00018566792620582353, "loss": 1.7575, "step": 3234 }, { "epoch": 0.07188888888888889, "grad_norm": 1.320886492729187, "learning_rate": 0.00018566348077350524, "loss": 2.0836, "step": 3235 }, { "epoch": 0.0719111111111111, "grad_norm": 1.2700814008712769, "learning_rate": 0.00018565903534118695, "loss": 1.8757, "step": 3236 }, { "epoch": 0.07193333333333334, "grad_norm": 1.3701927661895752, "learning_rate": 0.00018565458990886863, "loss": 2.1828, "step": 3237 }, { "epoch": 0.07195555555555555, "grad_norm": 1.2790844440460205, "learning_rate": 0.00018565014447655037, "loss": 1.7537, "step": 3238 }, { "epoch": 0.07197777777777778, "grad_norm": 1.5068280696868896, "learning_rate": 0.00018564569904423205, "loss": 1.9848, "step": 3239 }, { "epoch": 0.072, "grad_norm": 1.5322648286819458, "learning_rate": 0.00018564125361191376, "loss": 2.3908, "step": 3240 }, { "epoch": 0.07202222222222222, "grad_norm": 1.5137754678726196, "learning_rate": 0.00018563680817959547, "loss": 2.4623, "step": 3241 }, { "epoch": 0.07204444444444444, "grad_norm": 1.3661772012710571, "learning_rate": 0.00018563236274727718, "loss": 2.1133, "step": 3242 }, { "epoch": 0.07206666666666667, "grad_norm": 1.356837272644043, "learning_rate": 0.00018562791731495889, "loss": 1.834, "step": 3243 }, { "epoch": 0.07208888888888888, "grad_norm": 1.22430419921875, "learning_rate": 0.0001856234718826406, "loss": 1.786, "step": 3244 }, { "epoch": 0.07211111111111111, "grad_norm": 1.1776831150054932, "learning_rate": 0.0001856190264503223, "loss": 1.5689, "step": 3245 }, { "epoch": 0.07213333333333333, "grad_norm": 1.3597360849380493, "learning_rate": 0.00018561458101800402, "loss": 2.388, "step": 3246 }, { "epoch": 0.07215555555555556, "grad_norm": 1.5380576848983765, "learning_rate": 0.00018561013558568572, "loss": 1.854, "step": 3247 }, { "epoch": 0.07217777777777777, "grad_norm": 1.571637749671936, "learning_rate": 0.0001856056901533674, "loss": 1.9646, "step": 3248 }, { "epoch": 0.0722, "grad_norm": 1.383018136024475, "learning_rate": 0.00018560124472104914, "loss": 1.6999, "step": 3249 }, { "epoch": 0.07222222222222222, "grad_norm": 1.2798205614089966, "learning_rate": 0.00018559679928873083, "loss": 1.0246, "step": 3250 }, { "epoch": 0.07224444444444444, "grad_norm": 0.6936966776847839, "learning_rate": 0.00018559235385641254, "loss": 1.1929, "step": 3251 }, { "epoch": 0.07226666666666667, "grad_norm": 1.1614549160003662, "learning_rate": 0.00018558790842409425, "loss": 2.5859, "step": 3252 }, { "epoch": 0.07228888888888889, "grad_norm": 1.2852308750152588, "learning_rate": 0.00018558346299177596, "loss": 2.9286, "step": 3253 }, { "epoch": 0.07231111111111112, "grad_norm": 0.97017902135849, "learning_rate": 0.00018557901755945767, "loss": 1.8899, "step": 3254 }, { "epoch": 0.07233333333333333, "grad_norm": 1.0069116353988647, "learning_rate": 0.00018557457212713937, "loss": 1.5767, "step": 3255 }, { "epoch": 0.07235555555555556, "grad_norm": 1.1649580001831055, "learning_rate": 0.00018557012669482108, "loss": 2.1984, "step": 3256 }, { "epoch": 0.07237777777777778, "grad_norm": 0.9498484134674072, "learning_rate": 0.00018556568126250277, "loss": 0.6958, "step": 3257 }, { "epoch": 0.0724, "grad_norm": 0.7575570344924927, "learning_rate": 0.0001855612358301845, "loss": 0.9266, "step": 3258 }, { "epoch": 0.07242222222222222, "grad_norm": 1.2204036712646484, "learning_rate": 0.00018555679039786619, "loss": 2.0346, "step": 3259 }, { "epoch": 0.07244444444444445, "grad_norm": 1.2786270380020142, "learning_rate": 0.0001855523449655479, "loss": 2.3933, "step": 3260 }, { "epoch": 0.07246666666666667, "grad_norm": 1.3189749717712402, "learning_rate": 0.0001855478995332296, "loss": 2.1746, "step": 3261 }, { "epoch": 0.0724888888888889, "grad_norm": 1.2783126831054688, "learning_rate": 0.00018554345410091131, "loss": 2.2306, "step": 3262 }, { "epoch": 0.07251111111111111, "grad_norm": 1.2526603937149048, "learning_rate": 0.00018553900866859305, "loss": 2.1827, "step": 3263 }, { "epoch": 0.07253333333333334, "grad_norm": 3.138085126876831, "learning_rate": 0.00018553456323627473, "loss": 0.1832, "step": 3264 }, { "epoch": 0.07255555555555555, "grad_norm": 1.1451914310455322, "learning_rate": 0.00018553011780395644, "loss": 1.8625, "step": 3265 }, { "epoch": 0.07257777777777778, "grad_norm": 1.1237571239471436, "learning_rate": 0.00018552567237163815, "loss": 1.5942, "step": 3266 }, { "epoch": 0.0726, "grad_norm": 1.176329493522644, "learning_rate": 0.00018552122693931986, "loss": 1.8458, "step": 3267 }, { "epoch": 0.07262222222222223, "grad_norm": 1.2657891511917114, "learning_rate": 0.00018551678150700155, "loss": 1.6219, "step": 3268 }, { "epoch": 0.07264444444444444, "grad_norm": 1.6398987770080566, "learning_rate": 0.00018551233607468328, "loss": 2.2206, "step": 3269 }, { "epoch": 0.07266666666666667, "grad_norm": 1.170137643814087, "learning_rate": 0.000185507890642365, "loss": 2.1818, "step": 3270 }, { "epoch": 0.07268888888888889, "grad_norm": 1.1334134340286255, "learning_rate": 0.00018550344521004667, "loss": 1.6677, "step": 3271 }, { "epoch": 0.07271111111111112, "grad_norm": 1.469070315361023, "learning_rate": 0.0001854989997777284, "loss": 2.4642, "step": 3272 }, { "epoch": 0.07273333333333333, "grad_norm": 1.529949426651001, "learning_rate": 0.0001854945543454101, "loss": 2.3606, "step": 3273 }, { "epoch": 0.07275555555555556, "grad_norm": 1.2295321226119995, "learning_rate": 0.0001854901089130918, "loss": 2.2251, "step": 3274 }, { "epoch": 0.07277777777777777, "grad_norm": 1.7624956369400024, "learning_rate": 0.0001854856634807735, "loss": 2.3783, "step": 3275 }, { "epoch": 0.0728, "grad_norm": 1.4810762405395508, "learning_rate": 0.00018548121804845522, "loss": 2.4524, "step": 3276 }, { "epoch": 0.07282222222222222, "grad_norm": 1.3258888721466064, "learning_rate": 0.0001854767726161369, "loss": 2.1944, "step": 3277 }, { "epoch": 0.07284444444444445, "grad_norm": 1.1668721437454224, "learning_rate": 0.00018547232718381864, "loss": 1.5096, "step": 3278 }, { "epoch": 0.07286666666666666, "grad_norm": 1.189149260520935, "learning_rate": 0.00018546788175150035, "loss": 1.0028, "step": 3279 }, { "epoch": 0.07288888888888889, "grad_norm": 1.1918368339538574, "learning_rate": 0.00018546343631918206, "loss": 1.7321, "step": 3280 }, { "epoch": 0.07291111111111111, "grad_norm": 1.2547839879989624, "learning_rate": 0.00018545899088686377, "loss": 2.1974, "step": 3281 }, { "epoch": 0.07293333333333334, "grad_norm": 1.5724372863769531, "learning_rate": 0.00018545454545454545, "loss": 1.8069, "step": 3282 }, { "epoch": 0.07295555555555555, "grad_norm": 1.415132761001587, "learning_rate": 0.0001854501000222272, "loss": 2.2011, "step": 3283 }, { "epoch": 0.07297777777777778, "grad_norm": 1.2512127161026, "learning_rate": 0.00018544565458990887, "loss": 1.9629, "step": 3284 }, { "epoch": 0.073, "grad_norm": 1.2589808702468872, "learning_rate": 0.00018544120915759058, "loss": 2.0601, "step": 3285 }, { "epoch": 0.07302222222222222, "grad_norm": 1.6282298564910889, "learning_rate": 0.0001854367637252723, "loss": 2.0631, "step": 3286 }, { "epoch": 0.07304444444444444, "grad_norm": 1.7478584051132202, "learning_rate": 0.000185432318292954, "loss": 2.0575, "step": 3287 }, { "epoch": 0.07306666666666667, "grad_norm": 1.8844873905181885, "learning_rate": 0.0001854278728606357, "loss": 2.0351, "step": 3288 }, { "epoch": 0.07308888888888888, "grad_norm": 1.3124668598175049, "learning_rate": 0.00018542342742831742, "loss": 1.705, "step": 3289 }, { "epoch": 0.07311111111111111, "grad_norm": 1.5351976156234741, "learning_rate": 0.00018541898199599913, "loss": 1.6251, "step": 3290 }, { "epoch": 0.07313333333333333, "grad_norm": 1.3581308126449585, "learning_rate": 0.0001854145365636808, "loss": 2.1643, "step": 3291 }, { "epoch": 0.07315555555555556, "grad_norm": 1.1872023344039917, "learning_rate": 0.00018541009113136255, "loss": 1.8228, "step": 3292 }, { "epoch": 0.07317777777777777, "grad_norm": 1.2997936010360718, "learning_rate": 0.00018540564569904423, "loss": 1.9536, "step": 3293 }, { "epoch": 0.0732, "grad_norm": 1.4094762802124023, "learning_rate": 0.00018540120026672594, "loss": 1.9771, "step": 3294 }, { "epoch": 0.07322222222222222, "grad_norm": 3.250911235809326, "learning_rate": 0.00018539675483440765, "loss": 2.0529, "step": 3295 }, { "epoch": 0.07324444444444445, "grad_norm": 1.567543625831604, "learning_rate": 0.00018539230940208936, "loss": 1.8497, "step": 3296 }, { "epoch": 0.07326666666666666, "grad_norm": 1.3556450605392456, "learning_rate": 0.00018538786396977107, "loss": 1.6056, "step": 3297 }, { "epoch": 0.07328888888888889, "grad_norm": 1.4467936754226685, "learning_rate": 0.00018538341853745278, "loss": 1.6848, "step": 3298 }, { "epoch": 0.0733111111111111, "grad_norm": 1.2786372900009155, "learning_rate": 0.0001853789731051345, "loss": 1.6993, "step": 3299 }, { "epoch": 0.07333333333333333, "grad_norm": 1.560208797454834, "learning_rate": 0.0001853745276728162, "loss": 2.208, "step": 3300 }, { "epoch": 0.07335555555555555, "grad_norm": 1.2748750448226929, "learning_rate": 0.0001853700822404979, "loss": 2.8881, "step": 3301 }, { "epoch": 0.07337777777777778, "grad_norm": 1.3012605905532837, "learning_rate": 0.0001853656368081796, "loss": 2.4086, "step": 3302 }, { "epoch": 0.0734, "grad_norm": 1.0598418712615967, "learning_rate": 0.00018536119137586133, "loss": 2.0764, "step": 3303 }, { "epoch": 0.07342222222222222, "grad_norm": 1.1563421487808228, "learning_rate": 0.000185356745943543, "loss": 2.0794, "step": 3304 }, { "epoch": 0.07344444444444445, "grad_norm": 1.1678755283355713, "learning_rate": 0.00018535230051122472, "loss": 2.3423, "step": 3305 }, { "epoch": 0.07346666666666667, "grad_norm": 1.1595982313156128, "learning_rate": 0.00018534785507890643, "loss": 2.1377, "step": 3306 }, { "epoch": 0.0734888888888889, "grad_norm": 1.0765740871429443, "learning_rate": 0.00018534340964658814, "loss": 2.189, "step": 3307 }, { "epoch": 0.07351111111111111, "grad_norm": 1.1508079767227173, "learning_rate": 0.00018533896421426985, "loss": 2.5721, "step": 3308 }, { "epoch": 0.07353333333333334, "grad_norm": 1.378800630569458, "learning_rate": 0.00018533451878195156, "loss": 2.4782, "step": 3309 }, { "epoch": 0.07355555555555555, "grad_norm": 1.2660834789276123, "learning_rate": 0.00018533007334963327, "loss": 2.118, "step": 3310 }, { "epoch": 0.07357777777777778, "grad_norm": 0.9212296605110168, "learning_rate": 0.00018532562791731495, "loss": 1.0606, "step": 3311 }, { "epoch": 0.0736, "grad_norm": 1.092615008354187, "learning_rate": 0.0001853211824849967, "loss": 2.2381, "step": 3312 }, { "epoch": 0.07362222222222223, "grad_norm": 1.2031207084655762, "learning_rate": 0.00018531673705267837, "loss": 2.0134, "step": 3313 }, { "epoch": 0.07364444444444444, "grad_norm": 1.151123285293579, "learning_rate": 0.00018531229162036008, "loss": 2.1517, "step": 3314 }, { "epoch": 0.07366666666666667, "grad_norm": 1.074080228805542, "learning_rate": 0.0001853078461880418, "loss": 1.9847, "step": 3315 }, { "epoch": 0.07368888888888889, "grad_norm": 1.1378743648529053, "learning_rate": 0.0001853034007557235, "loss": 1.8591, "step": 3316 }, { "epoch": 0.07371111111111112, "grad_norm": 1.2244162559509277, "learning_rate": 0.0001852989553234052, "loss": 2.3329, "step": 3317 }, { "epoch": 0.07373333333333333, "grad_norm": 1.2962528467178345, "learning_rate": 0.00018529450989108692, "loss": 1.1951, "step": 3318 }, { "epoch": 0.07375555555555556, "grad_norm": 1.0658739805221558, "learning_rate": 0.00018529006445876863, "loss": 1.3047, "step": 3319 }, { "epoch": 0.07377777777777778, "grad_norm": 1.2752010822296143, "learning_rate": 0.00018528561902645034, "loss": 1.9574, "step": 3320 }, { "epoch": 0.0738, "grad_norm": 1.0128380060195923, "learning_rate": 0.00018528117359413205, "loss": 1.4943, "step": 3321 }, { "epoch": 0.07382222222222222, "grad_norm": 1.343968152999878, "learning_rate": 0.00018527672816181373, "loss": 2.0003, "step": 3322 }, { "epoch": 0.07384444444444445, "grad_norm": 1.382271409034729, "learning_rate": 0.00018527228272949547, "loss": 2.028, "step": 3323 }, { "epoch": 0.07386666666666666, "grad_norm": 1.1659868955612183, "learning_rate": 0.00018526783729717715, "loss": 1.9527, "step": 3324 }, { "epoch": 0.07388888888888889, "grad_norm": 1.2338945865631104, "learning_rate": 0.00018526339186485886, "loss": 2.1587, "step": 3325 }, { "epoch": 0.07391111111111111, "grad_norm": 1.2250200510025024, "learning_rate": 0.00018525894643254057, "loss": 2.1808, "step": 3326 }, { "epoch": 0.07393333333333334, "grad_norm": 1.3517470359802246, "learning_rate": 0.00018525450100022228, "loss": 1.9654, "step": 3327 }, { "epoch": 0.07395555555555555, "grad_norm": 1.2386265993118286, "learning_rate": 0.000185250055567904, "loss": 2.3532, "step": 3328 }, { "epoch": 0.07397777777777778, "grad_norm": 1.1578645706176758, "learning_rate": 0.0001852456101355857, "loss": 1.8651, "step": 3329 }, { "epoch": 0.074, "grad_norm": 1.1870566606521606, "learning_rate": 0.0001852411647032674, "loss": 2.0604, "step": 3330 }, { "epoch": 0.07402222222222223, "grad_norm": 1.1565959453582764, "learning_rate": 0.0001852367192709491, "loss": 1.8398, "step": 3331 }, { "epoch": 0.07404444444444444, "grad_norm": 1.6551729440689087, "learning_rate": 0.00018523227383863083, "loss": 2.0341, "step": 3332 }, { "epoch": 0.07406666666666667, "grad_norm": 1.3001614809036255, "learning_rate": 0.0001852278284063125, "loss": 1.8044, "step": 3333 }, { "epoch": 0.07408888888888888, "grad_norm": 1.2458326816558838, "learning_rate": 0.00018522338297399422, "loss": 2.2024, "step": 3334 }, { "epoch": 0.07411111111111111, "grad_norm": 2.5055184364318848, "learning_rate": 0.00018521893754167595, "loss": 2.2722, "step": 3335 }, { "epoch": 0.07413333333333333, "grad_norm": 1.5144240856170654, "learning_rate": 0.00018521449210935764, "loss": 2.1092, "step": 3336 }, { "epoch": 0.07415555555555556, "grad_norm": 1.4910916090011597, "learning_rate": 0.00018521004667703937, "loss": 1.9947, "step": 3337 }, { "epoch": 0.07417777777777777, "grad_norm": 1.3464441299438477, "learning_rate": 0.00018520560124472106, "loss": 2.264, "step": 3338 }, { "epoch": 0.0742, "grad_norm": 1.2051719427108765, "learning_rate": 0.00018520115581240277, "loss": 1.8006, "step": 3339 }, { "epoch": 0.07422222222222222, "grad_norm": 1.360304355621338, "learning_rate": 0.00018519671038008448, "loss": 2.0445, "step": 3340 }, { "epoch": 0.07424444444444445, "grad_norm": 1.3306429386138916, "learning_rate": 0.00018519226494776619, "loss": 1.8543, "step": 3341 }, { "epoch": 0.07426666666666666, "grad_norm": 1.3631885051727295, "learning_rate": 0.00018518781951544787, "loss": 1.7095, "step": 3342 }, { "epoch": 0.07428888888888889, "grad_norm": 1.8065212965011597, "learning_rate": 0.0001851833740831296, "loss": 2.1346, "step": 3343 }, { "epoch": 0.0743111111111111, "grad_norm": 1.2330005168914795, "learning_rate": 0.00018517892865081131, "loss": 1.9291, "step": 3344 }, { "epoch": 0.07433333333333333, "grad_norm": 1.3778694868087769, "learning_rate": 0.000185174483218493, "loss": 1.8444, "step": 3345 }, { "epoch": 0.07435555555555555, "grad_norm": 1.6837142705917358, "learning_rate": 0.00018517003778617473, "loss": 1.8211, "step": 3346 }, { "epoch": 0.07437777777777778, "grad_norm": 1.7540706396102905, "learning_rate": 0.00018516559235385642, "loss": 2.0199, "step": 3347 }, { "epoch": 0.0744, "grad_norm": 1.132103681564331, "learning_rate": 0.00018516114692153813, "loss": 1.0775, "step": 3348 }, { "epoch": 0.07442222222222222, "grad_norm": 1.384882926940918, "learning_rate": 0.00018515670148921983, "loss": 1.348, "step": 3349 }, { "epoch": 0.07444444444444444, "grad_norm": 1.945608377456665, "learning_rate": 0.00018515225605690154, "loss": 1.6171, "step": 3350 }, { "epoch": 0.07446666666666667, "grad_norm": 0.9314131736755371, "learning_rate": 0.00018514781062458323, "loss": 2.2847, "step": 3351 }, { "epoch": 0.07448888888888888, "grad_norm": 1.1078766584396362, "learning_rate": 0.00018514336519226496, "loss": 2.573, "step": 3352 }, { "epoch": 0.07451111111111111, "grad_norm": 1.62334144115448, "learning_rate": 0.00018513891975994667, "loss": 2.8408, "step": 3353 }, { "epoch": 0.07453333333333333, "grad_norm": 1.525193214416504, "learning_rate": 0.00018513447432762836, "loss": 2.0845, "step": 3354 }, { "epoch": 0.07455555555555556, "grad_norm": 1.1216214895248413, "learning_rate": 0.0001851300288953101, "loss": 1.7651, "step": 3355 }, { "epoch": 0.07457777777777778, "grad_norm": 1.3580617904663086, "learning_rate": 0.00018512558346299178, "loss": 2.6094, "step": 3356 }, { "epoch": 0.0746, "grad_norm": 1.0684504508972168, "learning_rate": 0.0001851211380306735, "loss": 2.1471, "step": 3357 }, { "epoch": 0.07462222222222223, "grad_norm": 1.2796941995620728, "learning_rate": 0.0001851166925983552, "loss": 2.731, "step": 3358 }, { "epoch": 0.07464444444444444, "grad_norm": 1.17794930934906, "learning_rate": 0.0001851122471660369, "loss": 2.105, "step": 3359 }, { "epoch": 0.07466666666666667, "grad_norm": 1.3348009586334229, "learning_rate": 0.00018510780173371861, "loss": 1.9781, "step": 3360 }, { "epoch": 0.07468888888888889, "grad_norm": 1.0967626571655273, "learning_rate": 0.00018510335630140032, "loss": 1.7868, "step": 3361 }, { "epoch": 0.07471111111111112, "grad_norm": 1.7560702562332153, "learning_rate": 0.00018509891086908203, "loss": 1.9523, "step": 3362 }, { "epoch": 0.07473333333333333, "grad_norm": 1.2477971315383911, "learning_rate": 0.00018509446543676374, "loss": 2.2214, "step": 3363 }, { "epoch": 0.07475555555555556, "grad_norm": 1.19613778591156, "learning_rate": 0.00018509002000444545, "loss": 2.3058, "step": 3364 }, { "epoch": 0.07477777777777778, "grad_norm": 1.2666854858398438, "learning_rate": 0.00018508557457212713, "loss": 1.9466, "step": 3365 }, { "epoch": 0.0748, "grad_norm": 1.2790480852127075, "learning_rate": 0.00018508112913980887, "loss": 1.9257, "step": 3366 }, { "epoch": 0.07482222222222222, "grad_norm": 1.1811188459396362, "learning_rate": 0.00018507668370749055, "loss": 1.8595, "step": 3367 }, { "epoch": 0.07484444444444445, "grad_norm": 1.2089661359786987, "learning_rate": 0.00018507223827517226, "loss": 2.119, "step": 3368 }, { "epoch": 0.07486666666666666, "grad_norm": 1.2355477809906006, "learning_rate": 0.00018506779284285397, "loss": 1.7977, "step": 3369 }, { "epoch": 0.0748888888888889, "grad_norm": 1.1849489212036133, "learning_rate": 0.00018506334741053568, "loss": 1.5681, "step": 3370 }, { "epoch": 0.07491111111111111, "grad_norm": 1.5108733177185059, "learning_rate": 0.0001850589019782174, "loss": 2.3001, "step": 3371 }, { "epoch": 0.07493333333333334, "grad_norm": 1.1956923007965088, "learning_rate": 0.0001850544565458991, "loss": 1.7848, "step": 3372 }, { "epoch": 0.07495555555555555, "grad_norm": 1.1768664121627808, "learning_rate": 0.0001850500111135808, "loss": 1.8988, "step": 3373 }, { "epoch": 0.07497777777777778, "grad_norm": 1.3499433994293213, "learning_rate": 0.00018504556568126252, "loss": 1.8989, "step": 3374 }, { "epoch": 0.075, "grad_norm": 1.366759181022644, "learning_rate": 0.00018504112024894423, "loss": 2.4657, "step": 3375 }, { "epoch": 0.07502222222222223, "grad_norm": 1.2666727304458618, "learning_rate": 0.0001850366748166259, "loss": 2.065, "step": 3376 }, { "epoch": 0.07504444444444444, "grad_norm": 1.519229769706726, "learning_rate": 0.00018503222938430765, "loss": 2.1791, "step": 3377 }, { "epoch": 0.07506666666666667, "grad_norm": 1.416766881942749, "learning_rate": 0.00018502778395198933, "loss": 2.108, "step": 3378 }, { "epoch": 0.07508888888888889, "grad_norm": 1.2307345867156982, "learning_rate": 0.00018502333851967104, "loss": 1.968, "step": 3379 }, { "epoch": 0.07511111111111111, "grad_norm": 1.315184473991394, "learning_rate": 0.00018501889308735275, "loss": 2.1619, "step": 3380 }, { "epoch": 0.07513333333333333, "grad_norm": 0.40658947825431824, "learning_rate": 0.00018501444765503446, "loss": 0.0454, "step": 3381 }, { "epoch": 0.07515555555555556, "grad_norm": 1.5952562093734741, "learning_rate": 0.00018501000222271617, "loss": 2.1367, "step": 3382 }, { "epoch": 0.07517777777777777, "grad_norm": 1.5650168657302856, "learning_rate": 0.00018500555679039788, "loss": 2.464, "step": 3383 }, { "epoch": 0.0752, "grad_norm": 1.2832249402999878, "learning_rate": 0.0001850011113580796, "loss": 1.8291, "step": 3384 }, { "epoch": 0.07522222222222222, "grad_norm": 1.6439323425292969, "learning_rate": 0.00018499666592576127, "loss": 2.7184, "step": 3385 }, { "epoch": 0.07524444444444445, "grad_norm": 1.3815306425094604, "learning_rate": 0.000184992220493443, "loss": 2.1463, "step": 3386 }, { "epoch": 0.07526666666666666, "grad_norm": 1.3136014938354492, "learning_rate": 0.0001849877750611247, "loss": 1.7231, "step": 3387 }, { "epoch": 0.07528888888888889, "grad_norm": 1.4345208406448364, "learning_rate": 0.0001849833296288064, "loss": 1.9532, "step": 3388 }, { "epoch": 0.0753111111111111, "grad_norm": 1.4720078706741333, "learning_rate": 0.0001849788841964881, "loss": 2.0113, "step": 3389 }, { "epoch": 0.07533333333333334, "grad_norm": 1.3436717987060547, "learning_rate": 0.00018497443876416982, "loss": 1.9456, "step": 3390 }, { "epoch": 0.07535555555555555, "grad_norm": 1.5637962818145752, "learning_rate": 0.00018496999333185153, "loss": 1.8608, "step": 3391 }, { "epoch": 0.07537777777777778, "grad_norm": 1.2686561346054077, "learning_rate": 0.00018496554789953324, "loss": 1.625, "step": 3392 }, { "epoch": 0.0754, "grad_norm": 1.2913857698440552, "learning_rate": 0.00018496110246721495, "loss": 1.8973, "step": 3393 }, { "epoch": 0.07542222222222222, "grad_norm": 1.561462640762329, "learning_rate": 0.00018495665703489666, "loss": 1.7178, "step": 3394 }, { "epoch": 0.07544444444444444, "grad_norm": 1.4434877634048462, "learning_rate": 0.00018495221160257837, "loss": 2.1639, "step": 3395 }, { "epoch": 0.07546666666666667, "grad_norm": 1.6147836446762085, "learning_rate": 0.00018494776617026005, "loss": 1.8649, "step": 3396 }, { "epoch": 0.07548888888888888, "grad_norm": 1.618361234664917, "learning_rate": 0.0001849433207379418, "loss": 1.9943, "step": 3397 }, { "epoch": 0.07551111111111111, "grad_norm": 1.5885554552078247, "learning_rate": 0.00018493887530562347, "loss": 1.5315, "step": 3398 }, { "epoch": 0.07553333333333333, "grad_norm": 1.674157738685608, "learning_rate": 0.00018493442987330518, "loss": 1.8451, "step": 3399 }, { "epoch": 0.07555555555555556, "grad_norm": 1.1902797222137451, "learning_rate": 0.0001849299844409869, "loss": 0.9804, "step": 3400 }, { "epoch": 0.07557777777777777, "grad_norm": 0.760408878326416, "learning_rate": 0.0001849255390086686, "loss": 1.4658, "step": 3401 }, { "epoch": 0.0756, "grad_norm": 0.8293417096138, "learning_rate": 0.0001849210935763503, "loss": 1.2773, "step": 3402 }, { "epoch": 0.07562222222222222, "grad_norm": 1.3957338333129883, "learning_rate": 0.00018491664814403202, "loss": 0.947, "step": 3403 }, { "epoch": 0.07564444444444444, "grad_norm": 1.1274092197418213, "learning_rate": 0.00018491220271171373, "loss": 2.4067, "step": 3404 }, { "epoch": 0.07566666666666666, "grad_norm": 1.2295225858688354, "learning_rate": 0.0001849077572793954, "loss": 2.7018, "step": 3405 }, { "epoch": 0.07568888888888889, "grad_norm": 1.263177514076233, "learning_rate": 0.00018490331184707715, "loss": 2.4436, "step": 3406 }, { "epoch": 0.07571111111111112, "grad_norm": 1.1552603244781494, "learning_rate": 0.00018489886641475883, "loss": 2.2545, "step": 3407 }, { "epoch": 0.07573333333333333, "grad_norm": 1.1881152391433716, "learning_rate": 0.00018489442098244054, "loss": 2.4022, "step": 3408 }, { "epoch": 0.07575555555555556, "grad_norm": 1.275702953338623, "learning_rate": 0.00018488997555012228, "loss": 1.9104, "step": 3409 }, { "epoch": 0.07577777777777778, "grad_norm": 1.3673769235610962, "learning_rate": 0.00018488553011780396, "loss": 2.2236, "step": 3410 }, { "epoch": 0.0758, "grad_norm": 1.2929093837738037, "learning_rate": 0.00018488108468548567, "loss": 2.1843, "step": 3411 }, { "epoch": 0.07582222222222222, "grad_norm": 1.359314203262329, "learning_rate": 0.00018487663925316738, "loss": 2.1149, "step": 3412 }, { "epoch": 0.07584444444444445, "grad_norm": 1.3210586309432983, "learning_rate": 0.0001848721938208491, "loss": 2.1579, "step": 3413 }, { "epoch": 0.07586666666666667, "grad_norm": 1.0641368627548218, "learning_rate": 0.0001848677483885308, "loss": 1.8042, "step": 3414 }, { "epoch": 0.0758888888888889, "grad_norm": 1.3975999355316162, "learning_rate": 0.0001848633029562125, "loss": 2.6793, "step": 3415 }, { "epoch": 0.07591111111111111, "grad_norm": 1.2937467098236084, "learning_rate": 0.0001848588575238942, "loss": 2.0272, "step": 3416 }, { "epoch": 0.07593333333333334, "grad_norm": 1.3563932180404663, "learning_rate": 0.00018485441209157593, "loss": 2.2837, "step": 3417 }, { "epoch": 0.07595555555555555, "grad_norm": 1.334378719329834, "learning_rate": 0.00018484996665925764, "loss": 2.031, "step": 3418 }, { "epoch": 0.07597777777777778, "grad_norm": 1.229436993598938, "learning_rate": 0.00018484552122693932, "loss": 1.7034, "step": 3419 }, { "epoch": 0.076, "grad_norm": 1.3505103588104248, "learning_rate": 0.00018484107579462106, "loss": 1.733, "step": 3420 }, { "epoch": 0.07602222222222223, "grad_norm": 1.242598533630371, "learning_rate": 0.00018483663036230274, "loss": 2.1144, "step": 3421 }, { "epoch": 0.07604444444444444, "grad_norm": 1.3723598718643188, "learning_rate": 0.00018483218492998445, "loss": 2.4923, "step": 3422 }, { "epoch": 0.07606666666666667, "grad_norm": 1.3054099082946777, "learning_rate": 0.00018482773949766616, "loss": 1.854, "step": 3423 }, { "epoch": 0.07608888888888889, "grad_norm": 1.492283582687378, "learning_rate": 0.00018482329406534787, "loss": 2.3229, "step": 3424 }, { "epoch": 0.07611111111111112, "grad_norm": 1.1340991258621216, "learning_rate": 0.00018481884863302955, "loss": 1.7517, "step": 3425 }, { "epoch": 0.07613333333333333, "grad_norm": 1.4965713024139404, "learning_rate": 0.00018481440320071129, "loss": 2.8053, "step": 3426 }, { "epoch": 0.07615555555555556, "grad_norm": 1.3556275367736816, "learning_rate": 0.000184809957768393, "loss": 1.9228, "step": 3427 }, { "epoch": 0.07617777777777777, "grad_norm": 0.9949300289154053, "learning_rate": 0.00018480551233607468, "loss": 1.6918, "step": 3428 }, { "epoch": 0.0762, "grad_norm": 1.1289187669754028, "learning_rate": 0.00018480106690375641, "loss": 2.0651, "step": 3429 }, { "epoch": 0.07622222222222222, "grad_norm": 1.2417426109313965, "learning_rate": 0.0001847966214714381, "loss": 2.0404, "step": 3430 }, { "epoch": 0.07624444444444445, "grad_norm": 1.6051791906356812, "learning_rate": 0.00018479217603911983, "loss": 2.5234, "step": 3431 }, { "epoch": 0.07626666666666666, "grad_norm": 1.1387208700180054, "learning_rate": 0.00018478773060680152, "loss": 0.7454, "step": 3432 }, { "epoch": 0.07628888888888889, "grad_norm": 1.3739467859268188, "learning_rate": 0.00018478328517448323, "loss": 1.7888, "step": 3433 }, { "epoch": 0.07631111111111111, "grad_norm": 1.2826472520828247, "learning_rate": 0.00018477883974216494, "loss": 1.9529, "step": 3434 }, { "epoch": 0.07633333333333334, "grad_norm": 1.4125449657440186, "learning_rate": 0.00018477439430984665, "loss": 2.1709, "step": 3435 }, { "epoch": 0.07635555555555555, "grad_norm": 1.268842339515686, "learning_rate": 0.00018476994887752835, "loss": 2.0351, "step": 3436 }, { "epoch": 0.07637777777777778, "grad_norm": 1.33278489112854, "learning_rate": 0.00018476550344521006, "loss": 1.6552, "step": 3437 }, { "epoch": 0.0764, "grad_norm": 1.6010874509811401, "learning_rate": 0.00018476105801289177, "loss": 1.9434, "step": 3438 }, { "epoch": 0.07642222222222222, "grad_norm": 1.6925970315933228, "learning_rate": 0.00018475661258057346, "loss": 2.202, "step": 3439 }, { "epoch": 0.07644444444444444, "grad_norm": 1.2409571409225464, "learning_rate": 0.0001847521671482552, "loss": 2.006, "step": 3440 }, { "epoch": 0.07646666666666667, "grad_norm": 1.504262089729309, "learning_rate": 0.00018474772171593688, "loss": 2.2944, "step": 3441 }, { "epoch": 0.07648888888888888, "grad_norm": 1.1491262912750244, "learning_rate": 0.00018474327628361859, "loss": 1.6683, "step": 3442 }, { "epoch": 0.07651111111111111, "grad_norm": 1.3025236129760742, "learning_rate": 0.0001847388308513003, "loss": 2.0945, "step": 3443 }, { "epoch": 0.07653333333333333, "grad_norm": 1.6361143589019775, "learning_rate": 0.000184734385418982, "loss": 2.3858, "step": 3444 }, { "epoch": 0.07655555555555556, "grad_norm": 1.5140334367752075, "learning_rate": 0.00018472993998666371, "loss": 2.0115, "step": 3445 }, { "epoch": 0.07657777777777777, "grad_norm": 1.5223745107650757, "learning_rate": 0.00018472549455434542, "loss": 2.2974, "step": 3446 }, { "epoch": 0.0766, "grad_norm": 1.3797028064727783, "learning_rate": 0.00018472104912202713, "loss": 2.0622, "step": 3447 }, { "epoch": 0.07662222222222222, "grad_norm": 1.4724992513656616, "learning_rate": 0.00018471660368970882, "loss": 1.7984, "step": 3448 }, { "epoch": 0.07664444444444445, "grad_norm": 1.4768145084381104, "learning_rate": 0.00018471215825739055, "loss": 1.8535, "step": 3449 }, { "epoch": 0.07666666666666666, "grad_norm": 1.2939058542251587, "learning_rate": 0.00018470771282507224, "loss": 1.9566, "step": 3450 }, { "epoch": 0.07668888888888889, "grad_norm": 1.1560622453689575, "learning_rate": 0.00018470326739275397, "loss": 2.586, "step": 3451 }, { "epoch": 0.0767111111111111, "grad_norm": 0.8209676146507263, "learning_rate": 0.00018469882196043565, "loss": 1.1835, "step": 3452 }, { "epoch": 0.07673333333333333, "grad_norm": 1.0181770324707031, "learning_rate": 0.00018469437652811736, "loss": 1.9395, "step": 3453 }, { "epoch": 0.07675555555555555, "grad_norm": 1.1864060163497925, "learning_rate": 0.00018468993109579907, "loss": 2.4299, "step": 3454 }, { "epoch": 0.07677777777777778, "grad_norm": 1.2893823385238647, "learning_rate": 0.00018468548566348078, "loss": 2.2946, "step": 3455 }, { "epoch": 0.0768, "grad_norm": 1.1601964235305786, "learning_rate": 0.0001846810402311625, "loss": 2.1538, "step": 3456 }, { "epoch": 0.07682222222222222, "grad_norm": 1.2344838380813599, "learning_rate": 0.0001846765947988442, "loss": 2.1581, "step": 3457 }, { "epoch": 0.07684444444444445, "grad_norm": 1.3981658220291138, "learning_rate": 0.0001846721493665259, "loss": 2.4107, "step": 3458 }, { "epoch": 0.07686666666666667, "grad_norm": 1.286293387413025, "learning_rate": 0.0001846677039342076, "loss": 2.1764, "step": 3459 }, { "epoch": 0.0768888888888889, "grad_norm": 1.241084337234497, "learning_rate": 0.00018466325850188933, "loss": 1.9225, "step": 3460 }, { "epoch": 0.07691111111111111, "grad_norm": 1.2202966213226318, "learning_rate": 0.00018465881306957101, "loss": 1.8707, "step": 3461 }, { "epoch": 0.07693333333333334, "grad_norm": 1.1628791093826294, "learning_rate": 0.00018465436763725272, "loss": 2.0193, "step": 3462 }, { "epoch": 0.07695555555555555, "grad_norm": 1.1507421731948853, "learning_rate": 0.00018464992220493443, "loss": 2.0882, "step": 3463 }, { "epoch": 0.07697777777777778, "grad_norm": 1.1908776760101318, "learning_rate": 0.00018464547677261614, "loss": 2.102, "step": 3464 }, { "epoch": 0.077, "grad_norm": 1.1009654998779297, "learning_rate": 0.00018464103134029785, "loss": 2.0613, "step": 3465 }, { "epoch": 0.07702222222222223, "grad_norm": 1.2995816469192505, "learning_rate": 0.00018463658590797956, "loss": 1.8517, "step": 3466 }, { "epoch": 0.07704444444444444, "grad_norm": 1.174272894859314, "learning_rate": 0.00018463214047566127, "loss": 1.5513, "step": 3467 }, { "epoch": 0.07706666666666667, "grad_norm": 1.3458250761032104, "learning_rate": 0.00018462769504334295, "loss": 1.3634, "step": 3468 }, { "epoch": 0.07708888888888889, "grad_norm": 1.2003450393676758, "learning_rate": 0.0001846232496110247, "loss": 1.9655, "step": 3469 }, { "epoch": 0.07711111111111112, "grad_norm": 1.3843733072280884, "learning_rate": 0.00018461880417870637, "loss": 2.0414, "step": 3470 }, { "epoch": 0.07713333333333333, "grad_norm": 1.1063510179519653, "learning_rate": 0.0001846143587463881, "loss": 1.9021, "step": 3471 }, { "epoch": 0.07715555555555556, "grad_norm": 1.4000247716903687, "learning_rate": 0.0001846099133140698, "loss": 2.0526, "step": 3472 }, { "epoch": 0.07717777777777778, "grad_norm": 1.1991673707962036, "learning_rate": 0.0001846054678817515, "loss": 1.8678, "step": 3473 }, { "epoch": 0.0772, "grad_norm": 1.225142240524292, "learning_rate": 0.0001846010224494332, "loss": 1.9452, "step": 3474 }, { "epoch": 0.07722222222222222, "grad_norm": 1.9785882234573364, "learning_rate": 0.00018459657701711492, "loss": 2.0528, "step": 3475 }, { "epoch": 0.07724444444444445, "grad_norm": 1.7890123128890991, "learning_rate": 0.00018459213158479663, "loss": 1.0974, "step": 3476 }, { "epoch": 0.07726666666666666, "grad_norm": 1.4988901615142822, "learning_rate": 0.00018458768615247834, "loss": 2.0531, "step": 3477 }, { "epoch": 0.0772888888888889, "grad_norm": 1.367693543434143, "learning_rate": 0.00018458324072016005, "loss": 2.3504, "step": 3478 }, { "epoch": 0.07731111111111111, "grad_norm": 1.5607545375823975, "learning_rate": 0.00018457879528784173, "loss": 1.6545, "step": 3479 }, { "epoch": 0.07733333333333334, "grad_norm": 1.2028279304504395, "learning_rate": 0.00018457434985552347, "loss": 1.9468, "step": 3480 }, { "epoch": 0.07735555555555555, "grad_norm": 1.423886775970459, "learning_rate": 0.00018456990442320515, "loss": 1.889, "step": 3481 }, { "epoch": 0.07737777777777778, "grad_norm": 0.7290233373641968, "learning_rate": 0.00018456545899088686, "loss": 0.3994, "step": 3482 }, { "epoch": 0.0774, "grad_norm": 1.3803188800811768, "learning_rate": 0.0001845610135585686, "loss": 2.0634, "step": 3483 }, { "epoch": 0.07742222222222223, "grad_norm": 1.4180113077163696, "learning_rate": 0.00018455656812625028, "loss": 2.3882, "step": 3484 }, { "epoch": 0.07744444444444444, "grad_norm": 1.3056670427322388, "learning_rate": 0.000184552122693932, "loss": 1.9961, "step": 3485 }, { "epoch": 0.07746666666666667, "grad_norm": 1.4707244634628296, "learning_rate": 0.0001845476772616137, "loss": 1.9851, "step": 3486 }, { "epoch": 0.07748888888888888, "grad_norm": 1.6690611839294434, "learning_rate": 0.0001845432318292954, "loss": 2.3228, "step": 3487 }, { "epoch": 0.07751111111111111, "grad_norm": 1.2367544174194336, "learning_rate": 0.00018453878639697712, "loss": 1.8545, "step": 3488 }, { "epoch": 0.07753333333333333, "grad_norm": 1.2950916290283203, "learning_rate": 0.00018453434096465883, "loss": 2.1296, "step": 3489 }, { "epoch": 0.07755555555555556, "grad_norm": 1.189381718635559, "learning_rate": 0.0001845298955323405, "loss": 0.7387, "step": 3490 }, { "epoch": 0.07757777777777777, "grad_norm": 1.1289829015731812, "learning_rate": 0.00018452545010002225, "loss": 1.6084, "step": 3491 }, { "epoch": 0.0776, "grad_norm": 1.1105577945709229, "learning_rate": 0.00018452100466770396, "loss": 1.6848, "step": 3492 }, { "epoch": 0.07762222222222222, "grad_norm": 1.3867590427398682, "learning_rate": 0.00018451655923538564, "loss": 2.1979, "step": 3493 }, { "epoch": 0.07764444444444445, "grad_norm": 1.3577754497528076, "learning_rate": 0.00018451211380306738, "loss": 2.1895, "step": 3494 }, { "epoch": 0.07766666666666666, "grad_norm": 1.1534167528152466, "learning_rate": 0.00018450766837074906, "loss": 1.3549, "step": 3495 }, { "epoch": 0.07768888888888889, "grad_norm": 1.7601591348648071, "learning_rate": 0.00018450322293843077, "loss": 2.0725, "step": 3496 }, { "epoch": 0.0777111111111111, "grad_norm": 1.51445734500885, "learning_rate": 0.00018449877750611248, "loss": 2.457, "step": 3497 }, { "epoch": 0.07773333333333333, "grad_norm": 1.122924566268921, "learning_rate": 0.0001844943320737942, "loss": 1.0034, "step": 3498 }, { "epoch": 0.07775555555555555, "grad_norm": 1.2729206085205078, "learning_rate": 0.00018448988664147587, "loss": 1.4905, "step": 3499 }, { "epoch": 0.07777777777777778, "grad_norm": 1.3704026937484741, "learning_rate": 0.0001844854412091576, "loss": 1.7086, "step": 3500 }, { "epoch": 0.0778, "grad_norm": 1.169458031654358, "learning_rate": 0.00018448099577683932, "loss": 2.3989, "step": 3501 }, { "epoch": 0.07782222222222222, "grad_norm": 1.2413055896759033, "learning_rate": 0.000184476550344521, "loss": 2.8056, "step": 3502 }, { "epoch": 0.07784444444444444, "grad_norm": 0.9283324480056763, "learning_rate": 0.00018447210491220274, "loss": 2.1868, "step": 3503 }, { "epoch": 0.07786666666666667, "grad_norm": 1.0944463014602661, "learning_rate": 0.00018446765947988442, "loss": 2.4525, "step": 3504 }, { "epoch": 0.07788888888888888, "grad_norm": 1.040734052658081, "learning_rate": 0.00018446321404756613, "loss": 2.456, "step": 3505 }, { "epoch": 0.07791111111111111, "grad_norm": 1.2531497478485107, "learning_rate": 0.00018445876861524784, "loss": 2.1874, "step": 3506 }, { "epoch": 0.07793333333333333, "grad_norm": 1.0920476913452148, "learning_rate": 0.00018445432318292955, "loss": 2.5354, "step": 3507 }, { "epoch": 0.07795555555555556, "grad_norm": 0.9596732258796692, "learning_rate": 0.00018444987775061126, "loss": 2.184, "step": 3508 }, { "epoch": 0.07797777777777777, "grad_norm": 1.0432252883911133, "learning_rate": 0.00018444543231829297, "loss": 2.3774, "step": 3509 }, { "epoch": 0.078, "grad_norm": 1.034541368484497, "learning_rate": 0.00018444098688597468, "loss": 2.2227, "step": 3510 }, { "epoch": 0.07802222222222223, "grad_norm": 1.1673376560211182, "learning_rate": 0.0001844365414536564, "loss": 2.1715, "step": 3511 }, { "epoch": 0.07804444444444444, "grad_norm": 1.13186514377594, "learning_rate": 0.0001844320960213381, "loss": 2.2296, "step": 3512 }, { "epoch": 0.07806666666666667, "grad_norm": 1.1876461505889893, "learning_rate": 0.00018442765058901978, "loss": 1.1278, "step": 3513 }, { "epoch": 0.07808888888888889, "grad_norm": 1.0793194770812988, "learning_rate": 0.00018442320515670152, "loss": 2.1435, "step": 3514 }, { "epoch": 0.07811111111111112, "grad_norm": 1.3283754587173462, "learning_rate": 0.0001844187597243832, "loss": 2.4194, "step": 3515 }, { "epoch": 0.07813333333333333, "grad_norm": 1.0138556957244873, "learning_rate": 0.0001844143142920649, "loss": 1.8808, "step": 3516 }, { "epoch": 0.07815555555555556, "grad_norm": 1.2677544355392456, "learning_rate": 0.00018440986885974662, "loss": 2.2068, "step": 3517 }, { "epoch": 0.07817777777777778, "grad_norm": 1.4461482763290405, "learning_rate": 0.00018440542342742833, "loss": 2.0152, "step": 3518 }, { "epoch": 0.0782, "grad_norm": 1.2722433805465698, "learning_rate": 0.00018440097799511004, "loss": 2.3119, "step": 3519 }, { "epoch": 0.07822222222222222, "grad_norm": 1.3366338014602661, "learning_rate": 0.00018439653256279175, "loss": 1.3402, "step": 3520 }, { "epoch": 0.07824444444444445, "grad_norm": 1.1577637195587158, "learning_rate": 0.00018439208713047346, "loss": 2.1692, "step": 3521 }, { "epoch": 0.07826666666666666, "grad_norm": 1.166265845298767, "learning_rate": 0.00018438764169815514, "loss": 2.1591, "step": 3522 }, { "epoch": 0.0782888888888889, "grad_norm": 1.3110215663909912, "learning_rate": 0.00018438319626583687, "loss": 2.0267, "step": 3523 }, { "epoch": 0.07831111111111111, "grad_norm": 1.2503719329833984, "learning_rate": 0.00018437875083351856, "loss": 2.0863, "step": 3524 }, { "epoch": 0.07833333333333334, "grad_norm": 1.5013507604599, "learning_rate": 0.00018437430540120027, "loss": 1.7642, "step": 3525 }, { "epoch": 0.07835555555555555, "grad_norm": 1.0705934762954712, "learning_rate": 0.00018436985996888198, "loss": 1.8557, "step": 3526 }, { "epoch": 0.07837777777777778, "grad_norm": 1.474947214126587, "learning_rate": 0.00018436541453656369, "loss": 2.2498, "step": 3527 }, { "epoch": 0.0784, "grad_norm": 1.130644679069519, "learning_rate": 0.0001843609691042454, "loss": 2.1409, "step": 3528 }, { "epoch": 0.07842222222222223, "grad_norm": 1.279459834098816, "learning_rate": 0.0001843565236719271, "loss": 1.2218, "step": 3529 }, { "epoch": 0.07844444444444444, "grad_norm": 1.57211434841156, "learning_rate": 0.00018435207823960882, "loss": 2.0618, "step": 3530 }, { "epoch": 0.07846666666666667, "grad_norm": 1.3878650665283203, "learning_rate": 0.00018434763280729052, "loss": 2.3256, "step": 3531 }, { "epoch": 0.07848888888888889, "grad_norm": 1.353080153465271, "learning_rate": 0.00018434318737497223, "loss": 2.0595, "step": 3532 }, { "epoch": 0.07851111111111111, "grad_norm": 1.2658865451812744, "learning_rate": 0.00018433874194265392, "loss": 1.9995, "step": 3533 }, { "epoch": 0.07853333333333333, "grad_norm": 1.3999888896942139, "learning_rate": 0.00018433429651033565, "loss": 2.3547, "step": 3534 }, { "epoch": 0.07855555555555556, "grad_norm": 1.3804991245269775, "learning_rate": 0.00018432985107801734, "loss": 2.2289, "step": 3535 }, { "epoch": 0.07857777777777777, "grad_norm": 1.2219804525375366, "learning_rate": 0.00018432540564569905, "loss": 1.7369, "step": 3536 }, { "epoch": 0.0786, "grad_norm": 1.2095115184783936, "learning_rate": 0.00018432096021338076, "loss": 1.8324, "step": 3537 }, { "epoch": 0.07862222222222222, "grad_norm": 1.2143144607543945, "learning_rate": 0.00018431651478106247, "loss": 1.5044, "step": 3538 }, { "epoch": 0.07864444444444445, "grad_norm": 1.325598955154419, "learning_rate": 0.00018431206934874417, "loss": 1.8022, "step": 3539 }, { "epoch": 0.07866666666666666, "grad_norm": 1.554053544998169, "learning_rate": 0.00018430762391642588, "loss": 2.484, "step": 3540 }, { "epoch": 0.07868888888888889, "grad_norm": 1.298063039779663, "learning_rate": 0.0001843031784841076, "loss": 1.7501, "step": 3541 }, { "epoch": 0.0787111111111111, "grad_norm": 1.4226232767105103, "learning_rate": 0.00018429873305178928, "loss": 1.8218, "step": 3542 }, { "epoch": 0.07873333333333334, "grad_norm": 1.4770629405975342, "learning_rate": 0.000184294287619471, "loss": 2.0258, "step": 3543 }, { "epoch": 0.07875555555555555, "grad_norm": 1.7609769105911255, "learning_rate": 0.0001842898421871527, "loss": 2.3438, "step": 3544 }, { "epoch": 0.07877777777777778, "grad_norm": 1.478041648864746, "learning_rate": 0.00018428539675483443, "loss": 1.9367, "step": 3545 }, { "epoch": 0.0788, "grad_norm": 1.4286446571350098, "learning_rate": 0.00018428095132251611, "loss": 1.7178, "step": 3546 }, { "epoch": 0.07882222222222222, "grad_norm": 1.3285038471221924, "learning_rate": 0.00018427650589019782, "loss": 1.9675, "step": 3547 }, { "epoch": 0.07884444444444444, "grad_norm": 1.2517716884613037, "learning_rate": 0.00018427206045787953, "loss": 1.6969, "step": 3548 }, { "epoch": 0.07886666666666667, "grad_norm": 1.3864372968673706, "learning_rate": 0.00018426761502556124, "loss": 1.8481, "step": 3549 }, { "epoch": 0.07888888888888888, "grad_norm": 1.818996787071228, "learning_rate": 0.00018426316959324295, "loss": 1.8749, "step": 3550 }, { "epoch": 0.07891111111111111, "grad_norm": 1.0214799642562866, "learning_rate": 0.00018425872416092466, "loss": 2.3813, "step": 3551 }, { "epoch": 0.07893333333333333, "grad_norm": 1.1543335914611816, "learning_rate": 0.00018425427872860637, "loss": 2.9633, "step": 3552 }, { "epoch": 0.07895555555555556, "grad_norm": 1.0040719509124756, "learning_rate": 0.00018424983329628806, "loss": 2.354, "step": 3553 }, { "epoch": 0.07897777777777777, "grad_norm": 1.2549113035202026, "learning_rate": 0.0001842453878639698, "loss": 2.1434, "step": 3554 }, { "epoch": 0.079, "grad_norm": 1.2673051357269287, "learning_rate": 0.00018424094243165147, "loss": 2.0013, "step": 3555 }, { "epoch": 0.07902222222222222, "grad_norm": 1.1167728900909424, "learning_rate": 0.00018423649699933318, "loss": 1.9597, "step": 3556 }, { "epoch": 0.07904444444444444, "grad_norm": 1.2686415910720825, "learning_rate": 0.00018423205156701492, "loss": 2.2501, "step": 3557 }, { "epoch": 0.07906666666666666, "grad_norm": 1.0964961051940918, "learning_rate": 0.0001842276061346966, "loss": 2.2192, "step": 3558 }, { "epoch": 0.07908888888888889, "grad_norm": 1.236358880996704, "learning_rate": 0.0001842231607023783, "loss": 2.4522, "step": 3559 }, { "epoch": 0.0791111111111111, "grad_norm": 1.4324880838394165, "learning_rate": 0.00018421871527006002, "loss": 2.5656, "step": 3560 }, { "epoch": 0.07913333333333333, "grad_norm": 1.134580135345459, "learning_rate": 0.00018421426983774173, "loss": 2.2437, "step": 3561 }, { "epoch": 0.07915555555555556, "grad_norm": 1.2555785179138184, "learning_rate": 0.00018420982440542341, "loss": 2.4751, "step": 3562 }, { "epoch": 0.07917777777777778, "grad_norm": 1.039559245109558, "learning_rate": 0.00018420537897310515, "loss": 1.6947, "step": 3563 }, { "epoch": 0.0792, "grad_norm": 1.424818992614746, "learning_rate": 0.00018420093354078683, "loss": 1.8682, "step": 3564 }, { "epoch": 0.07922222222222222, "grad_norm": 1.4339795112609863, "learning_rate": 0.00018419648810846857, "loss": 2.4491, "step": 3565 }, { "epoch": 0.07924444444444445, "grad_norm": 1.4758858680725098, "learning_rate": 0.00018419204267615028, "loss": 2.4947, "step": 3566 }, { "epoch": 0.07926666666666667, "grad_norm": 1.2654050588607788, "learning_rate": 0.00018418759724383196, "loss": 2.3357, "step": 3567 }, { "epoch": 0.0792888888888889, "grad_norm": 1.2733409404754639, "learning_rate": 0.0001841831518115137, "loss": 1.6436, "step": 3568 }, { "epoch": 0.07931111111111111, "grad_norm": 1.3263685703277588, "learning_rate": 0.00018417870637919538, "loss": 1.9048, "step": 3569 }, { "epoch": 0.07933333333333334, "grad_norm": 1.2005525827407837, "learning_rate": 0.0001841742609468771, "loss": 2.1377, "step": 3570 }, { "epoch": 0.07935555555555555, "grad_norm": 1.3363029956817627, "learning_rate": 0.0001841698155145588, "loss": 1.865, "step": 3571 }, { "epoch": 0.07937777777777778, "grad_norm": 1.3493443727493286, "learning_rate": 0.0001841653700822405, "loss": 1.879, "step": 3572 }, { "epoch": 0.0794, "grad_norm": 1.4277113676071167, "learning_rate": 0.0001841609246499222, "loss": 2.0551, "step": 3573 }, { "epoch": 0.07942222222222223, "grad_norm": 1.341077446937561, "learning_rate": 0.00018415647921760393, "loss": 1.5885, "step": 3574 }, { "epoch": 0.07944444444444444, "grad_norm": 1.4764906167984009, "learning_rate": 0.00018415203378528564, "loss": 2.3138, "step": 3575 }, { "epoch": 0.07946666666666667, "grad_norm": 1.2619186639785767, "learning_rate": 0.00018414758835296732, "loss": 2.0172, "step": 3576 }, { "epoch": 0.07948888888888889, "grad_norm": 1.494451642036438, "learning_rate": 0.00018414314292064906, "loss": 2.2375, "step": 3577 }, { "epoch": 0.07951111111111112, "grad_norm": 1.520302176475525, "learning_rate": 0.00018413869748833074, "loss": 2.4607, "step": 3578 }, { "epoch": 0.07953333333333333, "grad_norm": 1.2348612546920776, "learning_rate": 0.00018413425205601245, "loss": 1.9818, "step": 3579 }, { "epoch": 0.07955555555555556, "grad_norm": 1.3702938556671143, "learning_rate": 0.00018412980662369416, "loss": 2.2337, "step": 3580 }, { "epoch": 0.07957777777777778, "grad_norm": 1.4724692106246948, "learning_rate": 0.00018412536119137587, "loss": 1.7561, "step": 3581 }, { "epoch": 0.0796, "grad_norm": 1.8898265361785889, "learning_rate": 0.00018412091575905755, "loss": 2.2726, "step": 3582 }, { "epoch": 0.07962222222222222, "grad_norm": 1.3017092943191528, "learning_rate": 0.0001841164703267393, "loss": 1.938, "step": 3583 }, { "epoch": 0.07964444444444445, "grad_norm": 1.4305883646011353, "learning_rate": 0.000184112024894421, "loss": 2.0982, "step": 3584 }, { "epoch": 0.07966666666666666, "grad_norm": 1.348796010017395, "learning_rate": 0.0001841075794621027, "loss": 2.3916, "step": 3585 }, { "epoch": 0.07968888888888889, "grad_norm": 1.1848704814910889, "learning_rate": 0.00018410313402978442, "loss": 1.8635, "step": 3586 }, { "epoch": 0.07971111111111111, "grad_norm": 1.4129849672317505, "learning_rate": 0.0001840986885974661, "loss": 1.8977, "step": 3587 }, { "epoch": 0.07973333333333334, "grad_norm": 1.5966459512710571, "learning_rate": 0.00018409424316514784, "loss": 2.2823, "step": 3588 }, { "epoch": 0.07975555555555555, "grad_norm": 1.3832221031188965, "learning_rate": 0.00018408979773282952, "loss": 1.7791, "step": 3589 }, { "epoch": 0.07977777777777778, "grad_norm": 1.5868730545043945, "learning_rate": 0.00018408535230051123, "loss": 1.6686, "step": 3590 }, { "epoch": 0.0798, "grad_norm": 1.3498882055282593, "learning_rate": 0.00018408090686819294, "loss": 2.0068, "step": 3591 }, { "epoch": 0.07982222222222222, "grad_norm": 1.481881022453308, "learning_rate": 0.00018407646143587465, "loss": 2.3949, "step": 3592 }, { "epoch": 0.07984444444444444, "grad_norm": 1.6734768152236938, "learning_rate": 0.00018407201600355636, "loss": 2.2972, "step": 3593 }, { "epoch": 0.07986666666666667, "grad_norm": 1.2737871408462524, "learning_rate": 0.00018406757057123807, "loss": 1.6486, "step": 3594 }, { "epoch": 0.07988888888888888, "grad_norm": 1.4712985754013062, "learning_rate": 0.00018406312513891978, "loss": 1.9414, "step": 3595 }, { "epoch": 0.07991111111111111, "grad_norm": 1.5442465543746948, "learning_rate": 0.00018405867970660146, "loss": 2.4666, "step": 3596 }, { "epoch": 0.07993333333333333, "grad_norm": 1.4952188730239868, "learning_rate": 0.0001840542342742832, "loss": 1.9409, "step": 3597 }, { "epoch": 0.07995555555555556, "grad_norm": 1.2679736614227295, "learning_rate": 0.00018404978884196488, "loss": 1.6859, "step": 3598 }, { "epoch": 0.07997777777777777, "grad_norm": 1.4676672220230103, "learning_rate": 0.0001840453434096466, "loss": 1.5231, "step": 3599 }, { "epoch": 0.08, "grad_norm": 1.2791333198547363, "learning_rate": 0.0001840408979773283, "loss": 1.1194, "step": 3600 }, { "epoch": 0.08002222222222222, "grad_norm": 0.7651627659797668, "learning_rate": 0.00018403645254501, "loss": 1.0419, "step": 3601 }, { "epoch": 0.08004444444444445, "grad_norm": 1.0922318696975708, "learning_rate": 0.00018403200711269172, "loss": 2.7505, "step": 3602 }, { "epoch": 0.08006666666666666, "grad_norm": 1.0344644784927368, "learning_rate": 0.00018402756168037343, "loss": 2.0838, "step": 3603 }, { "epoch": 0.08008888888888889, "grad_norm": 1.3135956525802612, "learning_rate": 0.00018402311624805514, "loss": 2.3239, "step": 3604 }, { "epoch": 0.0801111111111111, "grad_norm": 1.2219730615615845, "learning_rate": 0.00018401867081573685, "loss": 2.454, "step": 3605 }, { "epoch": 0.08013333333333333, "grad_norm": 1.4561711549758911, "learning_rate": 0.00018401422538341856, "loss": 2.2534, "step": 3606 }, { "epoch": 0.08015555555555555, "grad_norm": 1.7876352071762085, "learning_rate": 0.00018400977995110024, "loss": 2.3091, "step": 3607 }, { "epoch": 0.08017777777777778, "grad_norm": 1.3025296926498413, "learning_rate": 0.00018400533451878198, "loss": 1.9115, "step": 3608 }, { "epoch": 0.0802, "grad_norm": 1.2429578304290771, "learning_rate": 0.00018400088908646366, "loss": 2.3551, "step": 3609 }, { "epoch": 0.08022222222222222, "grad_norm": 1.2455662488937378, "learning_rate": 0.00018399644365414537, "loss": 1.9897, "step": 3610 }, { "epoch": 0.08024444444444444, "grad_norm": 1.1080116033554077, "learning_rate": 0.00018399199822182708, "loss": 2.0657, "step": 3611 }, { "epoch": 0.08026666666666667, "grad_norm": 1.262728214263916, "learning_rate": 0.0001839875527895088, "loss": 1.9923, "step": 3612 }, { "epoch": 0.0802888888888889, "grad_norm": 1.3619056940078735, "learning_rate": 0.0001839831073571905, "loss": 2.532, "step": 3613 }, { "epoch": 0.08031111111111111, "grad_norm": 1.1964768171310425, "learning_rate": 0.0001839786619248722, "loss": 1.7188, "step": 3614 }, { "epoch": 0.08033333333333334, "grad_norm": 1.2625559568405151, "learning_rate": 0.00018397421649255392, "loss": 2.0738, "step": 3615 }, { "epoch": 0.08035555555555556, "grad_norm": 1.1889249086380005, "learning_rate": 0.0001839697710602356, "loss": 1.623, "step": 3616 }, { "epoch": 0.08037777777777778, "grad_norm": 1.612296462059021, "learning_rate": 0.00018396532562791734, "loss": 1.7417, "step": 3617 }, { "epoch": 0.0804, "grad_norm": 1.2993457317352295, "learning_rate": 0.00018396088019559902, "loss": 1.9965, "step": 3618 }, { "epoch": 0.08042222222222223, "grad_norm": 1.466341495513916, "learning_rate": 0.00018395643476328073, "loss": 2.2562, "step": 3619 }, { "epoch": 0.08044444444444444, "grad_norm": 1.3218737840652466, "learning_rate": 0.00018395198933096244, "loss": 2.2346, "step": 3620 }, { "epoch": 0.08046666666666667, "grad_norm": 1.260883092880249, "learning_rate": 0.00018394754389864415, "loss": 1.9729, "step": 3621 }, { "epoch": 0.08048888888888889, "grad_norm": 1.4265375137329102, "learning_rate": 0.00018394309846632586, "loss": 2.0401, "step": 3622 }, { "epoch": 0.08051111111111112, "grad_norm": 1.3545376062393188, "learning_rate": 0.00018393865303400757, "loss": 2.4058, "step": 3623 }, { "epoch": 0.08053333333333333, "grad_norm": 1.4232828617095947, "learning_rate": 0.00018393420760168928, "loss": 2.2824, "step": 3624 }, { "epoch": 0.08055555555555556, "grad_norm": 0.9449294209480286, "learning_rate": 0.00018392976216937099, "loss": 0.0438, "step": 3625 }, { "epoch": 0.08057777777777778, "grad_norm": 1.272674560546875, "learning_rate": 0.0001839253167370527, "loss": 2.1593, "step": 3626 }, { "epoch": 0.0806, "grad_norm": 1.3517484664916992, "learning_rate": 0.00018392087130473438, "loss": 2.211, "step": 3627 }, { "epoch": 0.08062222222222222, "grad_norm": 1.4165470600128174, "learning_rate": 0.00018391642587241611, "loss": 2.1065, "step": 3628 }, { "epoch": 0.08064444444444445, "grad_norm": 1.3025490045547485, "learning_rate": 0.0001839119804400978, "loss": 1.9093, "step": 3629 }, { "epoch": 0.08066666666666666, "grad_norm": 1.5448799133300781, "learning_rate": 0.0001839075350077795, "loss": 1.6284, "step": 3630 }, { "epoch": 0.0806888888888889, "grad_norm": 1.2619613409042358, "learning_rate": 0.00018390308957546124, "loss": 1.8745, "step": 3631 }, { "epoch": 0.08071111111111111, "grad_norm": 1.32402503490448, "learning_rate": 0.00018389864414314293, "loss": 2.0141, "step": 3632 }, { "epoch": 0.08073333333333334, "grad_norm": 1.556218147277832, "learning_rate": 0.00018389419871082463, "loss": 1.2302, "step": 3633 }, { "epoch": 0.08075555555555555, "grad_norm": 1.385074257850647, "learning_rate": 0.00018388975327850634, "loss": 2.2311, "step": 3634 }, { "epoch": 0.08077777777777778, "grad_norm": 1.218326449394226, "learning_rate": 0.00018388530784618805, "loss": 2.0609, "step": 3635 }, { "epoch": 0.0808, "grad_norm": 1.3882129192352295, "learning_rate": 0.00018388086241386974, "loss": 1.8298, "step": 3636 }, { "epoch": 0.08082222222222223, "grad_norm": 1.1702189445495605, "learning_rate": 0.00018387641698155147, "loss": 1.7865, "step": 3637 }, { "epoch": 0.08084444444444444, "grad_norm": 1.167648196220398, "learning_rate": 0.00018387197154923316, "loss": 1.1477, "step": 3638 }, { "epoch": 0.08086666666666667, "grad_norm": 1.306415319442749, "learning_rate": 0.00018386752611691487, "loss": 1.7242, "step": 3639 }, { "epoch": 0.08088888888888889, "grad_norm": 1.4472483396530151, "learning_rate": 0.0001838630806845966, "loss": 1.9575, "step": 3640 }, { "epoch": 0.08091111111111111, "grad_norm": 1.3238056898117065, "learning_rate": 0.00018385863525227828, "loss": 1.7657, "step": 3641 }, { "epoch": 0.08093333333333333, "grad_norm": 1.3369293212890625, "learning_rate": 0.00018385418981996002, "loss": 2.0152, "step": 3642 }, { "epoch": 0.08095555555555556, "grad_norm": 1.4356917142868042, "learning_rate": 0.0001838497443876417, "loss": 2.0038, "step": 3643 }, { "epoch": 0.08097777777777777, "grad_norm": 1.1998122930526733, "learning_rate": 0.00018384529895532341, "loss": 1.6939, "step": 3644 }, { "epoch": 0.081, "grad_norm": 1.652801275253296, "learning_rate": 0.00018384085352300512, "loss": 1.8866, "step": 3645 }, { "epoch": 0.08102222222222222, "grad_norm": 1.295859456062317, "learning_rate": 0.00018383640809068683, "loss": 1.6522, "step": 3646 }, { "epoch": 0.08104444444444445, "grad_norm": 1.3272781372070312, "learning_rate": 0.00018383196265836852, "loss": 1.7942, "step": 3647 }, { "epoch": 0.08106666666666666, "grad_norm": 1.575764775276184, "learning_rate": 0.00018382751722605025, "loss": 1.0909, "step": 3648 }, { "epoch": 0.08108888888888889, "grad_norm": 1.3105343580245972, "learning_rate": 0.00018382307179373196, "loss": 1.5595, "step": 3649 }, { "epoch": 0.0811111111111111, "grad_norm": 1.3594954013824463, "learning_rate": 0.00018381862636141364, "loss": 0.3612, "step": 3650 }, { "epoch": 0.08113333333333334, "grad_norm": 1.2009679079055786, "learning_rate": 0.00018381418092909538, "loss": 1.3815, "step": 3651 }, { "epoch": 0.08115555555555555, "grad_norm": 1.504106879234314, "learning_rate": 0.00018380973549677706, "loss": 2.34, "step": 3652 }, { "epoch": 0.08117777777777778, "grad_norm": 1.378600001335144, "learning_rate": 0.00018380529006445877, "loss": 2.2169, "step": 3653 }, { "epoch": 0.0812, "grad_norm": 1.3567134141921997, "learning_rate": 0.00018380084463214048, "loss": 2.0908, "step": 3654 }, { "epoch": 0.08122222222222222, "grad_norm": 1.2840567827224731, "learning_rate": 0.0001837963991998222, "loss": 2.4718, "step": 3655 }, { "epoch": 0.08124444444444444, "grad_norm": 1.2164989709854126, "learning_rate": 0.00018379195376750387, "loss": 2.1918, "step": 3656 }, { "epoch": 0.08126666666666667, "grad_norm": 1.2970621585845947, "learning_rate": 0.0001837875083351856, "loss": 2.5404, "step": 3657 }, { "epoch": 0.08128888888888888, "grad_norm": 1.6917527914047241, "learning_rate": 0.00018378306290286732, "loss": 2.6029, "step": 3658 }, { "epoch": 0.08131111111111111, "grad_norm": 1.423792839050293, "learning_rate": 0.00018377861747054903, "loss": 2.3866, "step": 3659 }, { "epoch": 0.08133333333333333, "grad_norm": 1.0677741765975952, "learning_rate": 0.00018377417203823074, "loss": 1.837, "step": 3660 }, { "epoch": 0.08135555555555556, "grad_norm": 1.362773060798645, "learning_rate": 0.00018376972660591242, "loss": 2.1794, "step": 3661 }, { "epoch": 0.08137777777777777, "grad_norm": 1.1057037115097046, "learning_rate": 0.00018376528117359416, "loss": 1.7721, "step": 3662 }, { "epoch": 0.0814, "grad_norm": 1.3051068782806396, "learning_rate": 0.00018376083574127584, "loss": 2.2466, "step": 3663 }, { "epoch": 0.08142222222222223, "grad_norm": 1.3648536205291748, "learning_rate": 0.00018375639030895755, "loss": 2.5114, "step": 3664 }, { "epoch": 0.08144444444444444, "grad_norm": 1.2011499404907227, "learning_rate": 0.00018375194487663926, "loss": 1.7476, "step": 3665 }, { "epoch": 0.08146666666666667, "grad_norm": 1.173875093460083, "learning_rate": 0.00018374749944432097, "loss": 2.1159, "step": 3666 }, { "epoch": 0.08148888888888889, "grad_norm": 1.375784158706665, "learning_rate": 0.00018374305401200268, "loss": 2.0589, "step": 3667 }, { "epoch": 0.08151111111111112, "grad_norm": 1.263965368270874, "learning_rate": 0.0001837386085796844, "loss": 1.8981, "step": 3668 }, { "epoch": 0.08153333333333333, "grad_norm": 1.5320152044296265, "learning_rate": 0.0001837341631473661, "loss": 2.6019, "step": 3669 }, { "epoch": 0.08155555555555556, "grad_norm": 1.3832933902740479, "learning_rate": 0.00018372971771504778, "loss": 1.7914, "step": 3670 }, { "epoch": 0.08157777777777778, "grad_norm": 1.9614989757537842, "learning_rate": 0.00018372527228272952, "loss": 1.8868, "step": 3671 }, { "epoch": 0.0816, "grad_norm": 1.3117355108261108, "learning_rate": 0.0001837208268504112, "loss": 2.5962, "step": 3672 }, { "epoch": 0.08162222222222222, "grad_norm": 1.5149602890014648, "learning_rate": 0.0001837163814180929, "loss": 1.731, "step": 3673 }, { "epoch": 0.08164444444444445, "grad_norm": 1.4484587907791138, "learning_rate": 0.00018371193598577462, "loss": 1.6353, "step": 3674 }, { "epoch": 0.08166666666666667, "grad_norm": 1.5084599256515503, "learning_rate": 0.00018370749055345633, "loss": 2.4353, "step": 3675 }, { "epoch": 0.0816888888888889, "grad_norm": 1.3500257730484009, "learning_rate": 0.00018370304512113804, "loss": 2.3369, "step": 3676 }, { "epoch": 0.08171111111111111, "grad_norm": 1.5253559350967407, "learning_rate": 0.00018369859968881975, "loss": 1.9887, "step": 3677 }, { "epoch": 0.08173333333333334, "grad_norm": 1.4120569229125977, "learning_rate": 0.00018369415425650146, "loss": 2.2231, "step": 3678 }, { "epoch": 0.08175555555555555, "grad_norm": 1.1387830972671509, "learning_rate": 0.00018368970882418317, "loss": 1.9658, "step": 3679 }, { "epoch": 0.08177777777777778, "grad_norm": 1.6434063911437988, "learning_rate": 0.00018368526339186488, "loss": 2.3205, "step": 3680 }, { "epoch": 0.0818, "grad_norm": 1.296899437904358, "learning_rate": 0.00018368081795954656, "loss": 1.744, "step": 3681 }, { "epoch": 0.08182222222222223, "grad_norm": 1.2624237537384033, "learning_rate": 0.0001836763725272283, "loss": 2.0235, "step": 3682 }, { "epoch": 0.08184444444444444, "grad_norm": 1.5623878240585327, "learning_rate": 0.00018367192709490998, "loss": 2.1944, "step": 3683 }, { "epoch": 0.08186666666666667, "grad_norm": 1.5247491598129272, "learning_rate": 0.0001836674816625917, "loss": 2.3596, "step": 3684 }, { "epoch": 0.08188888888888889, "grad_norm": 1.2370851039886475, "learning_rate": 0.0001836630362302734, "loss": 2.0781, "step": 3685 }, { "epoch": 0.08191111111111112, "grad_norm": 1.3484132289886475, "learning_rate": 0.0001836585907979551, "loss": 2.3458, "step": 3686 }, { "epoch": 0.08193333333333333, "grad_norm": 1.4338109493255615, "learning_rate": 0.00018365414536563682, "loss": 2.4587, "step": 3687 }, { "epoch": 0.08195555555555556, "grad_norm": 1.4265894889831543, "learning_rate": 0.00018364969993331853, "loss": 2.2896, "step": 3688 }, { "epoch": 0.08197777777777777, "grad_norm": 1.4162578582763672, "learning_rate": 0.00018364525450100024, "loss": 2.1227, "step": 3689 }, { "epoch": 0.082, "grad_norm": 1.510770559310913, "learning_rate": 0.00018364080906868192, "loss": 2.1402, "step": 3690 }, { "epoch": 0.08202222222222222, "grad_norm": 1.2629023790359497, "learning_rate": 0.00018363636363636366, "loss": 2.0158, "step": 3691 }, { "epoch": 0.08204444444444445, "grad_norm": 1.305181622505188, "learning_rate": 0.00018363191820404534, "loss": 1.8069, "step": 3692 }, { "epoch": 0.08206666666666666, "grad_norm": 1.3685085773468018, "learning_rate": 0.00018362747277172705, "loss": 2.0623, "step": 3693 }, { "epoch": 0.08208888888888889, "grad_norm": 1.4363067150115967, "learning_rate": 0.00018362302733940876, "loss": 2.2537, "step": 3694 }, { "epoch": 0.08211111111111111, "grad_norm": 1.0464816093444824, "learning_rate": 0.00018361858190709047, "loss": 1.5119, "step": 3695 }, { "epoch": 0.08213333333333334, "grad_norm": 1.2719902992248535, "learning_rate": 0.00018361413647477218, "loss": 1.6483, "step": 3696 }, { "epoch": 0.08215555555555555, "grad_norm": 1.4137662649154663, "learning_rate": 0.0001836096910424539, "loss": 1.8361, "step": 3697 }, { "epoch": 0.08217777777777778, "grad_norm": 1.267458200454712, "learning_rate": 0.0001836052456101356, "loss": 1.7088, "step": 3698 }, { "epoch": 0.0822, "grad_norm": 1.7159905433654785, "learning_rate": 0.0001836008001778173, "loss": 2.0834, "step": 3699 }, { "epoch": 0.08222222222222222, "grad_norm": 1.3477818965911865, "learning_rate": 0.00018359635474549902, "loss": 0.6832, "step": 3700 }, { "epoch": 0.08224444444444444, "grad_norm": 1.3076441287994385, "learning_rate": 0.0001835919093131807, "loss": 2.6709, "step": 3701 }, { "epoch": 0.08226666666666667, "grad_norm": 1.1363846063613892, "learning_rate": 0.00018358746388086244, "loss": 2.3923, "step": 3702 }, { "epoch": 0.08228888888888888, "grad_norm": 1.495496153831482, "learning_rate": 0.00018358301844854412, "loss": 2.3562, "step": 3703 }, { "epoch": 0.08231111111111111, "grad_norm": 1.2286193370819092, "learning_rate": 0.00018357857301622583, "loss": 2.5056, "step": 3704 }, { "epoch": 0.08233333333333333, "grad_norm": 1.1402894258499146, "learning_rate": 0.00018357412758390756, "loss": 1.9959, "step": 3705 }, { "epoch": 0.08235555555555556, "grad_norm": 1.7085946798324585, "learning_rate": 0.00018356968215158925, "loss": 1.7225, "step": 3706 }, { "epoch": 0.08237777777777777, "grad_norm": 1.388522982597351, "learning_rate": 0.00018356523671927096, "loss": 2.2679, "step": 3707 }, { "epoch": 0.0824, "grad_norm": 1.1444454193115234, "learning_rate": 0.00018356079128695267, "loss": 2.4866, "step": 3708 }, { "epoch": 0.08242222222222222, "grad_norm": 1.2037158012390137, "learning_rate": 0.00018355634585463438, "loss": 1.9698, "step": 3709 }, { "epoch": 0.08244444444444445, "grad_norm": 1.2525960206985474, "learning_rate": 0.00018355190042231606, "loss": 2.1183, "step": 3710 }, { "epoch": 0.08246666666666666, "grad_norm": 1.2685823440551758, "learning_rate": 0.0001835474549899978, "loss": 2.3999, "step": 3711 }, { "epoch": 0.08248888888888889, "grad_norm": 1.1982176303863525, "learning_rate": 0.00018354300955767948, "loss": 2.1479, "step": 3712 }, { "epoch": 0.0825111111111111, "grad_norm": 1.1716853380203247, "learning_rate": 0.0001835385641253612, "loss": 2.0812, "step": 3713 }, { "epoch": 0.08253333333333333, "grad_norm": 1.269726037979126, "learning_rate": 0.00018353411869304292, "loss": 1.6473, "step": 3714 }, { "epoch": 0.08255555555555555, "grad_norm": 1.376862645149231, "learning_rate": 0.0001835296732607246, "loss": 2.0835, "step": 3715 }, { "epoch": 0.08257777777777778, "grad_norm": 1.4289859533309937, "learning_rate": 0.00018352522782840634, "loss": 2.2132, "step": 3716 }, { "epoch": 0.0826, "grad_norm": 1.2596189975738525, "learning_rate": 0.00018352078239608803, "loss": 2.0538, "step": 3717 }, { "epoch": 0.08262222222222222, "grad_norm": 1.392706274986267, "learning_rate": 0.00018351633696376974, "loss": 1.8508, "step": 3718 }, { "epoch": 0.08264444444444445, "grad_norm": 1.222619652748108, "learning_rate": 0.00018351189153145145, "loss": 2.019, "step": 3719 }, { "epoch": 0.08266666666666667, "grad_norm": 1.2307435274124146, "learning_rate": 0.00018350744609913315, "loss": 2.0585, "step": 3720 }, { "epoch": 0.0826888888888889, "grad_norm": 1.7775535583496094, "learning_rate": 0.00018350300066681484, "loss": 2.5409, "step": 3721 }, { "epoch": 0.08271111111111111, "grad_norm": 1.337125301361084, "learning_rate": 0.00018349855523449657, "loss": 2.396, "step": 3722 }, { "epoch": 0.08273333333333334, "grad_norm": 1.3704264163970947, "learning_rate": 0.00018349410980217828, "loss": 2.3751, "step": 3723 }, { "epoch": 0.08275555555555555, "grad_norm": 1.3984158039093018, "learning_rate": 0.00018348966436985997, "loss": 2.1248, "step": 3724 }, { "epoch": 0.08277777777777778, "grad_norm": 1.2886028289794922, "learning_rate": 0.0001834852189375417, "loss": 2.1778, "step": 3725 }, { "epoch": 0.0828, "grad_norm": 1.1951922178268433, "learning_rate": 0.00018348077350522339, "loss": 1.9336, "step": 3726 }, { "epoch": 0.08282222222222223, "grad_norm": 1.3340922594070435, "learning_rate": 0.0001834763280729051, "loss": 2.0582, "step": 3727 }, { "epoch": 0.08284444444444444, "grad_norm": 1.9350781440734863, "learning_rate": 0.0001834718826405868, "loss": 2.2931, "step": 3728 }, { "epoch": 0.08286666666666667, "grad_norm": 1.3482329845428467, "learning_rate": 0.00018346743720826851, "loss": 2.0152, "step": 3729 }, { "epoch": 0.08288888888888889, "grad_norm": 1.343555212020874, "learning_rate": 0.0001834629917759502, "loss": 2.3119, "step": 3730 }, { "epoch": 0.08291111111111112, "grad_norm": 1.2393773794174194, "learning_rate": 0.00018345854634363193, "loss": 2.0094, "step": 3731 }, { "epoch": 0.08293333333333333, "grad_norm": 1.1807552576065063, "learning_rate": 0.00018345410091131364, "loss": 2.0507, "step": 3732 }, { "epoch": 0.08295555555555556, "grad_norm": 1.3803151845932007, "learning_rate": 0.00018344965547899533, "loss": 2.1102, "step": 3733 }, { "epoch": 0.08297777777777778, "grad_norm": 1.5443792343139648, "learning_rate": 0.00018344521004667706, "loss": 2.1081, "step": 3734 }, { "epoch": 0.083, "grad_norm": 1.2594364881515503, "learning_rate": 0.00018344076461435874, "loss": 1.8055, "step": 3735 }, { "epoch": 0.08302222222222222, "grad_norm": 1.3027013540267944, "learning_rate": 0.00018343631918204048, "loss": 1.9598, "step": 3736 }, { "epoch": 0.08304444444444445, "grad_norm": 1.3988456726074219, "learning_rate": 0.00018343187374972216, "loss": 1.9072, "step": 3737 }, { "epoch": 0.08306666666666666, "grad_norm": 1.1366162300109863, "learning_rate": 0.00018342742831740387, "loss": 0.8282, "step": 3738 }, { "epoch": 0.08308888888888889, "grad_norm": 1.3433319330215454, "learning_rate": 0.00018342298288508558, "loss": 2.145, "step": 3739 }, { "epoch": 0.08311111111111111, "grad_norm": 1.6333012580871582, "learning_rate": 0.0001834185374527673, "loss": 1.9882, "step": 3740 }, { "epoch": 0.08313333333333334, "grad_norm": 1.5079331398010254, "learning_rate": 0.000183414092020449, "loss": 2.2294, "step": 3741 }, { "epoch": 0.08315555555555555, "grad_norm": 1.4349793195724487, "learning_rate": 0.0001834096465881307, "loss": 1.9885, "step": 3742 }, { "epoch": 0.08317777777777778, "grad_norm": 1.5758147239685059, "learning_rate": 0.00018340520115581242, "loss": 1.6917, "step": 3743 }, { "epoch": 0.0832, "grad_norm": 1.4096463918685913, "learning_rate": 0.0001834007557234941, "loss": 2.1504, "step": 3744 }, { "epoch": 0.08322222222222223, "grad_norm": 1.3794286251068115, "learning_rate": 0.00018339631029117584, "loss": 1.7257, "step": 3745 }, { "epoch": 0.08324444444444444, "grad_norm": 1.4833141565322876, "learning_rate": 0.00018339186485885752, "loss": 1.9217, "step": 3746 }, { "epoch": 0.08326666666666667, "grad_norm": 1.7716563940048218, "learning_rate": 0.00018338741942653923, "loss": 2.1866, "step": 3747 }, { "epoch": 0.08328888888888888, "grad_norm": 1.4403369426727295, "learning_rate": 0.00018338297399422094, "loss": 1.659, "step": 3748 }, { "epoch": 0.08331111111111111, "grad_norm": 1.3384677171707153, "learning_rate": 0.00018337852856190265, "loss": 1.7207, "step": 3749 }, { "epoch": 0.08333333333333333, "grad_norm": 1.173349142074585, "learning_rate": 0.00018337408312958436, "loss": 1.2062, "step": 3750 }, { "epoch": 0.08335555555555556, "grad_norm": 1.14934241771698, "learning_rate": 0.00018336963769726607, "loss": 2.5767, "step": 3751 }, { "epoch": 0.08337777777777777, "grad_norm": 1.1485891342163086, "learning_rate": 0.00018336519226494778, "loss": 2.1732, "step": 3752 }, { "epoch": 0.0834, "grad_norm": 1.2195016145706177, "learning_rate": 0.0001833607468326295, "loss": 2.3286, "step": 3753 }, { "epoch": 0.08342222222222222, "grad_norm": 1.106770634651184, "learning_rate": 0.0001833563014003112, "loss": 2.0485, "step": 3754 }, { "epoch": 0.08344444444444445, "grad_norm": 1.0948654413223267, "learning_rate": 0.00018335185596799288, "loss": 2.1415, "step": 3755 }, { "epoch": 0.08346666666666666, "grad_norm": 1.0810214281082153, "learning_rate": 0.00018334741053567462, "loss": 1.9772, "step": 3756 }, { "epoch": 0.08348888888888889, "grad_norm": 1.108093023300171, "learning_rate": 0.0001833429651033563, "loss": 2.0626, "step": 3757 }, { "epoch": 0.0835111111111111, "grad_norm": 1.31307053565979, "learning_rate": 0.000183338519671038, "loss": 2.1667, "step": 3758 }, { "epoch": 0.08353333333333333, "grad_norm": 1.193341612815857, "learning_rate": 0.00018333407423871972, "loss": 2.0653, "step": 3759 }, { "epoch": 0.08355555555555555, "grad_norm": 1.399157166481018, "learning_rate": 0.00018332962880640143, "loss": 1.5565, "step": 3760 }, { "epoch": 0.08357777777777778, "grad_norm": 1.119966745376587, "learning_rate": 0.00018332518337408314, "loss": 2.2336, "step": 3761 }, { "epoch": 0.0836, "grad_norm": 1.3634086847305298, "learning_rate": 0.00018332073794176485, "loss": 2.5965, "step": 3762 }, { "epoch": 0.08362222222222222, "grad_norm": 1.0697473287582397, "learning_rate": 0.00018331629250944656, "loss": 2.0305, "step": 3763 }, { "epoch": 0.08364444444444444, "grad_norm": 1.3779423236846924, "learning_rate": 0.00018331184707712824, "loss": 2.4304, "step": 3764 }, { "epoch": 0.08366666666666667, "grad_norm": 1.227135181427002, "learning_rate": 0.00018330740164480998, "loss": 2.0807, "step": 3765 }, { "epoch": 0.08368888888888888, "grad_norm": 1.2680401802062988, "learning_rate": 0.00018330295621249166, "loss": 2.1856, "step": 3766 }, { "epoch": 0.08371111111111111, "grad_norm": 1.5422371625900269, "learning_rate": 0.00018329851078017337, "loss": 2.174, "step": 3767 }, { "epoch": 0.08373333333333334, "grad_norm": 1.2656880617141724, "learning_rate": 0.00018329406534785508, "loss": 2.1735, "step": 3768 }, { "epoch": 0.08375555555555556, "grad_norm": 1.351730465888977, "learning_rate": 0.0001832896199155368, "loss": 2.2512, "step": 3769 }, { "epoch": 0.08377777777777778, "grad_norm": 1.2336546182632446, "learning_rate": 0.0001832851744832185, "loss": 2.0626, "step": 3770 }, { "epoch": 0.0838, "grad_norm": 1.3643064498901367, "learning_rate": 0.0001832807290509002, "loss": 2.532, "step": 3771 }, { "epoch": 0.08382222222222223, "grad_norm": 1.3892377614974976, "learning_rate": 0.00018327628361858192, "loss": 1.8554, "step": 3772 }, { "epoch": 0.08384444444444444, "grad_norm": 1.1425843238830566, "learning_rate": 0.00018327183818626363, "loss": 2.1771, "step": 3773 }, { "epoch": 0.08386666666666667, "grad_norm": 1.2658792734146118, "learning_rate": 0.00018326739275394534, "loss": 2.0332, "step": 3774 }, { "epoch": 0.08388888888888889, "grad_norm": 0.942596971988678, "learning_rate": 0.00018326294732162702, "loss": 0.7195, "step": 3775 }, { "epoch": 0.08391111111111112, "grad_norm": 1.3439239263534546, "learning_rate": 0.00018325850188930876, "loss": 1.8195, "step": 3776 }, { "epoch": 0.08393333333333333, "grad_norm": 1.0942491292953491, "learning_rate": 0.00018325405645699044, "loss": 1.902, "step": 3777 }, { "epoch": 0.08395555555555556, "grad_norm": 1.3457939624786377, "learning_rate": 0.00018324961102467215, "loss": 2.0151, "step": 3778 }, { "epoch": 0.08397777777777778, "grad_norm": 1.4305779933929443, "learning_rate": 0.0001832451655923539, "loss": 2.0161, "step": 3779 }, { "epoch": 0.084, "grad_norm": 1.5203875303268433, "learning_rate": 0.00018324072016003557, "loss": 2.1299, "step": 3780 }, { "epoch": 0.08402222222222222, "grad_norm": 1.2600908279418945, "learning_rate": 0.00018323627472771728, "loss": 1.8775, "step": 3781 }, { "epoch": 0.08404444444444445, "grad_norm": 1.4517302513122559, "learning_rate": 0.000183231829295399, "loss": 2.1346, "step": 3782 }, { "epoch": 0.08406666666666666, "grad_norm": 1.3709062337875366, "learning_rate": 0.0001832273838630807, "loss": 2.0511, "step": 3783 }, { "epoch": 0.0840888888888889, "grad_norm": 1.2844997644424438, "learning_rate": 0.00018322293843076238, "loss": 2.1488, "step": 3784 }, { "epoch": 0.08411111111111111, "grad_norm": 1.3488349914550781, "learning_rate": 0.00018321849299844412, "loss": 1.9388, "step": 3785 }, { "epoch": 0.08413333333333334, "grad_norm": 1.384660005569458, "learning_rate": 0.0001832140475661258, "loss": 1.8102, "step": 3786 }, { "epoch": 0.08415555555555555, "grad_norm": 1.673464298248291, "learning_rate": 0.0001832096021338075, "loss": 2.3498, "step": 3787 }, { "epoch": 0.08417777777777778, "grad_norm": 1.142154335975647, "learning_rate": 0.00018320515670148925, "loss": 1.5239, "step": 3788 }, { "epoch": 0.0842, "grad_norm": 1.0959197282791138, "learning_rate": 0.00018320071126917093, "loss": 1.4466, "step": 3789 }, { "epoch": 0.08422222222222223, "grad_norm": 1.5571155548095703, "learning_rate": 0.00018319626583685264, "loss": 1.9711, "step": 3790 }, { "epoch": 0.08424444444444444, "grad_norm": 1.321845293045044, "learning_rate": 0.00018319182040453435, "loss": 1.8046, "step": 3791 }, { "epoch": 0.08426666666666667, "grad_norm": 1.5317105054855347, "learning_rate": 0.00018318737497221606, "loss": 1.7864, "step": 3792 }, { "epoch": 0.08428888888888889, "grad_norm": 1.3122411966323853, "learning_rate": 0.00018318292953989777, "loss": 1.8149, "step": 3793 }, { "epoch": 0.08431111111111111, "grad_norm": 1.271420955657959, "learning_rate": 0.00018317848410757948, "loss": 1.8306, "step": 3794 }, { "epoch": 0.08433333333333333, "grad_norm": 1.3152903318405151, "learning_rate": 0.00018317403867526116, "loss": 1.6876, "step": 3795 }, { "epoch": 0.08435555555555556, "grad_norm": 1.5708154439926147, "learning_rate": 0.0001831695932429429, "loss": 2.0446, "step": 3796 }, { "epoch": 0.08437777777777777, "grad_norm": 1.3261884450912476, "learning_rate": 0.0001831651478106246, "loss": 2.0654, "step": 3797 }, { "epoch": 0.0844, "grad_norm": 1.4633420705795288, "learning_rate": 0.0001831607023783063, "loss": 1.9781, "step": 3798 }, { "epoch": 0.08442222222222222, "grad_norm": 1.7155293226242065, "learning_rate": 0.00018315625694598803, "loss": 2.1932, "step": 3799 }, { "epoch": 0.08444444444444445, "grad_norm": 0.9392032027244568, "learning_rate": 0.0001831518115136697, "loss": 0.5209, "step": 3800 }, { "epoch": 0.08446666666666666, "grad_norm": 1.2845485210418701, "learning_rate": 0.00018314736608135142, "loss": 2.2759, "step": 3801 }, { "epoch": 0.08448888888888889, "grad_norm": 1.1438502073287964, "learning_rate": 0.00018314292064903313, "loss": 2.7633, "step": 3802 }, { "epoch": 0.0845111111111111, "grad_norm": 1.2022689580917358, "learning_rate": 0.00018313847521671484, "loss": 2.6877, "step": 3803 }, { "epoch": 0.08453333333333334, "grad_norm": 1.2780210971832275, "learning_rate": 0.00018313402978439652, "loss": 2.4602, "step": 3804 }, { "epoch": 0.08455555555555555, "grad_norm": 1.147143006324768, "learning_rate": 0.00018312958435207826, "loss": 2.0325, "step": 3805 }, { "epoch": 0.08457777777777778, "grad_norm": 1.0741664171218872, "learning_rate": 0.00018312513891975997, "loss": 2.589, "step": 3806 }, { "epoch": 0.0846, "grad_norm": 1.1212646961212158, "learning_rate": 0.00018312069348744165, "loss": 2.149, "step": 3807 }, { "epoch": 0.08462222222222222, "grad_norm": 1.1260703802108765, "learning_rate": 0.00018311624805512338, "loss": 2.103, "step": 3808 }, { "epoch": 0.08464444444444444, "grad_norm": 1.293121337890625, "learning_rate": 0.00018311180262280507, "loss": 2.0342, "step": 3809 }, { "epoch": 0.08466666666666667, "grad_norm": 1.3064484596252441, "learning_rate": 0.0001831073571904868, "loss": 2.1646, "step": 3810 }, { "epoch": 0.08468888888888888, "grad_norm": 1.1782290935516357, "learning_rate": 0.00018310291175816849, "loss": 2.2629, "step": 3811 }, { "epoch": 0.08471111111111111, "grad_norm": 1.1606324911117554, "learning_rate": 0.0001830984663258502, "loss": 2.1509, "step": 3812 }, { "epoch": 0.08473333333333333, "grad_norm": 1.1473417282104492, "learning_rate": 0.0001830940208935319, "loss": 2.192, "step": 3813 }, { "epoch": 0.08475555555555556, "grad_norm": 1.12730073928833, "learning_rate": 0.00018308957546121362, "loss": 2.0235, "step": 3814 }, { "epoch": 0.08477777777777777, "grad_norm": 1.1038776636123657, "learning_rate": 0.00018308513002889532, "loss": 2.0591, "step": 3815 }, { "epoch": 0.0848, "grad_norm": 1.5187519788742065, "learning_rate": 0.00018308068459657703, "loss": 2.2847, "step": 3816 }, { "epoch": 0.08482222222222222, "grad_norm": 1.1474043130874634, "learning_rate": 0.00018307623916425874, "loss": 1.2486, "step": 3817 }, { "epoch": 0.08484444444444444, "grad_norm": 1.1251564025878906, "learning_rate": 0.00018307179373194043, "loss": 0.9984, "step": 3818 }, { "epoch": 0.08486666666666667, "grad_norm": 1.3187544345855713, "learning_rate": 0.00018306734829962216, "loss": 2.0501, "step": 3819 }, { "epoch": 0.08488888888888889, "grad_norm": 1.1238620281219482, "learning_rate": 0.00018306290286730385, "loss": 1.8969, "step": 3820 }, { "epoch": 0.08491111111111112, "grad_norm": 1.1466844081878662, "learning_rate": 0.00018305845743498556, "loss": 1.8634, "step": 3821 }, { "epoch": 0.08493333333333333, "grad_norm": 1.1636260747909546, "learning_rate": 0.00018305401200266726, "loss": 2.0346, "step": 3822 }, { "epoch": 0.08495555555555556, "grad_norm": 1.2605708837509155, "learning_rate": 0.00018304956657034897, "loss": 2.1221, "step": 3823 }, { "epoch": 0.08497777777777778, "grad_norm": 1.1905038356781006, "learning_rate": 0.00018304512113803068, "loss": 2.3228, "step": 3824 }, { "epoch": 0.085, "grad_norm": 1.3121824264526367, "learning_rate": 0.0001830406757057124, "loss": 1.9939, "step": 3825 }, { "epoch": 0.08502222222222222, "grad_norm": 1.428402304649353, "learning_rate": 0.0001830362302733941, "loss": 1.9317, "step": 3826 }, { "epoch": 0.08504444444444445, "grad_norm": 1.2127010822296143, "learning_rate": 0.00018303178484107579, "loss": 2.2116, "step": 3827 }, { "epoch": 0.08506666666666667, "grad_norm": 1.0765200853347778, "learning_rate": 0.00018302733940875752, "loss": 1.4125, "step": 3828 }, { "epoch": 0.0850888888888889, "grad_norm": 1.4758669137954712, "learning_rate": 0.0001830228939764392, "loss": 2.3978, "step": 3829 }, { "epoch": 0.08511111111111111, "grad_norm": 1.2892208099365234, "learning_rate": 0.00018301844854412094, "loss": 1.7413, "step": 3830 }, { "epoch": 0.08513333333333334, "grad_norm": 1.28184974193573, "learning_rate": 0.00018301400311180262, "loss": 1.8904, "step": 3831 }, { "epoch": 0.08515555555555555, "grad_norm": 1.3503646850585938, "learning_rate": 0.00018300955767948433, "loss": 2.0101, "step": 3832 }, { "epoch": 0.08517777777777778, "grad_norm": 1.3963651657104492, "learning_rate": 0.00018300511224716604, "loss": 2.0048, "step": 3833 }, { "epoch": 0.0852, "grad_norm": 1.353186845779419, "learning_rate": 0.00018300066681484775, "loss": 2.0891, "step": 3834 }, { "epoch": 0.08522222222222223, "grad_norm": 1.2621327638626099, "learning_rate": 0.00018299622138252946, "loss": 1.8593, "step": 3835 }, { "epoch": 0.08524444444444444, "grad_norm": 1.5457473993301392, "learning_rate": 0.00018299177595021117, "loss": 2.1439, "step": 3836 }, { "epoch": 0.08526666666666667, "grad_norm": 1.2190488576889038, "learning_rate": 0.00018298733051789288, "loss": 2.1942, "step": 3837 }, { "epoch": 0.08528888888888889, "grad_norm": 1.450424313545227, "learning_rate": 0.00018298288508557456, "loss": 1.8608, "step": 3838 }, { "epoch": 0.08531111111111112, "grad_norm": 1.333061695098877, "learning_rate": 0.0001829784396532563, "loss": 1.7707, "step": 3839 }, { "epoch": 0.08533333333333333, "grad_norm": 1.3491209745407104, "learning_rate": 0.00018297399422093798, "loss": 1.9879, "step": 3840 }, { "epoch": 0.08535555555555556, "grad_norm": 1.6014151573181152, "learning_rate": 0.0001829695487886197, "loss": 2.3131, "step": 3841 }, { "epoch": 0.08537777777777777, "grad_norm": 1.4640525579452515, "learning_rate": 0.0001829651033563014, "loss": 2.2822, "step": 3842 }, { "epoch": 0.0854, "grad_norm": 1.201319932937622, "learning_rate": 0.0001829606579239831, "loss": 1.6643, "step": 3843 }, { "epoch": 0.08542222222222222, "grad_norm": 1.3478792905807495, "learning_rate": 0.00018295621249166482, "loss": 1.8764, "step": 3844 }, { "epoch": 0.08544444444444445, "grad_norm": 1.3052295446395874, "learning_rate": 0.00018295176705934653, "loss": 1.7053, "step": 3845 }, { "epoch": 0.08546666666666666, "grad_norm": 1.3359328508377075, "learning_rate": 0.00018294732162702824, "loss": 1.8894, "step": 3846 }, { "epoch": 0.08548888888888889, "grad_norm": 1.4691016674041748, "learning_rate": 0.00018294287619470992, "loss": 1.8617, "step": 3847 }, { "epoch": 0.08551111111111111, "grad_norm": 1.3177027702331543, "learning_rate": 0.00018293843076239166, "loss": 1.8823, "step": 3848 }, { "epoch": 0.08553333333333334, "grad_norm": 1.5961673259735107, "learning_rate": 0.00018293398533007334, "loss": 1.905, "step": 3849 }, { "epoch": 0.08555555555555555, "grad_norm": 1.4407944679260254, "learning_rate": 0.00018292953989775508, "loss": 1.7201, "step": 3850 }, { "epoch": 0.08557777777777778, "grad_norm": 0.6729428172111511, "learning_rate": 0.00018292509446543676, "loss": 0.0287, "step": 3851 }, { "epoch": 0.0856, "grad_norm": 0.7333818078041077, "learning_rate": 0.00018292064903311847, "loss": 1.0013, "step": 3852 }, { "epoch": 0.08562222222222222, "grad_norm": 0.9840003252029419, "learning_rate": 0.0001829162036008002, "loss": 1.0692, "step": 3853 }, { "epoch": 0.08564444444444444, "grad_norm": 1.1732404232025146, "learning_rate": 0.0001829117581684819, "loss": 2.0807, "step": 3854 }, { "epoch": 0.08566666666666667, "grad_norm": 1.106427550315857, "learning_rate": 0.0001829073127361636, "loss": 2.1901, "step": 3855 }, { "epoch": 0.08568888888888888, "grad_norm": 1.2000621557235718, "learning_rate": 0.0001829028673038453, "loss": 2.0366, "step": 3856 }, { "epoch": 0.08571111111111111, "grad_norm": 1.1870254278182983, "learning_rate": 0.00018289842187152702, "loss": 2.1497, "step": 3857 }, { "epoch": 0.08573333333333333, "grad_norm": 1.2883726358413696, "learning_rate": 0.0001828939764392087, "loss": 2.5934, "step": 3858 }, { "epoch": 0.08575555555555556, "grad_norm": 1.24656081199646, "learning_rate": 0.00018288953100689044, "loss": 2.6096, "step": 3859 }, { "epoch": 0.08577777777777777, "grad_norm": 1.0583786964416504, "learning_rate": 0.00018288508557457212, "loss": 1.0283, "step": 3860 }, { "epoch": 0.0858, "grad_norm": 1.234200119972229, "learning_rate": 0.00018288064014225383, "loss": 2.3328, "step": 3861 }, { "epoch": 0.08582222222222222, "grad_norm": 1.124598503112793, "learning_rate": 0.00018287619470993557, "loss": 1.7652, "step": 3862 }, { "epoch": 0.08584444444444445, "grad_norm": 1.3905720710754395, "learning_rate": 0.00018287174927761725, "loss": 2.1556, "step": 3863 }, { "epoch": 0.08586666666666666, "grad_norm": 1.1601526737213135, "learning_rate": 0.00018286730384529896, "loss": 1.8192, "step": 3864 }, { "epoch": 0.08588888888888889, "grad_norm": 1.1960759162902832, "learning_rate": 0.00018286285841298067, "loss": 2.0937, "step": 3865 }, { "epoch": 0.0859111111111111, "grad_norm": 1.1918174028396606, "learning_rate": 0.00018285841298066238, "loss": 2.226, "step": 3866 }, { "epoch": 0.08593333333333333, "grad_norm": 1.2833738327026367, "learning_rate": 0.0001828539675483441, "loss": 2.0411, "step": 3867 }, { "epoch": 0.08595555555555555, "grad_norm": 1.3212376832962036, "learning_rate": 0.0001828495221160258, "loss": 2.1898, "step": 3868 }, { "epoch": 0.08597777777777778, "grad_norm": 1.1451706886291504, "learning_rate": 0.00018284507668370748, "loss": 1.849, "step": 3869 }, { "epoch": 0.086, "grad_norm": 1.1616791486740112, "learning_rate": 0.00018284063125138922, "loss": 1.7259, "step": 3870 }, { "epoch": 0.08602222222222222, "grad_norm": 1.6663930416107178, "learning_rate": 0.00018283618581907093, "loss": 1.2284, "step": 3871 }, { "epoch": 0.08604444444444445, "grad_norm": 1.2836792469024658, "learning_rate": 0.0001828317403867526, "loss": 2.2392, "step": 3872 }, { "epoch": 0.08606666666666667, "grad_norm": 1.2171481847763062, "learning_rate": 0.00018282729495443435, "loss": 2.0785, "step": 3873 }, { "epoch": 0.0860888888888889, "grad_norm": 1.2060463428497314, "learning_rate": 0.00018282284952211603, "loss": 1.8582, "step": 3874 }, { "epoch": 0.08611111111111111, "grad_norm": 1.1895673274993896, "learning_rate": 0.00018281840408979774, "loss": 1.9122, "step": 3875 }, { "epoch": 0.08613333333333334, "grad_norm": 1.509826898574829, "learning_rate": 0.00018281395865747945, "loss": 2.2616, "step": 3876 }, { "epoch": 0.08615555555555555, "grad_norm": 1.3473097085952759, "learning_rate": 0.00018280951322516116, "loss": 2.0758, "step": 3877 }, { "epoch": 0.08617777777777778, "grad_norm": 1.6493169069290161, "learning_rate": 0.00018280506779284287, "loss": 2.2373, "step": 3878 }, { "epoch": 0.0862, "grad_norm": 1.089248776435852, "learning_rate": 0.00018280062236052458, "loss": 1.1297, "step": 3879 }, { "epoch": 0.08622222222222223, "grad_norm": 1.1902804374694824, "learning_rate": 0.0001827961769282063, "loss": 1.1705, "step": 3880 }, { "epoch": 0.08624444444444444, "grad_norm": 1.4258880615234375, "learning_rate": 0.00018279173149588797, "loss": 2.0755, "step": 3881 }, { "epoch": 0.08626666666666667, "grad_norm": 1.316024661064148, "learning_rate": 0.0001827872860635697, "loss": 2.0348, "step": 3882 }, { "epoch": 0.08628888888888889, "grad_norm": 1.4670634269714355, "learning_rate": 0.0001827828406312514, "loss": 2.0473, "step": 3883 }, { "epoch": 0.08631111111111112, "grad_norm": 1.5652819871902466, "learning_rate": 0.0001827783951989331, "loss": 2.5831, "step": 3884 }, { "epoch": 0.08633333333333333, "grad_norm": 1.4132565259933472, "learning_rate": 0.0001827739497666148, "loss": 2.3326, "step": 3885 }, { "epoch": 0.08635555555555556, "grad_norm": 1.2993839979171753, "learning_rate": 0.00018276950433429652, "loss": 1.8057, "step": 3886 }, { "epoch": 0.08637777777777778, "grad_norm": 1.2038097381591797, "learning_rate": 0.00018276505890197823, "loss": 1.9702, "step": 3887 }, { "epoch": 0.0864, "grad_norm": 1.3122345209121704, "learning_rate": 0.00018276061346965994, "loss": 1.9484, "step": 3888 }, { "epoch": 0.08642222222222222, "grad_norm": 1.383968710899353, "learning_rate": 0.00018275616803734165, "loss": 2.0874, "step": 3889 }, { "epoch": 0.08644444444444445, "grad_norm": 1.4431442022323608, "learning_rate": 0.00018275172260502336, "loss": 1.9278, "step": 3890 }, { "epoch": 0.08646666666666666, "grad_norm": 1.4338607788085938, "learning_rate": 0.00018274727717270507, "loss": 2.0402, "step": 3891 }, { "epoch": 0.08648888888888889, "grad_norm": 1.6500836610794067, "learning_rate": 0.00018274283174038675, "loss": 1.9843, "step": 3892 }, { "epoch": 0.08651111111111111, "grad_norm": 1.2799413204193115, "learning_rate": 0.00018273838630806849, "loss": 1.7724, "step": 3893 }, { "epoch": 0.08653333333333334, "grad_norm": 1.622963547706604, "learning_rate": 0.00018273394087575017, "loss": 2.2003, "step": 3894 }, { "epoch": 0.08655555555555555, "grad_norm": 1.247835636138916, "learning_rate": 0.00018272949544343188, "loss": 1.4512, "step": 3895 }, { "epoch": 0.08657777777777778, "grad_norm": 1.3503494262695312, "learning_rate": 0.0001827250500111136, "loss": 1.6344, "step": 3896 }, { "epoch": 0.0866, "grad_norm": 1.5317302942276, "learning_rate": 0.0001827206045787953, "loss": 1.278, "step": 3897 }, { "epoch": 0.08662222222222223, "grad_norm": 1.6802184581756592, "learning_rate": 0.000182716159146477, "loss": 1.8352, "step": 3898 }, { "epoch": 0.08664444444444444, "grad_norm": 1.332260012626648, "learning_rate": 0.00018271171371415872, "loss": 1.7385, "step": 3899 }, { "epoch": 0.08666666666666667, "grad_norm": 1.4168360233306885, "learning_rate": 0.00018270726828184043, "loss": 1.654, "step": 3900 }, { "epoch": 0.08668888888888888, "grad_norm": 1.11492919921875, "learning_rate": 0.0001827028228495221, "loss": 2.8721, "step": 3901 }, { "epoch": 0.08671111111111111, "grad_norm": 0.9290326237678528, "learning_rate": 0.00018269837741720384, "loss": 1.3628, "step": 3902 }, { "epoch": 0.08673333333333333, "grad_norm": 1.1157268285751343, "learning_rate": 0.00018269393198488553, "loss": 2.8096, "step": 3903 }, { "epoch": 0.08675555555555556, "grad_norm": 1.1336044073104858, "learning_rate": 0.00018268948655256724, "loss": 2.0028, "step": 3904 }, { "epoch": 0.08677777777777777, "grad_norm": 1.1529829502105713, "learning_rate": 0.00018268504112024895, "loss": 2.0633, "step": 3905 }, { "epoch": 0.0868, "grad_norm": 1.2534562349319458, "learning_rate": 0.00018268059568793066, "loss": 2.7211, "step": 3906 }, { "epoch": 0.08682222222222222, "grad_norm": 1.2881025075912476, "learning_rate": 0.00018267615025561237, "loss": 2.3184, "step": 3907 }, { "epoch": 0.08684444444444445, "grad_norm": 1.069238543510437, "learning_rate": 0.00018267170482329408, "loss": 2.1236, "step": 3908 }, { "epoch": 0.08686666666666666, "grad_norm": 1.2697378396987915, "learning_rate": 0.00018266725939097578, "loss": 2.125, "step": 3909 }, { "epoch": 0.08688888888888889, "grad_norm": 1.2994015216827393, "learning_rate": 0.0001826628139586575, "loss": 1.9171, "step": 3910 }, { "epoch": 0.0869111111111111, "grad_norm": 1.0967013835906982, "learning_rate": 0.0001826583685263392, "loss": 1.6726, "step": 3911 }, { "epoch": 0.08693333333333333, "grad_norm": 1.1177443265914917, "learning_rate": 0.0001826539230940209, "loss": 1.7946, "step": 3912 }, { "epoch": 0.08695555555555555, "grad_norm": 1.2079192399978638, "learning_rate": 0.00018264947766170262, "loss": 2.2675, "step": 3913 }, { "epoch": 0.08697777777777778, "grad_norm": 1.2005130052566528, "learning_rate": 0.0001826450322293843, "loss": 2.2046, "step": 3914 }, { "epoch": 0.087, "grad_norm": 0.9720653891563416, "learning_rate": 0.00018264058679706602, "loss": 0.7893, "step": 3915 }, { "epoch": 0.08702222222222222, "grad_norm": 1.1333423852920532, "learning_rate": 0.00018263614136474773, "loss": 2.3172, "step": 3916 }, { "epoch": 0.08704444444444444, "grad_norm": 1.1365100145339966, "learning_rate": 0.00018263169593242943, "loss": 1.9795, "step": 3917 }, { "epoch": 0.08706666666666667, "grad_norm": 1.843353509902954, "learning_rate": 0.00018262725050011114, "loss": 2.3793, "step": 3918 }, { "epoch": 0.08708888888888888, "grad_norm": 1.4716764688491821, "learning_rate": 0.00018262280506779285, "loss": 2.1506, "step": 3919 }, { "epoch": 0.08711111111111111, "grad_norm": 1.2647080421447754, "learning_rate": 0.00018261835963547456, "loss": 1.6478, "step": 3920 }, { "epoch": 0.08713333333333333, "grad_norm": 1.2279027700424194, "learning_rate": 0.00018261391420315625, "loss": 1.5735, "step": 3921 }, { "epoch": 0.08715555555555556, "grad_norm": 1.8002568483352661, "learning_rate": 0.00018260946877083798, "loss": 2.7739, "step": 3922 }, { "epoch": 0.08717777777777778, "grad_norm": 1.3656952381134033, "learning_rate": 0.00018260502333851967, "loss": 2.1193, "step": 3923 }, { "epoch": 0.0872, "grad_norm": 1.1363921165466309, "learning_rate": 0.0001826005779062014, "loss": 2.0275, "step": 3924 }, { "epoch": 0.08722222222222223, "grad_norm": 1.2623662948608398, "learning_rate": 0.00018259613247388308, "loss": 1.9614, "step": 3925 }, { "epoch": 0.08724444444444444, "grad_norm": 1.2325552701950073, "learning_rate": 0.0001825916870415648, "loss": 1.8201, "step": 3926 }, { "epoch": 0.08726666666666667, "grad_norm": 1.227401852607727, "learning_rate": 0.00018258724160924653, "loss": 1.861, "step": 3927 }, { "epoch": 0.08728888888888889, "grad_norm": 1.7943168878555298, "learning_rate": 0.0001825827961769282, "loss": 2.0819, "step": 3928 }, { "epoch": 0.08731111111111112, "grad_norm": 1.3471245765686035, "learning_rate": 0.00018257835074460992, "loss": 2.1757, "step": 3929 }, { "epoch": 0.08733333333333333, "grad_norm": 1.2830681800842285, "learning_rate": 0.00018257390531229163, "loss": 1.7819, "step": 3930 }, { "epoch": 0.08735555555555556, "grad_norm": 1.503760576248169, "learning_rate": 0.00018256945987997334, "loss": 2.147, "step": 3931 }, { "epoch": 0.08737777777777778, "grad_norm": 1.274315357208252, "learning_rate": 0.00018256501444765502, "loss": 1.9309, "step": 3932 }, { "epoch": 0.0874, "grad_norm": 1.124243974685669, "learning_rate": 0.00018256056901533676, "loss": 1.4179, "step": 3933 }, { "epoch": 0.08742222222222222, "grad_norm": 1.495699405670166, "learning_rate": 0.00018255612358301844, "loss": 2.2812, "step": 3934 }, { "epoch": 0.08744444444444445, "grad_norm": 1.2558859586715698, "learning_rate": 0.00018255167815070015, "loss": 1.9374, "step": 3935 }, { "epoch": 0.08746666666666666, "grad_norm": 1.431708574295044, "learning_rate": 0.0001825472327183819, "loss": 2.1444, "step": 3936 }, { "epoch": 0.0874888888888889, "grad_norm": 1.640269160270691, "learning_rate": 0.00018254278728606357, "loss": 2.3488, "step": 3937 }, { "epoch": 0.08751111111111111, "grad_norm": 1.3659045696258545, "learning_rate": 0.00018253834185374528, "loss": 1.6372, "step": 3938 }, { "epoch": 0.08753333333333334, "grad_norm": 1.3964117765426636, "learning_rate": 0.000182533896421427, "loss": 1.7944, "step": 3939 }, { "epoch": 0.08755555555555555, "grad_norm": 1.3688442707061768, "learning_rate": 0.0001825294509891087, "loss": 1.8169, "step": 3940 }, { "epoch": 0.08757777777777778, "grad_norm": 1.4212323427200317, "learning_rate": 0.00018252500555679038, "loss": 1.5998, "step": 3941 }, { "epoch": 0.0876, "grad_norm": 1.274173617362976, "learning_rate": 0.00018252056012447212, "loss": 1.8158, "step": 3942 }, { "epoch": 0.08762222222222223, "grad_norm": 1.159591555595398, "learning_rate": 0.0001825161146921538, "loss": 1.6519, "step": 3943 }, { "epoch": 0.08764444444444444, "grad_norm": 1.3204801082611084, "learning_rate": 0.00018251166925983554, "loss": 1.7134, "step": 3944 }, { "epoch": 0.08766666666666667, "grad_norm": 1.462691068649292, "learning_rate": 0.00018250722382751725, "loss": 1.6365, "step": 3945 }, { "epoch": 0.08768888888888889, "grad_norm": 1.473249912261963, "learning_rate": 0.00018250277839519893, "loss": 1.8595, "step": 3946 }, { "epoch": 0.08771111111111111, "grad_norm": 1.5079234838485718, "learning_rate": 0.00018249833296288067, "loss": 1.6698, "step": 3947 }, { "epoch": 0.08773333333333333, "grad_norm": 1.3877707719802856, "learning_rate": 0.00018249388753056235, "loss": 1.978, "step": 3948 }, { "epoch": 0.08775555555555556, "grad_norm": 1.373972773551941, "learning_rate": 0.00018248944209824406, "loss": 1.6741, "step": 3949 }, { "epoch": 0.08777777777777777, "grad_norm": 1.5319815874099731, "learning_rate": 0.00018248499666592577, "loss": 1.7444, "step": 3950 }, { "epoch": 0.0878, "grad_norm": 1.1451045274734497, "learning_rate": 0.00018248055123360748, "loss": 2.6294, "step": 3951 }, { "epoch": 0.08782222222222222, "grad_norm": 1.3626810312271118, "learning_rate": 0.0001824761058012892, "loss": 2.7648, "step": 3952 }, { "epoch": 0.08784444444444445, "grad_norm": 1.3611873388290405, "learning_rate": 0.0001824716603689709, "loss": 2.6151, "step": 3953 }, { "epoch": 0.08786666666666666, "grad_norm": 1.384328842163086, "learning_rate": 0.0001824672149366526, "loss": 3.144, "step": 3954 }, { "epoch": 0.08788888888888889, "grad_norm": 1.287131905555725, "learning_rate": 0.0001824627695043343, "loss": 1.9983, "step": 3955 }, { "epoch": 0.0879111111111111, "grad_norm": 1.3529751300811768, "learning_rate": 0.00018245832407201603, "loss": 2.9865, "step": 3956 }, { "epoch": 0.08793333333333334, "grad_norm": 1.1994839906692505, "learning_rate": 0.0001824538786396977, "loss": 2.3215, "step": 3957 }, { "epoch": 0.08795555555555555, "grad_norm": 1.0824435949325562, "learning_rate": 0.00018244943320737942, "loss": 2.2071, "step": 3958 }, { "epoch": 0.08797777777777778, "grad_norm": 1.3807737827301025, "learning_rate": 0.00018244498777506113, "loss": 2.8193, "step": 3959 }, { "epoch": 0.088, "grad_norm": 1.1116480827331543, "learning_rate": 0.00018244054234274284, "loss": 2.0974, "step": 3960 }, { "epoch": 0.08802222222222222, "grad_norm": 1.0865592956542969, "learning_rate": 0.00018243609691042455, "loss": 2.0467, "step": 3961 }, { "epoch": 0.08804444444444444, "grad_norm": 1.4668089151382446, "learning_rate": 0.00018243165147810626, "loss": 2.4284, "step": 3962 }, { "epoch": 0.08806666666666667, "grad_norm": 1.2750132083892822, "learning_rate": 0.00018242720604578797, "loss": 2.435, "step": 3963 }, { "epoch": 0.08808888888888888, "grad_norm": 1.1693750619888306, "learning_rate": 0.00018242276061346968, "loss": 2.3241, "step": 3964 }, { "epoch": 0.08811111111111111, "grad_norm": 1.3129546642303467, "learning_rate": 0.0001824183151811514, "loss": 2.4794, "step": 3965 }, { "epoch": 0.08813333333333333, "grad_norm": 1.2565345764160156, "learning_rate": 0.00018241386974883307, "loss": 2.3347, "step": 3966 }, { "epoch": 0.08815555555555556, "grad_norm": 1.4078856706619263, "learning_rate": 0.0001824094243165148, "loss": 1.7856, "step": 3967 }, { "epoch": 0.08817777777777777, "grad_norm": 0.9889540076255798, "learning_rate": 0.0001824049788841965, "loss": 1.0568, "step": 3968 }, { "epoch": 0.0882, "grad_norm": 1.3720183372497559, "learning_rate": 0.0001824005334518782, "loss": 2.142, "step": 3969 }, { "epoch": 0.08822222222222222, "grad_norm": 2.0734097957611084, "learning_rate": 0.0001823960880195599, "loss": 2.1306, "step": 3970 }, { "epoch": 0.08824444444444444, "grad_norm": 1.5309531688690186, "learning_rate": 0.00018239164258724162, "loss": 2.239, "step": 3971 }, { "epoch": 0.08826666666666666, "grad_norm": 1.593670129776001, "learning_rate": 0.00018238719715492333, "loss": 1.6127, "step": 3972 }, { "epoch": 0.08828888888888889, "grad_norm": 1.2348586320877075, "learning_rate": 0.00018238275172260504, "loss": 1.7285, "step": 3973 }, { "epoch": 0.08831111111111112, "grad_norm": 1.130700707435608, "learning_rate": 0.00018237830629028675, "loss": 1.8215, "step": 3974 }, { "epoch": 0.08833333333333333, "grad_norm": 1.3735883235931396, "learning_rate": 0.00018237386085796843, "loss": 2.1751, "step": 3975 }, { "epoch": 0.08835555555555556, "grad_norm": 1.6415408849716187, "learning_rate": 0.00018236941542565017, "loss": 2.3657, "step": 3976 }, { "epoch": 0.08837777777777778, "grad_norm": 1.179374098777771, "learning_rate": 0.00018236496999333185, "loss": 1.816, "step": 3977 }, { "epoch": 0.0884, "grad_norm": 1.0282421112060547, "learning_rate": 0.00018236052456101356, "loss": 1.5093, "step": 3978 }, { "epoch": 0.08842222222222222, "grad_norm": 1.3459587097167969, "learning_rate": 0.00018235607912869527, "loss": 1.9031, "step": 3979 }, { "epoch": 0.08844444444444445, "grad_norm": 1.5987575054168701, "learning_rate": 0.00018235163369637698, "loss": 2.2409, "step": 3980 }, { "epoch": 0.08846666666666667, "grad_norm": 1.356877088546753, "learning_rate": 0.0001823471882640587, "loss": 1.8444, "step": 3981 }, { "epoch": 0.0884888888888889, "grad_norm": 1.6989684104919434, "learning_rate": 0.0001823427428317404, "loss": 1.6699, "step": 3982 }, { "epoch": 0.08851111111111111, "grad_norm": 1.3182530403137207, "learning_rate": 0.0001823382973994221, "loss": 1.7226, "step": 3983 }, { "epoch": 0.08853333333333334, "grad_norm": 1.0926573276519775, "learning_rate": 0.00018233385196710382, "loss": 0.7869, "step": 3984 }, { "epoch": 0.08855555555555555, "grad_norm": 1.505751371383667, "learning_rate": 0.00018232940653478553, "loss": 2.0821, "step": 3985 }, { "epoch": 0.08857777777777778, "grad_norm": 1.4366180896759033, "learning_rate": 0.0001823249611024672, "loss": 2.0181, "step": 3986 }, { "epoch": 0.0886, "grad_norm": 1.3815208673477173, "learning_rate": 0.00018232051567014895, "loss": 1.9652, "step": 3987 }, { "epoch": 0.08862222222222223, "grad_norm": 1.1777048110961914, "learning_rate": 0.00018231607023783063, "loss": 1.584, "step": 3988 }, { "epoch": 0.08864444444444444, "grad_norm": 1.5454330444335938, "learning_rate": 0.00018231162480551234, "loss": 2.3896, "step": 3989 }, { "epoch": 0.08866666666666667, "grad_norm": 1.3766738176345825, "learning_rate": 0.00018230717937319405, "loss": 1.6587, "step": 3990 }, { "epoch": 0.08868888888888889, "grad_norm": 1.064445972442627, "learning_rate": 0.00018230273394087576, "loss": 1.3703, "step": 3991 }, { "epoch": 0.08871111111111112, "grad_norm": 1.2387447357177734, "learning_rate": 0.00018229828850855747, "loss": 1.8601, "step": 3992 }, { "epoch": 0.08873333333333333, "grad_norm": 1.6053434610366821, "learning_rate": 0.00018229384307623918, "loss": 2.3741, "step": 3993 }, { "epoch": 0.08875555555555556, "grad_norm": 1.5138375759124756, "learning_rate": 0.00018228939764392089, "loss": 1.9498, "step": 3994 }, { "epoch": 0.08877777777777777, "grad_norm": 1.4985507726669312, "learning_rate": 0.00018228495221160257, "loss": 1.931, "step": 3995 }, { "epoch": 0.0888, "grad_norm": 1.4858930110931396, "learning_rate": 0.0001822805067792843, "loss": 1.783, "step": 3996 }, { "epoch": 0.08882222222222222, "grad_norm": 1.0707796812057495, "learning_rate": 0.000182276061346966, "loss": 1.0062, "step": 3997 }, { "epoch": 0.08884444444444445, "grad_norm": 1.5340445041656494, "learning_rate": 0.0001822716159146477, "loss": 2.0391, "step": 3998 }, { "epoch": 0.08886666666666666, "grad_norm": 1.7474359273910522, "learning_rate": 0.0001822671704823294, "loss": 1.6239, "step": 3999 }, { "epoch": 0.08888888888888889, "grad_norm": 1.7199676036834717, "learning_rate": 0.00018226272505001112, "loss": 1.8825, "step": 4000 }, { "epoch": 0.08891111111111111, "grad_norm": 1.1654189825057983, "learning_rate": 0.00018225827961769285, "loss": 2.3205, "step": 4001 }, { "epoch": 0.08893333333333334, "grad_norm": 1.0770715475082397, "learning_rate": 0.00018225383418537454, "loss": 2.1443, "step": 4002 }, { "epoch": 0.08895555555555555, "grad_norm": 1.1399768590927124, "learning_rate": 0.00018224938875305625, "loss": 2.228, "step": 4003 }, { "epoch": 0.08897777777777778, "grad_norm": 1.2105519771575928, "learning_rate": 0.00018224494332073795, "loss": 2.2901, "step": 4004 }, { "epoch": 0.089, "grad_norm": 1.3387752771377563, "learning_rate": 0.00018224049788841966, "loss": 2.3667, "step": 4005 }, { "epoch": 0.08902222222222222, "grad_norm": 1.366286039352417, "learning_rate": 0.00018223605245610135, "loss": 2.0674, "step": 4006 }, { "epoch": 0.08904444444444444, "grad_norm": 1.034104824066162, "learning_rate": 0.00018223160702378308, "loss": 1.6388, "step": 4007 }, { "epoch": 0.08906666666666667, "grad_norm": 1.419653296470642, "learning_rate": 0.00018222716159146477, "loss": 2.597, "step": 4008 }, { "epoch": 0.08908888888888888, "grad_norm": 1.376345157623291, "learning_rate": 0.00018222271615914648, "loss": 2.2231, "step": 4009 }, { "epoch": 0.08911111111111111, "grad_norm": 1.5309399366378784, "learning_rate": 0.0001822182707268282, "loss": 2.2812, "step": 4010 }, { "epoch": 0.08913333333333333, "grad_norm": 1.1608930826187134, "learning_rate": 0.0001822138252945099, "loss": 2.0559, "step": 4011 }, { "epoch": 0.08915555555555556, "grad_norm": 1.237950325012207, "learning_rate": 0.0001822093798621916, "loss": 2.04, "step": 4012 }, { "epoch": 0.08917777777777777, "grad_norm": 1.3438576459884644, "learning_rate": 0.00018220493442987331, "loss": 2.6675, "step": 4013 }, { "epoch": 0.0892, "grad_norm": 1.3429163694381714, "learning_rate": 0.00018220048899755502, "loss": 2.2567, "step": 4014 }, { "epoch": 0.08922222222222222, "grad_norm": 1.0870521068572998, "learning_rate": 0.0001821960435652367, "loss": 1.552, "step": 4015 }, { "epoch": 0.08924444444444445, "grad_norm": 1.3223501443862915, "learning_rate": 0.00018219159813291844, "loss": 2.2699, "step": 4016 }, { "epoch": 0.08926666666666666, "grad_norm": 1.3303872346878052, "learning_rate": 0.00018218715270060013, "loss": 2.4244, "step": 4017 }, { "epoch": 0.08928888888888889, "grad_norm": 1.0466386079788208, "learning_rate": 0.00018218270726828184, "loss": 1.5336, "step": 4018 }, { "epoch": 0.0893111111111111, "grad_norm": 1.267941951751709, "learning_rate": 0.00018217826183596357, "loss": 1.8151, "step": 4019 }, { "epoch": 0.08933333333333333, "grad_norm": 1.208484172821045, "learning_rate": 0.00018217381640364525, "loss": 1.9847, "step": 4020 }, { "epoch": 0.08935555555555555, "grad_norm": 1.3358150720596313, "learning_rate": 0.000182169370971327, "loss": 2.4709, "step": 4021 }, { "epoch": 0.08937777777777778, "grad_norm": 0.9815666675567627, "learning_rate": 0.00018216492553900867, "loss": 1.4165, "step": 4022 }, { "epoch": 0.0894, "grad_norm": 1.3121657371520996, "learning_rate": 0.00018216048010669038, "loss": 2.4059, "step": 4023 }, { "epoch": 0.08942222222222222, "grad_norm": 1.3153599500656128, "learning_rate": 0.0001821560346743721, "loss": 1.7834, "step": 4024 }, { "epoch": 0.08944444444444444, "grad_norm": 1.4722740650177002, "learning_rate": 0.0001821515892420538, "loss": 1.9365, "step": 4025 }, { "epoch": 0.08946666666666667, "grad_norm": 1.6213995218276978, "learning_rate": 0.0001821471438097355, "loss": 2.3869, "step": 4026 }, { "epoch": 0.0894888888888889, "grad_norm": 1.2937724590301514, "learning_rate": 0.00018214269837741722, "loss": 1.7115, "step": 4027 }, { "epoch": 0.08951111111111111, "grad_norm": 1.3780187368392944, "learning_rate": 0.00018213825294509893, "loss": 1.8938, "step": 4028 }, { "epoch": 0.08953333333333334, "grad_norm": 1.5479607582092285, "learning_rate": 0.00018213380751278061, "loss": 2.4191, "step": 4029 }, { "epoch": 0.08955555555555555, "grad_norm": 1.3018114566802979, "learning_rate": 0.00018212936208046235, "loss": 1.9965, "step": 4030 }, { "epoch": 0.08957777777777778, "grad_norm": 1.505035638809204, "learning_rate": 0.00018212491664814403, "loss": 2.3121, "step": 4031 }, { "epoch": 0.0896, "grad_norm": 1.39242684841156, "learning_rate": 0.00018212047121582574, "loss": 1.6258, "step": 4032 }, { "epoch": 0.08962222222222223, "grad_norm": 1.5285018682479858, "learning_rate": 0.00018211602578350745, "loss": 2.3059, "step": 4033 }, { "epoch": 0.08964444444444444, "grad_norm": 1.3786457777023315, "learning_rate": 0.00018211158035118916, "loss": 1.9854, "step": 4034 }, { "epoch": 0.08966666666666667, "grad_norm": 1.4496877193450928, "learning_rate": 0.00018210713491887087, "loss": 2.0708, "step": 4035 }, { "epoch": 0.08968888888888889, "grad_norm": 1.1986298561096191, "learning_rate": 0.00018210268948655258, "loss": 1.7447, "step": 4036 }, { "epoch": 0.08971111111111112, "grad_norm": 1.2278554439544678, "learning_rate": 0.0001820982440542343, "loss": 2.1479, "step": 4037 }, { "epoch": 0.08973333333333333, "grad_norm": 1.1859891414642334, "learning_rate": 0.000182093798621916, "loss": 1.5363, "step": 4038 }, { "epoch": 0.08975555555555556, "grad_norm": 1.2920050621032715, "learning_rate": 0.0001820893531895977, "loss": 1.7126, "step": 4039 }, { "epoch": 0.08977777777777778, "grad_norm": 1.2669432163238525, "learning_rate": 0.0001820849077572794, "loss": 1.8844, "step": 4040 }, { "epoch": 0.0898, "grad_norm": 1.3032450675964355, "learning_rate": 0.00018208046232496113, "loss": 1.5503, "step": 4041 }, { "epoch": 0.08982222222222222, "grad_norm": 1.9114999771118164, "learning_rate": 0.0001820760168926428, "loss": 2.1349, "step": 4042 }, { "epoch": 0.08984444444444445, "grad_norm": 1.7164593935012817, "learning_rate": 0.00018207157146032452, "loss": 2.4535, "step": 4043 }, { "epoch": 0.08986666666666666, "grad_norm": 1.281882405281067, "learning_rate": 0.00018206712602800623, "loss": 1.6772, "step": 4044 }, { "epoch": 0.0898888888888889, "grad_norm": 1.291181206703186, "learning_rate": 0.00018206268059568794, "loss": 1.77, "step": 4045 }, { "epoch": 0.08991111111111111, "grad_norm": 1.5831859111785889, "learning_rate": 0.00018205823516336965, "loss": 2.1031, "step": 4046 }, { "epoch": 0.08993333333333334, "grad_norm": 1.6419646739959717, "learning_rate": 0.00018205378973105136, "loss": 2.1175, "step": 4047 }, { "epoch": 0.08995555555555555, "grad_norm": 1.4621165990829468, "learning_rate": 0.00018204934429873307, "loss": 1.9295, "step": 4048 }, { "epoch": 0.08997777777777778, "grad_norm": 1.4456675052642822, "learning_rate": 0.00018204489886641475, "loss": 1.4717, "step": 4049 }, { "epoch": 0.09, "grad_norm": 1.8878512382507324, "learning_rate": 0.0001820404534340965, "loss": 1.4931, "step": 4050 }, { "epoch": 0.09002222222222223, "grad_norm": 0.33234038949012756, "learning_rate": 0.00018203600800177817, "loss": 0.0248, "step": 4051 }, { "epoch": 0.09004444444444444, "grad_norm": 1.067193627357483, "learning_rate": 0.00018203156256945988, "loss": 2.1954, "step": 4052 }, { "epoch": 0.09006666666666667, "grad_norm": 1.11116361618042, "learning_rate": 0.0001820271171371416, "loss": 2.4635, "step": 4053 }, { "epoch": 0.09008888888888889, "grad_norm": 6.025672435760498, "learning_rate": 0.0001820226717048233, "loss": 0.5715, "step": 4054 }, { "epoch": 0.09011111111111111, "grad_norm": 1.2340022325515747, "learning_rate": 0.000182018226272505, "loss": 2.4092, "step": 4055 }, { "epoch": 0.09013333333333333, "grad_norm": 1.2766684293746948, "learning_rate": 0.00018201378084018672, "loss": 2.0936, "step": 4056 }, { "epoch": 0.09015555555555556, "grad_norm": 1.2358952760696411, "learning_rate": 0.00018200933540786843, "loss": 2.5282, "step": 4057 }, { "epoch": 0.09017777777777777, "grad_norm": 1.080397129058838, "learning_rate": 0.00018200488997555014, "loss": 2.1662, "step": 4058 }, { "epoch": 0.0902, "grad_norm": 1.2267324924468994, "learning_rate": 0.00018200044454323185, "loss": 2.2952, "step": 4059 }, { "epoch": 0.09022222222222222, "grad_norm": 1.363930344581604, "learning_rate": 0.00018199599911091353, "loss": 2.3119, "step": 4060 }, { "epoch": 0.09024444444444445, "grad_norm": 1.7942321300506592, "learning_rate": 0.00018199155367859527, "loss": 2.6284, "step": 4061 }, { "epoch": 0.09026666666666666, "grad_norm": 1.4145745038986206, "learning_rate": 0.00018198710824627695, "loss": 2.7728, "step": 4062 }, { "epoch": 0.09028888888888889, "grad_norm": 1.1446871757507324, "learning_rate": 0.00018198266281395866, "loss": 1.8908, "step": 4063 }, { "epoch": 0.0903111111111111, "grad_norm": 1.2324484586715698, "learning_rate": 0.00018197821738164037, "loss": 2.1921, "step": 4064 }, { "epoch": 0.09033333333333333, "grad_norm": 1.2518575191497803, "learning_rate": 0.00018197377194932208, "loss": 2.0331, "step": 4065 }, { "epoch": 0.09035555555555555, "grad_norm": 1.296597957611084, "learning_rate": 0.0001819693265170038, "loss": 2.3096, "step": 4066 }, { "epoch": 0.09037777777777778, "grad_norm": 1.4862322807312012, "learning_rate": 0.0001819648810846855, "loss": 2.2494, "step": 4067 }, { "epoch": 0.0904, "grad_norm": 1.2500277757644653, "learning_rate": 0.0001819604356523672, "loss": 1.8087, "step": 4068 }, { "epoch": 0.09042222222222222, "grad_norm": 1.2148723602294922, "learning_rate": 0.0001819559902200489, "loss": 2.1848, "step": 4069 }, { "epoch": 0.09044444444444444, "grad_norm": 1.2145519256591797, "learning_rate": 0.00018195154478773063, "loss": 0.9238, "step": 4070 }, { "epoch": 0.09046666666666667, "grad_norm": 1.3164136409759521, "learning_rate": 0.0001819470993554123, "loss": 2.0691, "step": 4071 }, { "epoch": 0.09048888888888888, "grad_norm": 1.2843410968780518, "learning_rate": 0.00018194265392309402, "loss": 1.8868, "step": 4072 }, { "epoch": 0.09051111111111111, "grad_norm": 1.3158208131790161, "learning_rate": 0.00018193820849077573, "loss": 1.4847, "step": 4073 }, { "epoch": 0.09053333333333333, "grad_norm": 1.7421456575393677, "learning_rate": 0.00018193376305845744, "loss": 1.9892, "step": 4074 }, { "epoch": 0.09055555555555556, "grad_norm": 1.2904186248779297, "learning_rate": 0.00018192931762613915, "loss": 1.6743, "step": 4075 }, { "epoch": 0.09057777777777777, "grad_norm": 1.356465220451355, "learning_rate": 0.00018192487219382086, "loss": 2.2248, "step": 4076 }, { "epoch": 0.0906, "grad_norm": 1.4544111490249634, "learning_rate": 0.00018192042676150257, "loss": 1.499, "step": 4077 }, { "epoch": 0.09062222222222223, "grad_norm": 1.1715073585510254, "learning_rate": 0.00018191598132918428, "loss": 2.044, "step": 4078 }, { "epoch": 0.09064444444444444, "grad_norm": 1.368010401725769, "learning_rate": 0.000181911535896866, "loss": 2.4096, "step": 4079 }, { "epoch": 0.09066666666666667, "grad_norm": 1.209328532218933, "learning_rate": 0.00018190709046454767, "loss": 2.0634, "step": 4080 }, { "epoch": 0.09068888888888889, "grad_norm": 1.1925572156906128, "learning_rate": 0.0001819026450322294, "loss": 1.7468, "step": 4081 }, { "epoch": 0.09071111111111112, "grad_norm": 1.38496994972229, "learning_rate": 0.0001818981995999111, "loss": 2.1352, "step": 4082 }, { "epoch": 0.09073333333333333, "grad_norm": 1.2292604446411133, "learning_rate": 0.0001818937541675928, "loss": 1.8989, "step": 4083 }, { "epoch": 0.09075555555555556, "grad_norm": 1.361112117767334, "learning_rate": 0.00018188930873527453, "loss": 2.4108, "step": 4084 }, { "epoch": 0.09077777777777778, "grad_norm": 1.3043910264968872, "learning_rate": 0.00018188486330295622, "loss": 2.2388, "step": 4085 }, { "epoch": 0.0908, "grad_norm": 1.2776652574539185, "learning_rate": 0.00018188041787063793, "loss": 2.1992, "step": 4086 }, { "epoch": 0.09082222222222222, "grad_norm": 1.2072038650512695, "learning_rate": 0.00018187597243831964, "loss": 1.9774, "step": 4087 }, { "epoch": 0.09084444444444445, "grad_norm": 1.2190172672271729, "learning_rate": 0.00018187152700600135, "loss": 2.0718, "step": 4088 }, { "epoch": 0.09086666666666667, "grad_norm": 1.5369328260421753, "learning_rate": 0.00018186708157368303, "loss": 2.3374, "step": 4089 }, { "epoch": 0.0908888888888889, "grad_norm": 1.2563663721084595, "learning_rate": 0.00018186263614136477, "loss": 1.7178, "step": 4090 }, { "epoch": 0.09091111111111111, "grad_norm": 1.189376950263977, "learning_rate": 0.00018185819070904645, "loss": 1.8669, "step": 4091 }, { "epoch": 0.09093333333333334, "grad_norm": 1.274102807044983, "learning_rate": 0.00018185374527672816, "loss": 2.2547, "step": 4092 }, { "epoch": 0.09095555555555555, "grad_norm": 1.4080109596252441, "learning_rate": 0.0001818492998444099, "loss": 2.0774, "step": 4093 }, { "epoch": 0.09097777777777778, "grad_norm": 1.2916828393936157, "learning_rate": 0.00018184485441209158, "loss": 1.6038, "step": 4094 }, { "epoch": 0.091, "grad_norm": 1.2181613445281982, "learning_rate": 0.0001818404089797733, "loss": 1.8275, "step": 4095 }, { "epoch": 0.09102222222222223, "grad_norm": 1.469650149345398, "learning_rate": 0.000181835963547455, "loss": 2.0016, "step": 4096 }, { "epoch": 0.09104444444444444, "grad_norm": 1.3400145769119263, "learning_rate": 0.0001818315181151367, "loss": 1.8783, "step": 4097 }, { "epoch": 0.09106666666666667, "grad_norm": 1.454121708869934, "learning_rate": 0.00018182707268281842, "loss": 1.7824, "step": 4098 }, { "epoch": 0.09108888888888889, "grad_norm": 1.7567150592803955, "learning_rate": 0.00018182262725050012, "loss": 2.1554, "step": 4099 }, { "epoch": 0.09111111111111111, "grad_norm": 1.4065117835998535, "learning_rate": 0.00018181818181818183, "loss": 1.4674, "step": 4100 }, { "epoch": 0.09113333333333333, "grad_norm": 1.067503809928894, "learning_rate": 0.00018181373638586354, "loss": 2.7277, "step": 4101 }, { "epoch": 0.09115555555555556, "grad_norm": 1.1799376010894775, "learning_rate": 0.00018180929095354525, "loss": 2.6751, "step": 4102 }, { "epoch": 0.09117777777777777, "grad_norm": 1.2468464374542236, "learning_rate": 0.00018180484552122694, "loss": 2.3971, "step": 4103 }, { "epoch": 0.0912, "grad_norm": 1.1874558925628662, "learning_rate": 0.00018180040008890867, "loss": 2.6052, "step": 4104 }, { "epoch": 0.09122222222222222, "grad_norm": 1.1237014532089233, "learning_rate": 0.00018179595465659036, "loss": 2.2262, "step": 4105 }, { "epoch": 0.09124444444444445, "grad_norm": 0.9946170449256897, "learning_rate": 0.00018179150922427206, "loss": 1.5529, "step": 4106 }, { "epoch": 0.09126666666666666, "grad_norm": 1.1014432907104492, "learning_rate": 0.00018178706379195377, "loss": 2.4072, "step": 4107 }, { "epoch": 0.09128888888888889, "grad_norm": 1.0999475717544556, "learning_rate": 0.00018178261835963548, "loss": 1.9625, "step": 4108 }, { "epoch": 0.0913111111111111, "grad_norm": 1.183287501335144, "learning_rate": 0.0001817781729273172, "loss": 1.9984, "step": 4109 }, { "epoch": 0.09133333333333334, "grad_norm": 1.2450661659240723, "learning_rate": 0.0001817737274949989, "loss": 2.1961, "step": 4110 }, { "epoch": 0.09135555555555555, "grad_norm": 1.2629178762435913, "learning_rate": 0.0001817692820626806, "loss": 2.0241, "step": 4111 }, { "epoch": 0.09137777777777778, "grad_norm": 1.1407676935195923, "learning_rate": 0.0001817648366303623, "loss": 2.3813, "step": 4112 }, { "epoch": 0.0914, "grad_norm": 1.1981663703918457, "learning_rate": 0.00018176039119804403, "loss": 2.127, "step": 4113 }, { "epoch": 0.09142222222222222, "grad_norm": 1.6344211101531982, "learning_rate": 0.00018175594576572571, "loss": 2.3908, "step": 4114 }, { "epoch": 0.09144444444444444, "grad_norm": 1.4242089986801147, "learning_rate": 0.00018175150033340745, "loss": 2.4322, "step": 4115 }, { "epoch": 0.09146666666666667, "grad_norm": 1.284766674041748, "learning_rate": 0.00018174705490108913, "loss": 2.2547, "step": 4116 }, { "epoch": 0.09148888888888888, "grad_norm": 1.1385011672973633, "learning_rate": 0.00018174260946877084, "loss": 1.7965, "step": 4117 }, { "epoch": 0.09151111111111111, "grad_norm": 1.1987061500549316, "learning_rate": 0.00018173816403645255, "loss": 1.9546, "step": 4118 }, { "epoch": 0.09153333333333333, "grad_norm": 1.543986201286316, "learning_rate": 0.00018173371860413426, "loss": 2.2107, "step": 4119 }, { "epoch": 0.09155555555555556, "grad_norm": 1.3513902425765991, "learning_rate": 0.00018172927317181597, "loss": 2.2166, "step": 4120 }, { "epoch": 0.09157777777777777, "grad_norm": 1.5229825973510742, "learning_rate": 0.00018172482773949768, "loss": 2.1961, "step": 4121 }, { "epoch": 0.0916, "grad_norm": 1.3071125745773315, "learning_rate": 0.0001817203823071794, "loss": 2.2583, "step": 4122 }, { "epoch": 0.09162222222222222, "grad_norm": 1.1928024291992188, "learning_rate": 0.00018171593687486107, "loss": 2.064, "step": 4123 }, { "epoch": 0.09164444444444445, "grad_norm": 1.4223048686981201, "learning_rate": 0.0001817114914425428, "loss": 2.051, "step": 4124 }, { "epoch": 0.09166666666666666, "grad_norm": 1.1061046123504639, "learning_rate": 0.0001817070460102245, "loss": 1.6612, "step": 4125 }, { "epoch": 0.09168888888888889, "grad_norm": 1.3171643018722534, "learning_rate": 0.0001817026005779062, "loss": 2.4557, "step": 4126 }, { "epoch": 0.0917111111111111, "grad_norm": 1.4509333372116089, "learning_rate": 0.0001816981551455879, "loss": 2.2647, "step": 4127 }, { "epoch": 0.09173333333333333, "grad_norm": 1.041982650756836, "learning_rate": 0.00018169370971326962, "loss": 1.0209, "step": 4128 }, { "epoch": 0.09175555555555556, "grad_norm": 1.3982865810394287, "learning_rate": 0.00018168926428095133, "loss": 1.6007, "step": 4129 }, { "epoch": 0.09177777777777778, "grad_norm": 1.341732144355774, "learning_rate": 0.00018168481884863304, "loss": 2.0328, "step": 4130 }, { "epoch": 0.0918, "grad_norm": 1.386540412902832, "learning_rate": 0.00018168037341631475, "loss": 2.1151, "step": 4131 }, { "epoch": 0.09182222222222222, "grad_norm": 1.4547587633132935, "learning_rate": 0.00018167592798399646, "loss": 2.2619, "step": 4132 }, { "epoch": 0.09184444444444445, "grad_norm": 1.330428123474121, "learning_rate": 0.00018167148255167817, "loss": 2.0824, "step": 4133 }, { "epoch": 0.09186666666666667, "grad_norm": 1.92506742477417, "learning_rate": 0.00018166703711935985, "loss": 1.9639, "step": 4134 }, { "epoch": 0.0918888888888889, "grad_norm": 1.524463176727295, "learning_rate": 0.0001816625916870416, "loss": 1.9331, "step": 4135 }, { "epoch": 0.09191111111111111, "grad_norm": 1.3584568500518799, "learning_rate": 0.00018165814625472327, "loss": 2.1083, "step": 4136 }, { "epoch": 0.09193333333333334, "grad_norm": 1.2452504634857178, "learning_rate": 0.00018165370082240498, "loss": 1.6683, "step": 4137 }, { "epoch": 0.09195555555555555, "grad_norm": 1.5261337757110596, "learning_rate": 0.0001816492553900867, "loss": 2.023, "step": 4138 }, { "epoch": 0.09197777777777778, "grad_norm": 1.327707052230835, "learning_rate": 0.0001816448099577684, "loss": 1.863, "step": 4139 }, { "epoch": 0.092, "grad_norm": 1.279916524887085, "learning_rate": 0.0001816403645254501, "loss": 1.821, "step": 4140 }, { "epoch": 0.09202222222222223, "grad_norm": 1.303451418876648, "learning_rate": 0.00018163591909313182, "loss": 1.9548, "step": 4141 }, { "epoch": 0.09204444444444444, "grad_norm": 1.4252902269363403, "learning_rate": 0.00018163147366081353, "loss": 2.0182, "step": 4142 }, { "epoch": 0.09206666666666667, "grad_norm": 1.4667932987213135, "learning_rate": 0.0001816270282284952, "loss": 1.988, "step": 4143 }, { "epoch": 0.09208888888888889, "grad_norm": 1.4066476821899414, "learning_rate": 0.00018162258279617695, "loss": 2.0203, "step": 4144 }, { "epoch": 0.09211111111111112, "grad_norm": 1.4897884130477905, "learning_rate": 0.00018161813736385863, "loss": 2.0111, "step": 4145 }, { "epoch": 0.09213333333333333, "grad_norm": 1.6931284666061401, "learning_rate": 0.00018161369193154034, "loss": 1.9726, "step": 4146 }, { "epoch": 0.09215555555555556, "grad_norm": 1.417374610900879, "learning_rate": 0.00018160924649922205, "loss": 1.934, "step": 4147 }, { "epoch": 0.09217777777777778, "grad_norm": 1.4875603914260864, "learning_rate": 0.00018160480106690376, "loss": 2.0975, "step": 4148 }, { "epoch": 0.0922, "grad_norm": 1.4240719079971313, "learning_rate": 0.00018160035563458547, "loss": 1.8821, "step": 4149 }, { "epoch": 0.09222222222222222, "grad_norm": 1.3454698324203491, "learning_rate": 0.00018159591020226718, "loss": 1.1832, "step": 4150 }, { "epoch": 0.09224444444444445, "grad_norm": 1.187279224395752, "learning_rate": 0.0001815914647699489, "loss": 2.6025, "step": 4151 }, { "epoch": 0.09226666666666666, "grad_norm": 0.9831141233444214, "learning_rate": 0.0001815870193376306, "loss": 2.0989, "step": 4152 }, { "epoch": 0.09228888888888889, "grad_norm": 1.077631950378418, "learning_rate": 0.0001815825739053123, "loss": 1.1146, "step": 4153 }, { "epoch": 0.09231111111111111, "grad_norm": 1.36410391330719, "learning_rate": 0.000181578128472994, "loss": 1.6986, "step": 4154 }, { "epoch": 0.09233333333333334, "grad_norm": 1.1403145790100098, "learning_rate": 0.00018157368304067573, "loss": 1.9825, "step": 4155 }, { "epoch": 0.09235555555555555, "grad_norm": 1.1738941669464111, "learning_rate": 0.0001815692376083574, "loss": 2.196, "step": 4156 }, { "epoch": 0.09237777777777778, "grad_norm": 1.170693278312683, "learning_rate": 0.00018156479217603912, "loss": 2.5959, "step": 4157 }, { "epoch": 0.0924, "grad_norm": 1.2521940469741821, "learning_rate": 0.00018156034674372086, "loss": 2.0433, "step": 4158 }, { "epoch": 0.09242222222222223, "grad_norm": 1.8422415256500244, "learning_rate": 0.00018155590131140254, "loss": 2.2061, "step": 4159 }, { "epoch": 0.09244444444444444, "grad_norm": 1.1428771018981934, "learning_rate": 0.00018155145587908425, "loss": 1.8359, "step": 4160 }, { "epoch": 0.09246666666666667, "grad_norm": 1.272699236869812, "learning_rate": 0.00018154701044676596, "loss": 2.0727, "step": 4161 }, { "epoch": 0.09248888888888888, "grad_norm": 1.3834130764007568, "learning_rate": 0.00018154256501444767, "loss": 2.523, "step": 4162 }, { "epoch": 0.09251111111111111, "grad_norm": 1.2837368249893188, "learning_rate": 0.00018153811958212935, "loss": 2.0416, "step": 4163 }, { "epoch": 0.09253333333333333, "grad_norm": 1.3925597667694092, "learning_rate": 0.0001815336741498111, "loss": 2.1914, "step": 4164 }, { "epoch": 0.09255555555555556, "grad_norm": 1.2541146278381348, "learning_rate": 0.00018152922871749277, "loss": 2.2622, "step": 4165 }, { "epoch": 0.09257777777777777, "grad_norm": 1.1055595874786377, "learning_rate": 0.00018152478328517448, "loss": 2.2316, "step": 4166 }, { "epoch": 0.0926, "grad_norm": 1.1584255695343018, "learning_rate": 0.00018152033785285622, "loss": 2.05, "step": 4167 }, { "epoch": 0.09262222222222222, "grad_norm": 1.4687235355377197, "learning_rate": 0.0001815158924205379, "loss": 2.7488, "step": 4168 }, { "epoch": 0.09264444444444445, "grad_norm": 1.6420753002166748, "learning_rate": 0.0001815114469882196, "loss": 1.6486, "step": 4169 }, { "epoch": 0.09266666666666666, "grad_norm": 1.29860258102417, "learning_rate": 0.00018150700155590132, "loss": 2.0112, "step": 4170 }, { "epoch": 0.09268888888888889, "grad_norm": 1.113627552986145, "learning_rate": 0.00018150255612358303, "loss": 1.7817, "step": 4171 }, { "epoch": 0.0927111111111111, "grad_norm": 1.347639799118042, "learning_rate": 0.00018149811069126474, "loss": 2.1989, "step": 4172 }, { "epoch": 0.09273333333333333, "grad_norm": 1.31053626537323, "learning_rate": 0.00018149366525894645, "loss": 2.2405, "step": 4173 }, { "epoch": 0.09275555555555555, "grad_norm": 1.0628243684768677, "learning_rate": 0.00018148921982662816, "loss": 1.2763, "step": 4174 }, { "epoch": 0.09277777777777778, "grad_norm": 1.509133219718933, "learning_rate": 0.00018148477439430987, "loss": 1.9642, "step": 4175 }, { "epoch": 0.0928, "grad_norm": 1.3447598218917847, "learning_rate": 0.00018148032896199158, "loss": 2.1625, "step": 4176 }, { "epoch": 0.09282222222222222, "grad_norm": 1.3930628299713135, "learning_rate": 0.00018147588352967326, "loss": 1.4658, "step": 4177 }, { "epoch": 0.09284444444444444, "grad_norm": 1.2476844787597656, "learning_rate": 0.000181471438097355, "loss": 1.7581, "step": 4178 }, { "epoch": 0.09286666666666667, "grad_norm": 1.6546212434768677, "learning_rate": 0.00018146699266503668, "loss": 1.8664, "step": 4179 }, { "epoch": 0.09288888888888888, "grad_norm": 1.2041245698928833, "learning_rate": 0.0001814625472327184, "loss": 2.0695, "step": 4180 }, { "epoch": 0.09291111111111111, "grad_norm": 1.5564019680023193, "learning_rate": 0.0001814581018004001, "loss": 2.3585, "step": 4181 }, { "epoch": 0.09293333333333334, "grad_norm": 1.8060500621795654, "learning_rate": 0.0001814536563680818, "loss": 2.6819, "step": 4182 }, { "epoch": 0.09295555555555556, "grad_norm": 1.2701903581619263, "learning_rate": 0.00018144921093576352, "loss": 2.2501, "step": 4183 }, { "epoch": 0.09297777777777778, "grad_norm": 1.4386299848556519, "learning_rate": 0.00018144476550344523, "loss": 2.0179, "step": 4184 }, { "epoch": 0.093, "grad_norm": 1.2705012559890747, "learning_rate": 0.00018144032007112694, "loss": 0.7869, "step": 4185 }, { "epoch": 0.09302222222222223, "grad_norm": 1.10904860496521, "learning_rate": 0.00018143587463880862, "loss": 1.1131, "step": 4186 }, { "epoch": 0.09304444444444444, "grad_norm": 1.481854796409607, "learning_rate": 0.00018143142920649035, "loss": 2.1458, "step": 4187 }, { "epoch": 0.09306666666666667, "grad_norm": 1.3963654041290283, "learning_rate": 0.00018142698377417204, "loss": 2.3388, "step": 4188 }, { "epoch": 0.09308888888888889, "grad_norm": 1.2234638929367065, "learning_rate": 0.00018142253834185377, "loss": 1.9841, "step": 4189 }, { "epoch": 0.09311111111111112, "grad_norm": 1.4090217351913452, "learning_rate": 0.00018141809290953546, "loss": 1.9881, "step": 4190 }, { "epoch": 0.09313333333333333, "grad_norm": 1.6126677989959717, "learning_rate": 0.00018141364747721717, "loss": 2.3224, "step": 4191 }, { "epoch": 0.09315555555555556, "grad_norm": 1.5788543224334717, "learning_rate": 0.00018140920204489888, "loss": 2.3603, "step": 4192 }, { "epoch": 0.09317777777777778, "grad_norm": 1.5272618532180786, "learning_rate": 0.00018140475661258058, "loss": 1.8782, "step": 4193 }, { "epoch": 0.0932, "grad_norm": 1.5217806100845337, "learning_rate": 0.0001814003111802623, "loss": 2.0306, "step": 4194 }, { "epoch": 0.09322222222222222, "grad_norm": 1.3852847814559937, "learning_rate": 0.000181395865747944, "loss": 2.1866, "step": 4195 }, { "epoch": 0.09324444444444445, "grad_norm": 1.3555530309677124, "learning_rate": 0.00018139142031562571, "loss": 1.7641, "step": 4196 }, { "epoch": 0.09326666666666666, "grad_norm": 1.4179768562316895, "learning_rate": 0.0001813869748833074, "loss": 1.7759, "step": 4197 }, { "epoch": 0.0932888888888889, "grad_norm": 1.8198423385620117, "learning_rate": 0.00018138252945098913, "loss": 2.0111, "step": 4198 }, { "epoch": 0.09331111111111111, "grad_norm": 1.2606964111328125, "learning_rate": 0.00018137808401867082, "loss": 1.7961, "step": 4199 }, { "epoch": 0.09333333333333334, "grad_norm": 1.642815113067627, "learning_rate": 0.00018137363858635253, "loss": 2.0713, "step": 4200 }, { "epoch": 0.09335555555555555, "grad_norm": 1.0824311971664429, "learning_rate": 0.00018136919315403423, "loss": 2.3005, "step": 4201 }, { "epoch": 0.09337777777777778, "grad_norm": 1.268574833869934, "learning_rate": 0.00018136474772171594, "loss": 2.679, "step": 4202 }, { "epoch": 0.0934, "grad_norm": 1.0037251710891724, "learning_rate": 0.00018136030228939765, "loss": 2.3274, "step": 4203 }, { "epoch": 0.09342222222222223, "grad_norm": 1.1797771453857422, "learning_rate": 0.00018135585685707936, "loss": 2.5565, "step": 4204 }, { "epoch": 0.09344444444444444, "grad_norm": 0.8439913392066956, "learning_rate": 0.00018135141142476107, "loss": 1.1975, "step": 4205 }, { "epoch": 0.09346666666666667, "grad_norm": 2.013122320175171, "learning_rate": 0.00018134696599244276, "loss": 1.3977, "step": 4206 }, { "epoch": 0.09348888888888889, "grad_norm": 1.0435880422592163, "learning_rate": 0.0001813425205601245, "loss": 2.1787, "step": 4207 }, { "epoch": 0.09351111111111111, "grad_norm": 1.1416970491409302, "learning_rate": 0.00018133807512780617, "loss": 2.3445, "step": 4208 }, { "epoch": 0.09353333333333333, "grad_norm": 2.4251341819763184, "learning_rate": 0.0001813336296954879, "loss": 2.1292, "step": 4209 }, { "epoch": 0.09355555555555556, "grad_norm": 1.3286365270614624, "learning_rate": 0.0001813291842631696, "loss": 2.6483, "step": 4210 }, { "epoch": 0.09357777777777777, "grad_norm": 3.780172824859619, "learning_rate": 0.0001813247388308513, "loss": 2.3436, "step": 4211 }, { "epoch": 0.0936, "grad_norm": 1.190225601196289, "learning_rate": 0.000181320293398533, "loss": 1.0689, "step": 4212 }, { "epoch": 0.09362222222222222, "grad_norm": 1.3211151361465454, "learning_rate": 0.00018131584796621472, "loss": 2.0866, "step": 4213 }, { "epoch": 0.09364444444444445, "grad_norm": 1.102105736732483, "learning_rate": 0.00018131140253389643, "loss": 2.0576, "step": 4214 }, { "epoch": 0.09366666666666666, "grad_norm": 1.079500675201416, "learning_rate": 0.00018130695710157814, "loss": 1.3332, "step": 4215 }, { "epoch": 0.09368888888888889, "grad_norm": 1.3115174770355225, "learning_rate": 0.00018130251166925985, "loss": 2.5506, "step": 4216 }, { "epoch": 0.0937111111111111, "grad_norm": 1.547541618347168, "learning_rate": 0.00018129806623694153, "loss": 2.616, "step": 4217 }, { "epoch": 0.09373333333333334, "grad_norm": 1.1907072067260742, "learning_rate": 0.00018129362080462327, "loss": 2.0952, "step": 4218 }, { "epoch": 0.09375555555555555, "grad_norm": 1.5523000955581665, "learning_rate": 0.00018128917537230495, "loss": 2.4598, "step": 4219 }, { "epoch": 0.09377777777777778, "grad_norm": 1.2876936197280884, "learning_rate": 0.00018128472993998666, "loss": 1.7338, "step": 4220 }, { "epoch": 0.0938, "grad_norm": 1.2711793184280396, "learning_rate": 0.00018128028450766837, "loss": 2.3053, "step": 4221 }, { "epoch": 0.09382222222222222, "grad_norm": 1.5317453145980835, "learning_rate": 0.00018127583907535008, "loss": 1.99, "step": 4222 }, { "epoch": 0.09384444444444444, "grad_norm": 1.5987350940704346, "learning_rate": 0.0001812713936430318, "loss": 2.2579, "step": 4223 }, { "epoch": 0.09386666666666667, "grad_norm": 1.209079384803772, "learning_rate": 0.0001812669482107135, "loss": 2.1626, "step": 4224 }, { "epoch": 0.09388888888888888, "grad_norm": 1.1336803436279297, "learning_rate": 0.0001812625027783952, "loss": 1.1717, "step": 4225 }, { "epoch": 0.09391111111111111, "grad_norm": 1.61040461063385, "learning_rate": 0.0001812580573460769, "loss": 2.2274, "step": 4226 }, { "epoch": 0.09393333333333333, "grad_norm": 1.129787564277649, "learning_rate": 0.00018125361191375863, "loss": 1.3491, "step": 4227 }, { "epoch": 0.09395555555555556, "grad_norm": 1.1524302959442139, "learning_rate": 0.0001812491664814403, "loss": 1.5449, "step": 4228 }, { "epoch": 0.09397777777777777, "grad_norm": 1.4663796424865723, "learning_rate": 0.00018124472104912205, "loss": 2.4459, "step": 4229 }, { "epoch": 0.094, "grad_norm": 1.4033117294311523, "learning_rate": 0.00018124027561680373, "loss": 2.4515, "step": 4230 }, { "epoch": 0.09402222222222222, "grad_norm": 1.3667465448379517, "learning_rate": 0.00018123583018448544, "loss": 2.4104, "step": 4231 }, { "epoch": 0.09404444444444444, "grad_norm": 1.3276413679122925, "learning_rate": 0.00018123138475216718, "loss": 2.3673, "step": 4232 }, { "epoch": 0.09406666666666667, "grad_norm": 1.6873568296432495, "learning_rate": 0.00018122693931984886, "loss": 1.8131, "step": 4233 }, { "epoch": 0.09408888888888889, "grad_norm": 1.1830881834030151, "learning_rate": 0.00018122249388753057, "loss": 1.3195, "step": 4234 }, { "epoch": 0.09411111111111112, "grad_norm": 1.2423733472824097, "learning_rate": 0.00018121804845521228, "loss": 1.7322, "step": 4235 }, { "epoch": 0.09413333333333333, "grad_norm": 1.4849443435668945, "learning_rate": 0.000181213603022894, "loss": 2.2424, "step": 4236 }, { "epoch": 0.09415555555555556, "grad_norm": 1.2287132740020752, "learning_rate": 0.00018120915759057567, "loss": 1.5136, "step": 4237 }, { "epoch": 0.09417777777777778, "grad_norm": 1.350013017654419, "learning_rate": 0.0001812047121582574, "loss": 2.0541, "step": 4238 }, { "epoch": 0.0942, "grad_norm": 2.004333972930908, "learning_rate": 0.0001812002667259391, "loss": 2.1348, "step": 4239 }, { "epoch": 0.09422222222222222, "grad_norm": 1.4392337799072266, "learning_rate": 0.0001811958212936208, "loss": 1.9321, "step": 4240 }, { "epoch": 0.09424444444444445, "grad_norm": 1.5513615608215332, "learning_rate": 0.00018119137586130254, "loss": 2.2537, "step": 4241 }, { "epoch": 0.09426666666666667, "grad_norm": 1.2317965030670166, "learning_rate": 0.00018118693042898422, "loss": 1.636, "step": 4242 }, { "epoch": 0.0942888888888889, "grad_norm": 1.2938313484191895, "learning_rate": 0.00018118248499666593, "loss": 1.8187, "step": 4243 }, { "epoch": 0.09431111111111111, "grad_norm": 1.340935468673706, "learning_rate": 0.00018117803956434764, "loss": 1.5115, "step": 4244 }, { "epoch": 0.09433333333333334, "grad_norm": 1.7534791231155396, "learning_rate": 0.00018117359413202935, "loss": 1.7701, "step": 4245 }, { "epoch": 0.09435555555555555, "grad_norm": 1.4208885431289673, "learning_rate": 0.00018116914869971106, "loss": 1.7399, "step": 4246 }, { "epoch": 0.09437777777777778, "grad_norm": 1.6531567573547363, "learning_rate": 0.00018116470326739277, "loss": 1.9721, "step": 4247 }, { "epoch": 0.0944, "grad_norm": 1.0221691131591797, "learning_rate": 0.00018116025783507448, "loss": 0.9554, "step": 4248 }, { "epoch": 0.09442222222222223, "grad_norm": 0.8962246775627136, "learning_rate": 0.0001811558124027562, "loss": 0.6982, "step": 4249 }, { "epoch": 0.09444444444444444, "grad_norm": 1.6421195268630981, "learning_rate": 0.0001811513669704379, "loss": 1.818, "step": 4250 }, { "epoch": 0.09446666666666667, "grad_norm": 1.294623851776123, "learning_rate": 0.00018114692153811958, "loss": 2.2651, "step": 4251 }, { "epoch": 0.09448888888888889, "grad_norm": 1.2783280611038208, "learning_rate": 0.00018114247610580132, "loss": 2.6086, "step": 4252 }, { "epoch": 0.09451111111111112, "grad_norm": 1.3720486164093018, "learning_rate": 0.000181138030673483, "loss": 3.0212, "step": 4253 }, { "epoch": 0.09453333333333333, "grad_norm": 1.2371083498001099, "learning_rate": 0.0001811335852411647, "loss": 2.5947, "step": 4254 }, { "epoch": 0.09455555555555556, "grad_norm": 1.1510810852050781, "learning_rate": 0.00018112913980884642, "loss": 1.7774, "step": 4255 }, { "epoch": 0.09457777777777777, "grad_norm": 1.3002768754959106, "learning_rate": 0.00018112469437652813, "loss": 2.2432, "step": 4256 }, { "epoch": 0.0946, "grad_norm": 1.4122568368911743, "learning_rate": 0.00018112024894420984, "loss": 2.1229, "step": 4257 }, { "epoch": 0.09462222222222222, "grad_norm": 1.2634310722351074, "learning_rate": 0.00018111580351189155, "loss": 2.2565, "step": 4258 }, { "epoch": 0.09464444444444445, "grad_norm": 1.222751259803772, "learning_rate": 0.00018111135807957326, "loss": 2.288, "step": 4259 }, { "epoch": 0.09466666666666666, "grad_norm": 1.275425672531128, "learning_rate": 0.00018110691264725494, "loss": 1.8685, "step": 4260 }, { "epoch": 0.09468888888888889, "grad_norm": 1.3416695594787598, "learning_rate": 0.00018110246721493668, "loss": 2.0879, "step": 4261 }, { "epoch": 0.09471111111111111, "grad_norm": 1.304337978363037, "learning_rate": 0.00018109802178261836, "loss": 2.1505, "step": 4262 }, { "epoch": 0.09473333333333334, "grad_norm": 1.3516786098480225, "learning_rate": 0.00018109357635030007, "loss": 2.7259, "step": 4263 }, { "epoch": 0.09475555555555555, "grad_norm": 1.4799913167953491, "learning_rate": 0.00018108913091798178, "loss": 2.3552, "step": 4264 }, { "epoch": 0.09477777777777778, "grad_norm": 1.1678763628005981, "learning_rate": 0.0001810846854856635, "loss": 2.4232, "step": 4265 }, { "epoch": 0.0948, "grad_norm": 1.1596277952194214, "learning_rate": 0.0001810802400533452, "loss": 1.9048, "step": 4266 }, { "epoch": 0.09482222222222222, "grad_norm": 1.223615050315857, "learning_rate": 0.0001810757946210269, "loss": 1.8111, "step": 4267 }, { "epoch": 0.09484444444444444, "grad_norm": 1.3789392709732056, "learning_rate": 0.00018107134918870862, "loss": 1.8811, "step": 4268 }, { "epoch": 0.09486666666666667, "grad_norm": 1.5451769828796387, "learning_rate": 0.00018106690375639033, "loss": 2.4704, "step": 4269 }, { "epoch": 0.09488888888888888, "grad_norm": 1.3389593362808228, "learning_rate": 0.00018106245832407204, "loss": 2.049, "step": 4270 }, { "epoch": 0.09491111111111111, "grad_norm": 1.2102974653244019, "learning_rate": 0.00018105801289175372, "loss": 1.8909, "step": 4271 }, { "epoch": 0.09493333333333333, "grad_norm": 1.4268876314163208, "learning_rate": 0.00018105356745943546, "loss": 2.2258, "step": 4272 }, { "epoch": 0.09495555555555556, "grad_norm": 1.5768458843231201, "learning_rate": 0.00018104912202711714, "loss": 1.9996, "step": 4273 }, { "epoch": 0.09497777777777777, "grad_norm": 1.2787331342697144, "learning_rate": 0.00018104467659479885, "loss": 1.9048, "step": 4274 }, { "epoch": 0.095, "grad_norm": 1.0063116550445557, "learning_rate": 0.00018104023116248056, "loss": 1.1417, "step": 4275 }, { "epoch": 0.09502222222222222, "grad_norm": 1.2776713371276855, "learning_rate": 0.00018103578573016227, "loss": 2.0983, "step": 4276 }, { "epoch": 0.09504444444444445, "grad_norm": 1.7451448440551758, "learning_rate": 0.00018103134029784398, "loss": 1.7376, "step": 4277 }, { "epoch": 0.09506666666666666, "grad_norm": 1.3430607318878174, "learning_rate": 0.00018102689486552569, "loss": 2.0422, "step": 4278 }, { "epoch": 0.09508888888888889, "grad_norm": 1.5033154487609863, "learning_rate": 0.0001810224494332074, "loss": 2.2636, "step": 4279 }, { "epoch": 0.0951111111111111, "grad_norm": 1.2348893880844116, "learning_rate": 0.00018101800400088908, "loss": 1.5191, "step": 4280 }, { "epoch": 0.09513333333333333, "grad_norm": 1.6065969467163086, "learning_rate": 0.00018101355856857081, "loss": 1.7404, "step": 4281 }, { "epoch": 0.09515555555555555, "grad_norm": 1.1985697746276855, "learning_rate": 0.0001810091131362525, "loss": 1.7366, "step": 4282 }, { "epoch": 0.09517777777777778, "grad_norm": 1.2793217897415161, "learning_rate": 0.0001810046677039342, "loss": 1.8455, "step": 4283 }, { "epoch": 0.0952, "grad_norm": 1.4190576076507568, "learning_rate": 0.00018100022227161592, "loss": 2.15, "step": 4284 }, { "epoch": 0.09522222222222222, "grad_norm": 1.6962013244628906, "learning_rate": 0.00018099577683929763, "loss": 2.4338, "step": 4285 }, { "epoch": 0.09524444444444445, "grad_norm": 1.3325179815292358, "learning_rate": 0.00018099133140697934, "loss": 1.7976, "step": 4286 }, { "epoch": 0.09526666666666667, "grad_norm": 1.3189228773117065, "learning_rate": 0.00018098688597466105, "loss": 2.1157, "step": 4287 }, { "epoch": 0.0952888888888889, "grad_norm": 1.4062597751617432, "learning_rate": 0.00018098244054234275, "loss": 1.9111, "step": 4288 }, { "epoch": 0.09531111111111111, "grad_norm": 1.2860467433929443, "learning_rate": 0.00018097799511002446, "loss": 1.6923, "step": 4289 }, { "epoch": 0.09533333333333334, "grad_norm": 1.2095752954483032, "learning_rate": 0.00018097354967770617, "loss": 1.579, "step": 4290 }, { "epoch": 0.09535555555555555, "grad_norm": 1.528182864189148, "learning_rate": 0.00018096910424538786, "loss": 1.9927, "step": 4291 }, { "epoch": 0.09537777777777778, "grad_norm": 1.2321522235870361, "learning_rate": 0.0001809646588130696, "loss": 1.8781, "step": 4292 }, { "epoch": 0.0954, "grad_norm": 1.5300689935684204, "learning_rate": 0.00018096021338075128, "loss": 2.081, "step": 4293 }, { "epoch": 0.09542222222222223, "grad_norm": 1.2138551473617554, "learning_rate": 0.00018095576794843299, "loss": 1.4392, "step": 4294 }, { "epoch": 0.09544444444444444, "grad_norm": 1.5390785932540894, "learning_rate": 0.0001809513225161147, "loss": 1.9736, "step": 4295 }, { "epoch": 0.09546666666666667, "grad_norm": 1.4192858934402466, "learning_rate": 0.0001809468770837964, "loss": 1.8074, "step": 4296 }, { "epoch": 0.09548888888888889, "grad_norm": 1.7370961904525757, "learning_rate": 0.00018094243165147811, "loss": 2.2916, "step": 4297 }, { "epoch": 0.09551111111111112, "grad_norm": 1.2780367136001587, "learning_rate": 0.00018093798621915982, "loss": 1.7095, "step": 4298 }, { "epoch": 0.09553333333333333, "grad_norm": 1.3951181173324585, "learning_rate": 0.00018093354078684153, "loss": 2.0691, "step": 4299 }, { "epoch": 0.09555555555555556, "grad_norm": 1.4083855152130127, "learning_rate": 0.00018092909535452322, "loss": 0.0724, "step": 4300 }, { "epoch": 0.09557777777777778, "grad_norm": 0.9079444408416748, "learning_rate": 0.00018092464992220495, "loss": 0.0312, "step": 4301 }, { "epoch": 0.0956, "grad_norm": 1.3994101285934448, "learning_rate": 0.00018092020448988664, "loss": 2.8179, "step": 4302 }, { "epoch": 0.09562222222222222, "grad_norm": 1.0253506898880005, "learning_rate": 0.00018091575905756837, "loss": 2.4645, "step": 4303 }, { "epoch": 0.09564444444444445, "grad_norm": 0.9988961815834045, "learning_rate": 0.00018091131362525005, "loss": 2.3299, "step": 4304 }, { "epoch": 0.09566666666666666, "grad_norm": 1.1515384912490845, "learning_rate": 0.00018090686819293176, "loss": 2.4374, "step": 4305 }, { "epoch": 0.09568888888888889, "grad_norm": 1.3075590133666992, "learning_rate": 0.0001809024227606135, "loss": 2.3008, "step": 4306 }, { "epoch": 0.09571111111111111, "grad_norm": 1.123917818069458, "learning_rate": 0.00018089797732829518, "loss": 1.7689, "step": 4307 }, { "epoch": 0.09573333333333334, "grad_norm": 1.1856988668441772, "learning_rate": 0.0001808935318959769, "loss": 1.9832, "step": 4308 }, { "epoch": 0.09575555555555555, "grad_norm": 1.3103424310684204, "learning_rate": 0.0001808890864636586, "loss": 2.0647, "step": 4309 }, { "epoch": 0.09577777777777778, "grad_norm": 1.462695837020874, "learning_rate": 0.0001808846410313403, "loss": 1.106, "step": 4310 }, { "epoch": 0.0958, "grad_norm": 1.256929874420166, "learning_rate": 0.000180880195599022, "loss": 2.4581, "step": 4311 }, { "epoch": 0.09582222222222223, "grad_norm": 1.2270046472549438, "learning_rate": 0.00018087575016670373, "loss": 2.1377, "step": 4312 }, { "epoch": 0.09584444444444444, "grad_norm": 1.2823048830032349, "learning_rate": 0.00018087130473438541, "loss": 2.2922, "step": 4313 }, { "epoch": 0.09586666666666667, "grad_norm": 1.218608021736145, "learning_rate": 0.00018086685930206712, "loss": 1.9525, "step": 4314 }, { "epoch": 0.09588888888888888, "grad_norm": 1.298201560974121, "learning_rate": 0.00018086241386974886, "loss": 2.113, "step": 4315 }, { "epoch": 0.09591111111111111, "grad_norm": 1.27276611328125, "learning_rate": 0.00018085796843743054, "loss": 1.1977, "step": 4316 }, { "epoch": 0.09593333333333333, "grad_norm": 0.3113328814506531, "learning_rate": 0.00018085352300511225, "loss": 0.0398, "step": 4317 }, { "epoch": 0.09595555555555556, "grad_norm": 1.482030987739563, "learning_rate": 0.00018084907757279396, "loss": 2.2754, "step": 4318 }, { "epoch": 0.09597777777777777, "grad_norm": 1.1038774251937866, "learning_rate": 0.00018084463214047567, "loss": 1.7575, "step": 4319 }, { "epoch": 0.096, "grad_norm": 1.5362251996994019, "learning_rate": 0.00018084018670815735, "loss": 2.2929, "step": 4320 }, { "epoch": 0.09602222222222222, "grad_norm": 1.4543116092681885, "learning_rate": 0.0001808357412758391, "loss": 1.8894, "step": 4321 }, { "epoch": 0.09604444444444445, "grad_norm": 1.8341054916381836, "learning_rate": 0.0001808312958435208, "loss": 2.503, "step": 4322 }, { "epoch": 0.09606666666666666, "grad_norm": 1.3067163228988647, "learning_rate": 0.0001808268504112025, "loss": 1.9965, "step": 4323 }, { "epoch": 0.09608888888888889, "grad_norm": 1.318099856376648, "learning_rate": 0.00018082240497888422, "loss": 2.1736, "step": 4324 }, { "epoch": 0.0961111111111111, "grad_norm": 1.4188133478164673, "learning_rate": 0.0001808179595465659, "loss": 2.5916, "step": 4325 }, { "epoch": 0.09613333333333333, "grad_norm": 1.6572717428207397, "learning_rate": 0.00018081351411424764, "loss": 2.0161, "step": 4326 }, { "epoch": 0.09615555555555555, "grad_norm": 1.4251986742019653, "learning_rate": 0.00018080906868192932, "loss": 2.1169, "step": 4327 }, { "epoch": 0.09617777777777778, "grad_norm": 1.1902278661727905, "learning_rate": 0.00018080462324961103, "loss": 2.1141, "step": 4328 }, { "epoch": 0.0962, "grad_norm": 0.9251983761787415, "learning_rate": 0.00018080017781729274, "loss": 0.9708, "step": 4329 }, { "epoch": 0.09622222222222222, "grad_norm": 1.4548628330230713, "learning_rate": 0.00018079573238497445, "loss": 1.8184, "step": 4330 }, { "epoch": 0.09624444444444444, "grad_norm": 1.542205810546875, "learning_rate": 0.00018079128695265616, "loss": 2.2024, "step": 4331 }, { "epoch": 0.09626666666666667, "grad_norm": 1.196998953819275, "learning_rate": 0.00018078684152033787, "loss": 1.6554, "step": 4332 }, { "epoch": 0.09628888888888888, "grad_norm": 1.0667402744293213, "learning_rate": 0.00018078239608801958, "loss": 0.9449, "step": 4333 }, { "epoch": 0.09631111111111111, "grad_norm": 1.5856736898422241, "learning_rate": 0.00018077795065570126, "loss": 2.2405, "step": 4334 }, { "epoch": 0.09633333333333334, "grad_norm": 1.3911514282226562, "learning_rate": 0.000180773505223383, "loss": 1.9074, "step": 4335 }, { "epoch": 0.09635555555555556, "grad_norm": 1.4888899326324463, "learning_rate": 0.00018076905979106468, "loss": 1.9256, "step": 4336 }, { "epoch": 0.09637777777777778, "grad_norm": 1.3612645864486694, "learning_rate": 0.0001807646143587464, "loss": 1.928, "step": 4337 }, { "epoch": 0.0964, "grad_norm": 1.2366394996643066, "learning_rate": 0.0001807601689264281, "loss": 1.5805, "step": 4338 }, { "epoch": 0.09642222222222223, "grad_norm": 1.4254026412963867, "learning_rate": 0.0001807557234941098, "loss": 1.8367, "step": 4339 }, { "epoch": 0.09644444444444444, "grad_norm": 1.8091131448745728, "learning_rate": 0.00018075127806179152, "loss": 2.351, "step": 4340 }, { "epoch": 0.09646666666666667, "grad_norm": 1.4739104509353638, "learning_rate": 0.00018074683262947323, "loss": 1.834, "step": 4341 }, { "epoch": 0.09648888888888889, "grad_norm": 1.322166085243225, "learning_rate": 0.00018074238719715494, "loss": 1.9759, "step": 4342 }, { "epoch": 0.09651111111111112, "grad_norm": 1.3412140607833862, "learning_rate": 0.00018073794176483665, "loss": 2.081, "step": 4343 }, { "epoch": 0.09653333333333333, "grad_norm": 1.4519928693771362, "learning_rate": 0.00018073349633251836, "loss": 1.9883, "step": 4344 }, { "epoch": 0.09655555555555556, "grad_norm": 1.3364869356155396, "learning_rate": 0.00018072905090020004, "loss": 1.5963, "step": 4345 }, { "epoch": 0.09657777777777778, "grad_norm": 1.4493587017059326, "learning_rate": 0.00018072460546788178, "loss": 1.9617, "step": 4346 }, { "epoch": 0.0966, "grad_norm": 1.399957537651062, "learning_rate": 0.00018072016003556346, "loss": 1.7653, "step": 4347 }, { "epoch": 0.09662222222222222, "grad_norm": 1.750044584274292, "learning_rate": 0.00018071571460324517, "loss": 2.1182, "step": 4348 }, { "epoch": 0.09664444444444445, "grad_norm": 1.8996422290802002, "learning_rate": 0.00018071126917092688, "loss": 1.7376, "step": 4349 }, { "epoch": 0.09666666666666666, "grad_norm": 1.560601830482483, "learning_rate": 0.0001807068237386086, "loss": 0.5731, "step": 4350 }, { "epoch": 0.0966888888888889, "grad_norm": 1.0504833459854126, "learning_rate": 0.0001807023783062903, "loss": 2.3573, "step": 4351 }, { "epoch": 0.09671111111111111, "grad_norm": 1.4904145002365112, "learning_rate": 0.000180697932873972, "loss": 1.1591, "step": 4352 }, { "epoch": 0.09673333333333334, "grad_norm": 0.8558697700500488, "learning_rate": 0.00018069348744165372, "loss": 1.1718, "step": 4353 }, { "epoch": 0.09675555555555555, "grad_norm": 1.1474530696868896, "learning_rate": 0.0001806890420093354, "loss": 2.3552, "step": 4354 }, { "epoch": 0.09677777777777778, "grad_norm": 0.9881858825683594, "learning_rate": 0.00018068459657701714, "loss": 2.2725, "step": 4355 }, { "epoch": 0.0968, "grad_norm": 0.949849009513855, "learning_rate": 0.00018068015114469882, "loss": 1.6118, "step": 4356 }, { "epoch": 0.09682222222222223, "grad_norm": 1.2274798154830933, "learning_rate": 0.00018067570571238053, "loss": 2.2421, "step": 4357 }, { "epoch": 0.09684444444444444, "grad_norm": 1.1576870679855347, "learning_rate": 0.00018067126028006224, "loss": 2.2184, "step": 4358 }, { "epoch": 0.09686666666666667, "grad_norm": 1.0928457975387573, "learning_rate": 0.00018066681484774395, "loss": 1.9365, "step": 4359 }, { "epoch": 0.09688888888888889, "grad_norm": 1.1598966121673584, "learning_rate": 0.00018066236941542566, "loss": 2.282, "step": 4360 }, { "epoch": 0.09691111111111111, "grad_norm": 1.2059329748153687, "learning_rate": 0.00018065792398310737, "loss": 2.0386, "step": 4361 }, { "epoch": 0.09693333333333333, "grad_norm": 1.069584846496582, "learning_rate": 0.00018065347855078908, "loss": 1.6026, "step": 4362 }, { "epoch": 0.09695555555555556, "grad_norm": 1.3587257862091064, "learning_rate": 0.00018064903311847079, "loss": 1.929, "step": 4363 }, { "epoch": 0.09697777777777777, "grad_norm": 1.2386860847473145, "learning_rate": 0.0001806445876861525, "loss": 2.4121, "step": 4364 }, { "epoch": 0.097, "grad_norm": 1.2312818765640259, "learning_rate": 0.00018064014225383418, "loss": 2.1486, "step": 4365 }, { "epoch": 0.09702222222222222, "grad_norm": 1.272645115852356, "learning_rate": 0.00018063569682151592, "loss": 1.6875, "step": 4366 }, { "epoch": 0.09704444444444445, "grad_norm": 1.142034888267517, "learning_rate": 0.0001806312513891976, "loss": 2.1747, "step": 4367 }, { "epoch": 0.09706666666666666, "grad_norm": 1.1463781595230103, "learning_rate": 0.0001806268059568793, "loss": 1.2144, "step": 4368 }, { "epoch": 0.09708888888888889, "grad_norm": 1.3081779479980469, "learning_rate": 0.00018062236052456102, "loss": 2.2114, "step": 4369 }, { "epoch": 0.0971111111111111, "grad_norm": 1.6387537717819214, "learning_rate": 0.00018061791509224273, "loss": 2.2408, "step": 4370 }, { "epoch": 0.09713333333333334, "grad_norm": 1.271367073059082, "learning_rate": 0.00018061346965992444, "loss": 2.1865, "step": 4371 }, { "epoch": 0.09715555555555555, "grad_norm": 1.4236445426940918, "learning_rate": 0.00018060902422760615, "loss": 2.2823, "step": 4372 }, { "epoch": 0.09717777777777778, "grad_norm": 1.4783875942230225, "learning_rate": 0.00018060457879528786, "loss": 2.5749, "step": 4373 }, { "epoch": 0.0972, "grad_norm": 1.446212887763977, "learning_rate": 0.00018060013336296954, "loss": 2.1849, "step": 4374 }, { "epoch": 0.09722222222222222, "grad_norm": 1.3906170129776, "learning_rate": 0.00018059568793065127, "loss": 2.1291, "step": 4375 }, { "epoch": 0.09724444444444444, "grad_norm": 1.4127378463745117, "learning_rate": 0.00018059124249833296, "loss": 2.2909, "step": 4376 }, { "epoch": 0.09726666666666667, "grad_norm": 1.329476237297058, "learning_rate": 0.00018058679706601467, "loss": 1.9118, "step": 4377 }, { "epoch": 0.09728888888888888, "grad_norm": 1.7600513696670532, "learning_rate": 0.00018058235163369638, "loss": 1.2208, "step": 4378 }, { "epoch": 0.09731111111111111, "grad_norm": 1.5222866535186768, "learning_rate": 0.00018057790620137809, "loss": 2.4877, "step": 4379 }, { "epoch": 0.09733333333333333, "grad_norm": 1.6175096035003662, "learning_rate": 0.00018057346076905982, "loss": 2.4975, "step": 4380 }, { "epoch": 0.09735555555555556, "grad_norm": 1.3158024549484253, "learning_rate": 0.0001805690153367415, "loss": 2.1654, "step": 4381 }, { "epoch": 0.09737777777777777, "grad_norm": 1.266546368598938, "learning_rate": 0.00018056456990442321, "loss": 2.2962, "step": 4382 }, { "epoch": 0.0974, "grad_norm": 1.3766202926635742, "learning_rate": 0.00018056012447210492, "loss": 2.0777, "step": 4383 }, { "epoch": 0.09742222222222222, "grad_norm": 1.6375465393066406, "learning_rate": 0.00018055567903978663, "loss": 2.5874, "step": 4384 }, { "epoch": 0.09744444444444444, "grad_norm": 1.3366793394088745, "learning_rate": 0.00018055123360746832, "loss": 1.9877, "step": 4385 }, { "epoch": 0.09746666666666666, "grad_norm": 1.199235439300537, "learning_rate": 0.00018054678817515005, "loss": 1.4807, "step": 4386 }, { "epoch": 0.09748888888888889, "grad_norm": 0.9937195777893066, "learning_rate": 0.00018054234274283174, "loss": 1.0858, "step": 4387 }, { "epoch": 0.09751111111111112, "grad_norm": 1.2782981395721436, "learning_rate": 0.00018053789731051345, "loss": 1.8537, "step": 4388 }, { "epoch": 0.09753333333333333, "grad_norm": 1.832302451133728, "learning_rate": 0.00018053345187819518, "loss": 1.8441, "step": 4389 }, { "epoch": 0.09755555555555556, "grad_norm": 1.429241418838501, "learning_rate": 0.00018052900644587686, "loss": 1.9086, "step": 4390 }, { "epoch": 0.09757777777777778, "grad_norm": 1.300802230834961, "learning_rate": 0.00018052456101355857, "loss": 1.8006, "step": 4391 }, { "epoch": 0.0976, "grad_norm": 1.724574327468872, "learning_rate": 0.00018052011558124028, "loss": 1.6432, "step": 4392 }, { "epoch": 0.09762222222222222, "grad_norm": 1.190918207168579, "learning_rate": 0.000180515670148922, "loss": 1.7289, "step": 4393 }, { "epoch": 0.09764444444444445, "grad_norm": 1.712777018547058, "learning_rate": 0.00018051122471660368, "loss": 2.1239, "step": 4394 }, { "epoch": 0.09766666666666667, "grad_norm": 1.7275041341781616, "learning_rate": 0.0001805067792842854, "loss": 1.7419, "step": 4395 }, { "epoch": 0.0976888888888889, "grad_norm": 1.387739658355713, "learning_rate": 0.00018050233385196712, "loss": 1.6528, "step": 4396 }, { "epoch": 0.09771111111111111, "grad_norm": 1.427575707435608, "learning_rate": 0.0001804978884196488, "loss": 1.8057, "step": 4397 }, { "epoch": 0.09773333333333334, "grad_norm": 1.9699738025665283, "learning_rate": 0.00018049344298733054, "loss": 2.2689, "step": 4398 }, { "epoch": 0.09775555555555555, "grad_norm": 1.493066430091858, "learning_rate": 0.00018048899755501222, "loss": 1.8887, "step": 4399 }, { "epoch": 0.09777777777777778, "grad_norm": 1.2431524991989136, "learning_rate": 0.00018048455212269396, "loss": 1.4983, "step": 4400 }, { "epoch": 0.0978, "grad_norm": 1.3198671340942383, "learning_rate": 0.00018048010669037564, "loss": 2.4862, "step": 4401 }, { "epoch": 0.09782222222222223, "grad_norm": 0.844988226890564, "learning_rate": 0.00018047566125805735, "loss": 1.1806, "step": 4402 }, { "epoch": 0.09784444444444444, "grad_norm": 1.0930746793746948, "learning_rate": 0.00018047121582573906, "loss": 2.3488, "step": 4403 }, { "epoch": 0.09786666666666667, "grad_norm": 1.369760274887085, "learning_rate": 0.00018046677039342077, "loss": 2.6371, "step": 4404 }, { "epoch": 0.09788888888888889, "grad_norm": 1.3217105865478516, "learning_rate": 0.00018046232496110248, "loss": 2.7823, "step": 4405 }, { "epoch": 0.09791111111111112, "grad_norm": 1.3410041332244873, "learning_rate": 0.0001804578795287842, "loss": 2.5896, "step": 4406 }, { "epoch": 0.09793333333333333, "grad_norm": 1.0788627862930298, "learning_rate": 0.0001804534340964659, "loss": 2.0777, "step": 4407 }, { "epoch": 0.09795555555555556, "grad_norm": 1.273199439048767, "learning_rate": 0.00018044898866414758, "loss": 2.1908, "step": 4408 }, { "epoch": 0.09797777777777777, "grad_norm": 1.3570038080215454, "learning_rate": 0.00018044454323182932, "loss": 2.9192, "step": 4409 }, { "epoch": 0.098, "grad_norm": 1.2110463380813599, "learning_rate": 0.000180440097799511, "loss": 2.5296, "step": 4410 }, { "epoch": 0.09802222222222222, "grad_norm": 1.1199480295181274, "learning_rate": 0.0001804356523671927, "loss": 1.8769, "step": 4411 }, { "epoch": 0.09804444444444445, "grad_norm": 1.202898621559143, "learning_rate": 0.00018043120693487442, "loss": 2.1629, "step": 4412 }, { "epoch": 0.09806666666666666, "grad_norm": 1.2951065301895142, "learning_rate": 0.00018042676150255613, "loss": 1.9552, "step": 4413 }, { "epoch": 0.09808888888888889, "grad_norm": 1.3778116703033447, "learning_rate": 0.00018042231607023784, "loss": 2.1159, "step": 4414 }, { "epoch": 0.09811111111111111, "grad_norm": 1.2748832702636719, "learning_rate": 0.00018041787063791955, "loss": 2.6161, "step": 4415 }, { "epoch": 0.09813333333333334, "grad_norm": 1.0710159540176392, "learning_rate": 0.00018041342520560126, "loss": 1.513, "step": 4416 }, { "epoch": 0.09815555555555555, "grad_norm": 1.3692610263824463, "learning_rate": 0.00018040897977328297, "loss": 2.0782, "step": 4417 }, { "epoch": 0.09817777777777778, "grad_norm": 1.190234661102295, "learning_rate": 0.00018040453434096468, "loss": 1.8536, "step": 4418 }, { "epoch": 0.0982, "grad_norm": 1.738289475440979, "learning_rate": 0.00018040008890864636, "loss": 2.2558, "step": 4419 }, { "epoch": 0.09822222222222222, "grad_norm": 1.4065693616867065, "learning_rate": 0.0001803956434763281, "loss": 1.4075, "step": 4420 }, { "epoch": 0.09824444444444444, "grad_norm": 0.897720992565155, "learning_rate": 0.00018039119804400978, "loss": 0.8285, "step": 4421 }, { "epoch": 0.09826666666666667, "grad_norm": 1.5050746202468872, "learning_rate": 0.0001803867526116915, "loss": 2.446, "step": 4422 }, { "epoch": 0.09828888888888888, "grad_norm": 1.2419902086257935, "learning_rate": 0.0001803823071793732, "loss": 1.8285, "step": 4423 }, { "epoch": 0.09831111111111111, "grad_norm": 1.4274375438690186, "learning_rate": 0.0001803778617470549, "loss": 2.3178, "step": 4424 }, { "epoch": 0.09833333333333333, "grad_norm": 1.6556620597839355, "learning_rate": 0.00018037341631473662, "loss": 2.4652, "step": 4425 }, { "epoch": 0.09835555555555556, "grad_norm": 1.3161110877990723, "learning_rate": 0.00018036897088241833, "loss": 2.5008, "step": 4426 }, { "epoch": 0.09837777777777777, "grad_norm": 1.4334475994110107, "learning_rate": 0.00018036452545010004, "loss": 2.134, "step": 4427 }, { "epoch": 0.0984, "grad_norm": 1.1863737106323242, "learning_rate": 0.00018036008001778172, "loss": 1.9887, "step": 4428 }, { "epoch": 0.09842222222222222, "grad_norm": 1.260151982307434, "learning_rate": 0.00018035563458546346, "loss": 1.888, "step": 4429 }, { "epoch": 0.09844444444444445, "grad_norm": 1.0401445627212524, "learning_rate": 0.00018035118915314514, "loss": 1.1331, "step": 4430 }, { "epoch": 0.09846666666666666, "grad_norm": 1.4833295345306396, "learning_rate": 0.00018034674372082685, "loss": 1.8414, "step": 4431 }, { "epoch": 0.09848888888888889, "grad_norm": 1.4104746580123901, "learning_rate": 0.00018034229828850856, "loss": 2.1685, "step": 4432 }, { "epoch": 0.0985111111111111, "grad_norm": 1.1910183429718018, "learning_rate": 0.00018033785285619027, "loss": 1.6557, "step": 4433 }, { "epoch": 0.09853333333333333, "grad_norm": 1.6644701957702637, "learning_rate": 0.00018033340742387198, "loss": 2.1799, "step": 4434 }, { "epoch": 0.09855555555555555, "grad_norm": 1.4257797002792358, "learning_rate": 0.0001803289619915537, "loss": 2.0706, "step": 4435 }, { "epoch": 0.09857777777777778, "grad_norm": 1.1833685636520386, "learning_rate": 0.0001803245165592354, "loss": 1.8003, "step": 4436 }, { "epoch": 0.0986, "grad_norm": 1.4477691650390625, "learning_rate": 0.0001803200711269171, "loss": 2.1154, "step": 4437 }, { "epoch": 0.09862222222222222, "grad_norm": 1.5556645393371582, "learning_rate": 0.00018031562569459882, "loss": 2.4443, "step": 4438 }, { "epoch": 0.09864444444444445, "grad_norm": 1.3518905639648438, "learning_rate": 0.0001803111802622805, "loss": 2.0318, "step": 4439 }, { "epoch": 0.09866666666666667, "grad_norm": 1.3766332864761353, "learning_rate": 0.00018030673482996224, "loss": 1.9228, "step": 4440 }, { "epoch": 0.0986888888888889, "grad_norm": 1.3773131370544434, "learning_rate": 0.00018030228939764392, "loss": 1.9193, "step": 4441 }, { "epoch": 0.09871111111111111, "grad_norm": 1.5432028770446777, "learning_rate": 0.00018029784396532563, "loss": 2.0612, "step": 4442 }, { "epoch": 0.09873333333333334, "grad_norm": 1.040864109992981, "learning_rate": 0.00018029339853300734, "loss": 1.34, "step": 4443 }, { "epoch": 0.09875555555555555, "grad_norm": 1.2923661470413208, "learning_rate": 0.00018028895310068905, "loss": 1.6208, "step": 4444 }, { "epoch": 0.09877777777777778, "grad_norm": 1.3355612754821777, "learning_rate": 0.00018028450766837076, "loss": 1.885, "step": 4445 }, { "epoch": 0.0988, "grad_norm": 1.5252952575683594, "learning_rate": 0.00018028006223605247, "loss": 1.9786, "step": 4446 }, { "epoch": 0.09882222222222223, "grad_norm": 1.568361759185791, "learning_rate": 0.00018027561680373418, "loss": 2.0919, "step": 4447 }, { "epoch": 0.09884444444444444, "grad_norm": 1.6935590505599976, "learning_rate": 0.00018027117137141586, "loss": 2.0133, "step": 4448 }, { "epoch": 0.09886666666666667, "grad_norm": 1.3074549436569214, "learning_rate": 0.0001802667259390976, "loss": 1.9556, "step": 4449 }, { "epoch": 0.09888888888888889, "grad_norm": 1.5643311738967896, "learning_rate": 0.00018026228050677928, "loss": 1.716, "step": 4450 }, { "epoch": 0.09891111111111112, "grad_norm": 1.19057297706604, "learning_rate": 0.000180257835074461, "loss": 2.6874, "step": 4451 }, { "epoch": 0.09893333333333333, "grad_norm": 1.175662875175476, "learning_rate": 0.0001802533896421427, "loss": 0.0533, "step": 4452 }, { "epoch": 0.09895555555555556, "grad_norm": 1.4417732954025269, "learning_rate": 0.0001802489442098244, "loss": 2.4653, "step": 4453 }, { "epoch": 0.09897777777777778, "grad_norm": 1.0468107461929321, "learning_rate": 0.00018024449877750612, "loss": 2.046, "step": 4454 }, { "epoch": 0.099, "grad_norm": 0.7389274835586548, "learning_rate": 0.00018024005334518783, "loss": 1.4057, "step": 4455 }, { "epoch": 0.09902222222222222, "grad_norm": 1.0182894468307495, "learning_rate": 0.00018023560791286954, "loss": 2.4539, "step": 4456 }, { "epoch": 0.09904444444444445, "grad_norm": 1.128106951713562, "learning_rate": 0.00018023116248055125, "loss": 2.1567, "step": 4457 }, { "epoch": 0.09906666666666666, "grad_norm": 1.0658607482910156, "learning_rate": 0.00018022671704823296, "loss": 1.5295, "step": 4458 }, { "epoch": 0.09908888888888889, "grad_norm": 1.5395396947860718, "learning_rate": 0.00018022227161591464, "loss": 2.7383, "step": 4459 }, { "epoch": 0.09911111111111111, "grad_norm": 1.2264471054077148, "learning_rate": 0.00018021782618359638, "loss": 2.149, "step": 4460 }, { "epoch": 0.09913333333333334, "grad_norm": 1.0935885906219482, "learning_rate": 0.00018021338075127806, "loss": 2.1916, "step": 4461 }, { "epoch": 0.09915555555555555, "grad_norm": 1.26873779296875, "learning_rate": 0.00018020893531895977, "loss": 2.1652, "step": 4462 }, { "epoch": 0.09917777777777778, "grad_norm": 1.4730082750320435, "learning_rate": 0.0001802044898866415, "loss": 2.5607, "step": 4463 }, { "epoch": 0.0992, "grad_norm": 1.0220870971679688, "learning_rate": 0.0001802000444543232, "loss": 1.1443, "step": 4464 }, { "epoch": 0.09922222222222223, "grad_norm": 1.0993688106536865, "learning_rate": 0.0001801955990220049, "loss": 1.8948, "step": 4465 }, { "epoch": 0.09924444444444444, "grad_norm": 1.2144601345062256, "learning_rate": 0.0001801911535896866, "loss": 1.9652, "step": 4466 }, { "epoch": 0.09926666666666667, "grad_norm": 1.220253348350525, "learning_rate": 0.00018018670815736832, "loss": 1.9683, "step": 4467 }, { "epoch": 0.09928888888888888, "grad_norm": 1.2824461460113525, "learning_rate": 0.00018018226272505, "loss": 2.415, "step": 4468 }, { "epoch": 0.09931111111111111, "grad_norm": 1.3988687992095947, "learning_rate": 0.00018017781729273173, "loss": 1.124, "step": 4469 }, { "epoch": 0.09933333333333333, "grad_norm": 0.8374323844909668, "learning_rate": 0.00018017337186041344, "loss": 1.2069, "step": 4470 }, { "epoch": 0.09935555555555556, "grad_norm": 1.3232494592666626, "learning_rate": 0.00018016892642809513, "loss": 1.9529, "step": 4471 }, { "epoch": 0.09937777777777777, "grad_norm": 1.1095073223114014, "learning_rate": 0.00018016448099577686, "loss": 1.7246, "step": 4472 }, { "epoch": 0.0994, "grad_norm": 1.3508285284042358, "learning_rate": 0.00018016003556345855, "loss": 2.137, "step": 4473 }, { "epoch": 0.09942222222222222, "grad_norm": 1.7036936283111572, "learning_rate": 0.00018015559013114028, "loss": 3.1291, "step": 4474 }, { "epoch": 0.09944444444444445, "grad_norm": 1.5720809698104858, "learning_rate": 0.00018015114469882197, "loss": 2.4024, "step": 4475 }, { "epoch": 0.09946666666666666, "grad_norm": 1.3260328769683838, "learning_rate": 0.00018014669926650368, "loss": 1.8592, "step": 4476 }, { "epoch": 0.09948888888888889, "grad_norm": 1.5580748319625854, "learning_rate": 0.00018014225383418538, "loss": 2.1636, "step": 4477 }, { "epoch": 0.0995111111111111, "grad_norm": 1.1836466789245605, "learning_rate": 0.0001801378084018671, "loss": 1.9728, "step": 4478 }, { "epoch": 0.09953333333333333, "grad_norm": 1.3697766065597534, "learning_rate": 0.0001801333629695488, "loss": 1.7712, "step": 4479 }, { "epoch": 0.09955555555555555, "grad_norm": 1.3192039728164673, "learning_rate": 0.00018012891753723051, "loss": 1.9998, "step": 4480 }, { "epoch": 0.09957777777777778, "grad_norm": 1.352051854133606, "learning_rate": 0.00018012447210491222, "loss": 2.3214, "step": 4481 }, { "epoch": 0.0996, "grad_norm": 1.3424073457717896, "learning_rate": 0.0001801200266725939, "loss": 2.1331, "step": 4482 }, { "epoch": 0.09962222222222222, "grad_norm": 1.4906132221221924, "learning_rate": 0.00018011558124027564, "loss": 1.9629, "step": 4483 }, { "epoch": 0.09964444444444444, "grad_norm": 1.441964864730835, "learning_rate": 0.00018011113580795733, "loss": 2.1286, "step": 4484 }, { "epoch": 0.09966666666666667, "grad_norm": 1.443705677986145, "learning_rate": 0.00018010669037563903, "loss": 1.7009, "step": 4485 }, { "epoch": 0.09968888888888888, "grad_norm": 1.3226597309112549, "learning_rate": 0.00018010224494332074, "loss": 1.8768, "step": 4486 }, { "epoch": 0.09971111111111111, "grad_norm": 1.454082727432251, "learning_rate": 0.00018009779951100245, "loss": 1.8601, "step": 4487 }, { "epoch": 0.09973333333333333, "grad_norm": 1.8369663953781128, "learning_rate": 0.00018009335407868416, "loss": 0.069, "step": 4488 }, { "epoch": 0.09975555555555556, "grad_norm": 1.2956428527832031, "learning_rate": 0.00018008890864636587, "loss": 1.868, "step": 4489 }, { "epoch": 0.09977777777777778, "grad_norm": 1.6002861261367798, "learning_rate": 0.00018008446321404758, "loss": 2.0486, "step": 4490 }, { "epoch": 0.0998, "grad_norm": 1.4827994108200073, "learning_rate": 0.00018008001778172927, "loss": 2.244, "step": 4491 }, { "epoch": 0.09982222222222223, "grad_norm": 1.3553178310394287, "learning_rate": 0.000180075572349411, "loss": 1.3299, "step": 4492 }, { "epoch": 0.09984444444444444, "grad_norm": 1.3971030712127686, "learning_rate": 0.00018007112691709268, "loss": 1.8899, "step": 4493 }, { "epoch": 0.09986666666666667, "grad_norm": 1.5578504800796509, "learning_rate": 0.00018006668148477442, "loss": 1.8414, "step": 4494 }, { "epoch": 0.09988888888888889, "grad_norm": 1.4631415605545044, "learning_rate": 0.0001800622360524561, "loss": 2.085, "step": 4495 }, { "epoch": 0.09991111111111112, "grad_norm": 1.4966238737106323, "learning_rate": 0.0001800577906201378, "loss": 1.8362, "step": 4496 }, { "epoch": 0.09993333333333333, "grad_norm": 1.7602430582046509, "learning_rate": 0.00018005334518781952, "loss": 1.965, "step": 4497 }, { "epoch": 0.09995555555555556, "grad_norm": 1.838391900062561, "learning_rate": 0.00018004889975550123, "loss": 2.0265, "step": 4498 }, { "epoch": 0.09997777777777778, "grad_norm": 1.3434847593307495, "learning_rate": 0.00018004445432318294, "loss": 0.638, "step": 4499 }, { "epoch": 0.1, "grad_norm": 1.3077208995819092, "learning_rate": 0.00018004000889086465, "loss": 1.1671, "step": 4500 }, { "epoch": 0.10002222222222222, "grad_norm": 1.0700474977493286, "learning_rate": 0.00018003556345854636, "loss": 2.6163, "step": 4501 }, { "epoch": 0.10004444444444445, "grad_norm": 1.1620192527770996, "learning_rate": 0.00018003111802622804, "loss": 2.5226, "step": 4502 }, { "epoch": 0.10006666666666666, "grad_norm": 1.1475083827972412, "learning_rate": 0.00018002667259390978, "loss": 2.5302, "step": 4503 }, { "epoch": 0.1000888888888889, "grad_norm": 1.1489850282669067, "learning_rate": 0.00018002222716159146, "loss": 2.1681, "step": 4504 }, { "epoch": 0.10011111111111111, "grad_norm": 1.1222330331802368, "learning_rate": 0.00018001778172927317, "loss": 1.8605, "step": 4505 }, { "epoch": 0.10013333333333334, "grad_norm": 1.1848361492156982, "learning_rate": 0.00018001333629695488, "loss": 2.4713, "step": 4506 }, { "epoch": 0.10015555555555555, "grad_norm": 1.3263381719589233, "learning_rate": 0.0001800088908646366, "loss": 1.9377, "step": 4507 }, { "epoch": 0.10017777777777778, "grad_norm": 1.302356243133545, "learning_rate": 0.0001800044454323183, "loss": 2.4729, "step": 4508 }, { "epoch": 0.1002, "grad_norm": 1.492964506149292, "learning_rate": 0.00018, "loss": 2.2221, "step": 4509 }, { "epoch": 0.10022222222222223, "grad_norm": 1.2655242681503296, "learning_rate": 0.00017999555456768172, "loss": 2.6287, "step": 4510 }, { "epoch": 0.10024444444444444, "grad_norm": 1.2084869146347046, "learning_rate": 0.00017999110913536343, "loss": 2.3839, "step": 4511 }, { "epoch": 0.10026666666666667, "grad_norm": 1.1417101621627808, "learning_rate": 0.00017998666370304514, "loss": 2.4502, "step": 4512 }, { "epoch": 0.10028888888888889, "grad_norm": 1.2735824584960938, "learning_rate": 0.00017998221827072682, "loss": 2.1662, "step": 4513 }, { "epoch": 0.10031111111111111, "grad_norm": 1.0747036933898926, "learning_rate": 0.00017997777283840856, "loss": 2.1198, "step": 4514 }, { "epoch": 0.10033333333333333, "grad_norm": 1.32513427734375, "learning_rate": 0.00017997332740609024, "loss": 2.1641, "step": 4515 }, { "epoch": 0.10035555555555556, "grad_norm": 1.254108190536499, "learning_rate": 0.00017996888197377195, "loss": 1.9495, "step": 4516 }, { "epoch": 0.10037777777777777, "grad_norm": 1.3607242107391357, "learning_rate": 0.00017996443654145366, "loss": 2.3084, "step": 4517 }, { "epoch": 0.1004, "grad_norm": 1.2414820194244385, "learning_rate": 0.00017995999110913537, "loss": 2.4332, "step": 4518 }, { "epoch": 0.10042222222222222, "grad_norm": 1.4720838069915771, "learning_rate": 0.00017995554567681708, "loss": 2.367, "step": 4519 }, { "epoch": 0.10044444444444445, "grad_norm": 1.3227603435516357, "learning_rate": 0.0001799511002444988, "loss": 1.8766, "step": 4520 }, { "epoch": 0.10046666666666666, "grad_norm": 1.5360599756240845, "learning_rate": 0.0001799466548121805, "loss": 2.4649, "step": 4521 }, { "epoch": 0.10048888888888889, "grad_norm": 1.2606695890426636, "learning_rate": 0.00017994220937986218, "loss": 1.9326, "step": 4522 }, { "epoch": 0.1005111111111111, "grad_norm": 1.1181033849716187, "learning_rate": 0.00017993776394754392, "loss": 1.8243, "step": 4523 }, { "epoch": 0.10053333333333334, "grad_norm": 1.4821643829345703, "learning_rate": 0.0001799333185152256, "loss": 2.1311, "step": 4524 }, { "epoch": 0.10055555555555555, "grad_norm": 1.2980374097824097, "learning_rate": 0.0001799288730829073, "loss": 1.6123, "step": 4525 }, { "epoch": 0.10057777777777778, "grad_norm": 1.3282278776168823, "learning_rate": 0.00017992442765058902, "loss": 2.2648, "step": 4526 }, { "epoch": 0.1006, "grad_norm": 1.2121895551681519, "learning_rate": 0.00017991998221827073, "loss": 2.1269, "step": 4527 }, { "epoch": 0.10062222222222222, "grad_norm": 1.2339322566986084, "learning_rate": 0.00017991553678595244, "loss": 1.7795, "step": 4528 }, { "epoch": 0.10064444444444444, "grad_norm": 0.8297223448753357, "learning_rate": 0.00017991109135363415, "loss": 0.7758, "step": 4529 }, { "epoch": 0.10066666666666667, "grad_norm": 1.205521583557129, "learning_rate": 0.00017990664592131586, "loss": 1.2347, "step": 4530 }, { "epoch": 0.10068888888888888, "grad_norm": 1.3334580659866333, "learning_rate": 0.00017990220048899757, "loss": 2.3322, "step": 4531 }, { "epoch": 0.10071111111111111, "grad_norm": 1.4802695512771606, "learning_rate": 0.00017989775505667928, "loss": 2.0938, "step": 4532 }, { "epoch": 0.10073333333333333, "grad_norm": 0.9862070679664612, "learning_rate": 0.00017989330962436096, "loss": 1.1852, "step": 4533 }, { "epoch": 0.10075555555555556, "grad_norm": 1.0659462213516235, "learning_rate": 0.0001798888641920427, "loss": 1.1631, "step": 4534 }, { "epoch": 0.10077777777777777, "grad_norm": 1.5292655229568481, "learning_rate": 0.00017988441875972438, "loss": 1.8282, "step": 4535 }, { "epoch": 0.1008, "grad_norm": 1.8752927780151367, "learning_rate": 0.0001798799733274061, "loss": 2.0466, "step": 4536 }, { "epoch": 0.10082222222222222, "grad_norm": 1.4686386585235596, "learning_rate": 0.00017987552789508783, "loss": 1.9048, "step": 4537 }, { "epoch": 0.10084444444444444, "grad_norm": 1.6862549781799316, "learning_rate": 0.0001798710824627695, "loss": 2.3511, "step": 4538 }, { "epoch": 0.10086666666666666, "grad_norm": 1.357166051864624, "learning_rate": 0.00017986663703045122, "loss": 1.9995, "step": 4539 }, { "epoch": 0.10088888888888889, "grad_norm": 1.4182924032211304, "learning_rate": 0.00017986219159813293, "loss": 2.1343, "step": 4540 }, { "epoch": 0.1009111111111111, "grad_norm": 1.322924017906189, "learning_rate": 0.00017985774616581464, "loss": 1.8664, "step": 4541 }, { "epoch": 0.10093333333333333, "grad_norm": 1.4450047016143799, "learning_rate": 0.00017985330073349632, "loss": 2.015, "step": 4542 }, { "epoch": 0.10095555555555556, "grad_norm": 1.5767916440963745, "learning_rate": 0.00017984885530117806, "loss": 1.063, "step": 4543 }, { "epoch": 0.10097777777777778, "grad_norm": 1.3766216039657593, "learning_rate": 0.00017984440986885977, "loss": 2.1104, "step": 4544 }, { "epoch": 0.101, "grad_norm": 1.4096211194992065, "learning_rate": 0.00017983996443654145, "loss": 1.8738, "step": 4545 }, { "epoch": 0.10102222222222222, "grad_norm": 1.9654799699783325, "learning_rate": 0.00017983551900422319, "loss": 2.059, "step": 4546 }, { "epoch": 0.10104444444444445, "grad_norm": 1.5229862928390503, "learning_rate": 0.00017983107357190487, "loss": 1.8899, "step": 4547 }, { "epoch": 0.10106666666666667, "grad_norm": 1.4340468645095825, "learning_rate": 0.00017982662813958658, "loss": 1.8753, "step": 4548 }, { "epoch": 0.1010888888888889, "grad_norm": 1.261633038520813, "learning_rate": 0.0001798221827072683, "loss": 1.6701, "step": 4549 }, { "epoch": 0.10111111111111111, "grad_norm": 1.3499265909194946, "learning_rate": 0.00017981773727495, "loss": 0.9082, "step": 4550 }, { "epoch": 0.10113333333333334, "grad_norm": 1.1998485326766968, "learning_rate": 0.0001798132918426317, "loss": 2.3424, "step": 4551 }, { "epoch": 0.10115555555555555, "grad_norm": 0.9679036736488342, "learning_rate": 0.00017980884641031342, "loss": 1.2857, "step": 4552 }, { "epoch": 0.10117777777777778, "grad_norm": 1.101314902305603, "learning_rate": 0.00017980440097799513, "loss": 2.3451, "step": 4553 }, { "epoch": 0.1012, "grad_norm": 1.2301385402679443, "learning_rate": 0.00017979995554567684, "loss": 2.5677, "step": 4554 }, { "epoch": 0.10122222222222223, "grad_norm": 1.1807093620300293, "learning_rate": 0.00017979551011335855, "loss": 2.5417, "step": 4555 }, { "epoch": 0.10124444444444444, "grad_norm": 1.1361746788024902, "learning_rate": 0.00017979106468104023, "loss": 2.1949, "step": 4556 }, { "epoch": 0.10126666666666667, "grad_norm": 1.1690309047698975, "learning_rate": 0.00017978661924872196, "loss": 1.9276, "step": 4557 }, { "epoch": 0.10128888888888889, "grad_norm": 1.13777756690979, "learning_rate": 0.00017978217381640365, "loss": 1.6578, "step": 4558 }, { "epoch": 0.10131111111111112, "grad_norm": 1.1411702632904053, "learning_rate": 0.00017977772838408536, "loss": 2.051, "step": 4559 }, { "epoch": 0.10133333333333333, "grad_norm": 1.2523962259292603, "learning_rate": 0.00017977328295176707, "loss": 1.6661, "step": 4560 }, { "epoch": 0.10135555555555556, "grad_norm": 1.1678746938705444, "learning_rate": 0.00017976883751944878, "loss": 2.2319, "step": 4561 }, { "epoch": 0.10137777777777777, "grad_norm": 1.5486644506454468, "learning_rate": 0.00017976439208713049, "loss": 2.0421, "step": 4562 }, { "epoch": 0.1014, "grad_norm": 1.5725224018096924, "learning_rate": 0.0001797599466548122, "loss": 2.5077, "step": 4563 }, { "epoch": 0.10142222222222222, "grad_norm": 1.2779611349105835, "learning_rate": 0.0001797555012224939, "loss": 2.0999, "step": 4564 }, { "epoch": 0.10144444444444445, "grad_norm": 1.263800024986267, "learning_rate": 0.0001797510557901756, "loss": 2.1752, "step": 4565 }, { "epoch": 0.10146666666666666, "grad_norm": 1.360589623451233, "learning_rate": 0.00017974661035785732, "loss": 2.27, "step": 4566 }, { "epoch": 0.10148888888888889, "grad_norm": 1.156154990196228, "learning_rate": 0.000179742164925539, "loss": 1.9843, "step": 4567 }, { "epoch": 0.10151111111111111, "grad_norm": 1.3196426630020142, "learning_rate": 0.00017973771949322074, "loss": 2.0636, "step": 4568 }, { "epoch": 0.10153333333333334, "grad_norm": 1.2223477363586426, "learning_rate": 0.00017973327406090243, "loss": 1.8422, "step": 4569 }, { "epoch": 0.10155555555555555, "grad_norm": 1.2372304201126099, "learning_rate": 0.00017972882862858414, "loss": 1.7804, "step": 4570 }, { "epoch": 0.10157777777777778, "grad_norm": 1.6939142942428589, "learning_rate": 0.00017972438319626585, "loss": 2.3238, "step": 4571 }, { "epoch": 0.1016, "grad_norm": 1.4249662160873413, "learning_rate": 0.00017971993776394755, "loss": 2.1564, "step": 4572 }, { "epoch": 0.10162222222222222, "grad_norm": 1.195669174194336, "learning_rate": 0.00017971549233162926, "loss": 1.8923, "step": 4573 }, { "epoch": 0.10164444444444444, "grad_norm": 1.3309195041656494, "learning_rate": 0.00017971104689931097, "loss": 1.7738, "step": 4574 }, { "epoch": 0.10166666666666667, "grad_norm": 1.5576967000961304, "learning_rate": 0.00017970660146699268, "loss": 2.1503, "step": 4575 }, { "epoch": 0.10168888888888888, "grad_norm": 1.6863161325454712, "learning_rate": 0.00017970215603467437, "loss": 2.2591, "step": 4576 }, { "epoch": 0.10171111111111111, "grad_norm": 1.847129464149475, "learning_rate": 0.0001796977106023561, "loss": 2.4507, "step": 4577 }, { "epoch": 0.10173333333333333, "grad_norm": 1.155192494392395, "learning_rate": 0.00017969326517003779, "loss": 1.6717, "step": 4578 }, { "epoch": 0.10175555555555556, "grad_norm": 1.3489474058151245, "learning_rate": 0.0001796888197377195, "loss": 2.1401, "step": 4579 }, { "epoch": 0.10177777777777777, "grad_norm": 1.4400485754013062, "learning_rate": 0.0001796843743054012, "loss": 2.3982, "step": 4580 }, { "epoch": 0.1018, "grad_norm": 1.5399576425552368, "learning_rate": 0.00017967992887308291, "loss": 1.8028, "step": 4581 }, { "epoch": 0.10182222222222222, "grad_norm": 1.1433242559432983, "learning_rate": 0.00017967548344076462, "loss": 1.2652, "step": 4582 }, { "epoch": 0.10184444444444445, "grad_norm": 2.25974702835083, "learning_rate": 0.00017967103800844633, "loss": 2.0798, "step": 4583 }, { "epoch": 0.10186666666666666, "grad_norm": 1.5146572589874268, "learning_rate": 0.00017966659257612804, "loss": 2.4189, "step": 4584 }, { "epoch": 0.10188888888888889, "grad_norm": 1.6665347814559937, "learning_rate": 0.00017966214714380973, "loss": 2.0715, "step": 4585 }, { "epoch": 0.1019111111111111, "grad_norm": 1.384492039680481, "learning_rate": 0.00017965770171149146, "loss": 2.2461, "step": 4586 }, { "epoch": 0.10193333333333333, "grad_norm": 1.2817753553390503, "learning_rate": 0.00017965325627917314, "loss": 1.5799, "step": 4587 }, { "epoch": 0.10195555555555555, "grad_norm": 1.52030611038208, "learning_rate": 0.00017964881084685488, "loss": 1.8372, "step": 4588 }, { "epoch": 0.10197777777777778, "grad_norm": 1.7442991733551025, "learning_rate": 0.00017964436541453656, "loss": 2.2178, "step": 4589 }, { "epoch": 0.102, "grad_norm": 1.4898406267166138, "learning_rate": 0.00017963991998221827, "loss": 1.6938, "step": 4590 }, { "epoch": 0.10202222222222222, "grad_norm": 1.504529356956482, "learning_rate": 0.00017963547454989998, "loss": 2.1715, "step": 4591 }, { "epoch": 0.10204444444444444, "grad_norm": 1.3955018520355225, "learning_rate": 0.0001796310291175817, "loss": 2.1935, "step": 4592 }, { "epoch": 0.10206666666666667, "grad_norm": 1.2676892280578613, "learning_rate": 0.0001796265836852634, "loss": 1.7474, "step": 4593 }, { "epoch": 0.1020888888888889, "grad_norm": 1.3315775394439697, "learning_rate": 0.0001796221382529451, "loss": 1.4655, "step": 4594 }, { "epoch": 0.10211111111111111, "grad_norm": 1.4957044124603271, "learning_rate": 0.00017961769282062682, "loss": 2.2472, "step": 4595 }, { "epoch": 0.10213333333333334, "grad_norm": 1.4856873750686646, "learning_rate": 0.0001796132473883085, "loss": 1.8713, "step": 4596 }, { "epoch": 0.10215555555555556, "grad_norm": 1.355457067489624, "learning_rate": 0.00017960880195599024, "loss": 1.4948, "step": 4597 }, { "epoch": 0.10217777777777778, "grad_norm": 1.5222852230072021, "learning_rate": 0.00017960435652367192, "loss": 1.8607, "step": 4598 }, { "epoch": 0.1022, "grad_norm": 1.9654401540756226, "learning_rate": 0.00017959991109135363, "loss": 1.5605, "step": 4599 }, { "epoch": 0.10222222222222223, "grad_norm": 1.3997873067855835, "learning_rate": 0.00017959546565903534, "loss": 1.0984, "step": 4600 }, { "epoch": 0.10224444444444444, "grad_norm": 1.0412570238113403, "learning_rate": 0.00017959102022671705, "loss": 2.5375, "step": 4601 }, { "epoch": 0.10226666666666667, "grad_norm": 1.3185845613479614, "learning_rate": 0.00017958657479439876, "loss": 2.5337, "step": 4602 }, { "epoch": 0.10228888888888889, "grad_norm": 1.1858352422714233, "learning_rate": 0.00017958212936208047, "loss": 2.4824, "step": 4603 }, { "epoch": 0.10231111111111112, "grad_norm": 1.074351191520691, "learning_rate": 0.00017957768392976218, "loss": 2.2161, "step": 4604 }, { "epoch": 0.10233333333333333, "grad_norm": 1.1715136766433716, "learning_rate": 0.00017957323849744386, "loss": 2.0258, "step": 4605 }, { "epoch": 0.10235555555555556, "grad_norm": 1.1067131757736206, "learning_rate": 0.0001795687930651256, "loss": 1.9996, "step": 4606 }, { "epoch": 0.10237777777777778, "grad_norm": 1.2037277221679688, "learning_rate": 0.00017956434763280728, "loss": 2.2758, "step": 4607 }, { "epoch": 0.1024, "grad_norm": 1.1180009841918945, "learning_rate": 0.00017955990220048902, "loss": 2.0901, "step": 4608 }, { "epoch": 0.10242222222222222, "grad_norm": 1.1651686429977417, "learning_rate": 0.0001795554567681707, "loss": 2.1304, "step": 4609 }, { "epoch": 0.10244444444444445, "grad_norm": 1.2160648107528687, "learning_rate": 0.0001795510113358524, "loss": 2.4842, "step": 4610 }, { "epoch": 0.10246666666666666, "grad_norm": 1.2420545816421509, "learning_rate": 0.00017954656590353415, "loss": 2.6068, "step": 4611 }, { "epoch": 0.1024888888888889, "grad_norm": 1.2576555013656616, "learning_rate": 0.00017954212047121583, "loss": 2.4677, "step": 4612 }, { "epoch": 0.10251111111111111, "grad_norm": 1.2574868202209473, "learning_rate": 0.00017953767503889754, "loss": 2.0982, "step": 4613 }, { "epoch": 0.10253333333333334, "grad_norm": 1.2017476558685303, "learning_rate": 0.00017953322960657925, "loss": 1.8347, "step": 4614 }, { "epoch": 0.10255555555555555, "grad_norm": 1.086390733718872, "learning_rate": 0.00017952878417426096, "loss": 1.2219, "step": 4615 }, { "epoch": 0.10257777777777778, "grad_norm": 1.362026572227478, "learning_rate": 0.00017952433874194264, "loss": 2.381, "step": 4616 }, { "epoch": 0.1026, "grad_norm": 1.6786465644836426, "learning_rate": 0.00017951989330962438, "loss": 1.6736, "step": 4617 }, { "epoch": 0.10262222222222223, "grad_norm": 1.2606959342956543, "learning_rate": 0.0001795154478773061, "loss": 1.7454, "step": 4618 }, { "epoch": 0.10264444444444444, "grad_norm": 1.5881798267364502, "learning_rate": 0.00017951100244498777, "loss": 2.7024, "step": 4619 }, { "epoch": 0.10266666666666667, "grad_norm": 1.2433445453643799, "learning_rate": 0.0001795065570126695, "loss": 1.7929, "step": 4620 }, { "epoch": 0.10268888888888889, "grad_norm": 1.2029064893722534, "learning_rate": 0.0001795021115803512, "loss": 2.0105, "step": 4621 }, { "epoch": 0.10271111111111111, "grad_norm": 1.5071628093719482, "learning_rate": 0.0001794976661480329, "loss": 1.9158, "step": 4622 }, { "epoch": 0.10273333333333333, "grad_norm": 1.4113117456436157, "learning_rate": 0.0001794932207157146, "loss": 2.107, "step": 4623 }, { "epoch": 0.10275555555555556, "grad_norm": 1.5553901195526123, "learning_rate": 0.00017948877528339632, "loss": 2.4155, "step": 4624 }, { "epoch": 0.10277777777777777, "grad_norm": 1.2681584358215332, "learning_rate": 0.00017948432985107803, "loss": 1.8085, "step": 4625 }, { "epoch": 0.1028, "grad_norm": 1.3174275159835815, "learning_rate": 0.00017947988441875974, "loss": 1.8957, "step": 4626 }, { "epoch": 0.10282222222222222, "grad_norm": 1.2613061666488647, "learning_rate": 0.00017947543898644145, "loss": 1.9034, "step": 4627 }, { "epoch": 0.10284444444444445, "grad_norm": 1.515085220336914, "learning_rate": 0.00017947099355412316, "loss": 2.2849, "step": 4628 }, { "epoch": 0.10286666666666666, "grad_norm": 1.2645028829574585, "learning_rate": 0.00017946654812180487, "loss": 2.1126, "step": 4629 }, { "epoch": 0.10288888888888889, "grad_norm": 1.3133676052093506, "learning_rate": 0.00017946210268948655, "loss": 2.2592, "step": 4630 }, { "epoch": 0.1029111111111111, "grad_norm": 1.1684843301773071, "learning_rate": 0.0001794576572571683, "loss": 1.6911, "step": 4631 }, { "epoch": 0.10293333333333334, "grad_norm": 1.3858537673950195, "learning_rate": 0.00017945321182484997, "loss": 1.8967, "step": 4632 }, { "epoch": 0.10295555555555555, "grad_norm": 1.3120898008346558, "learning_rate": 0.00017944876639253168, "loss": 2.1183, "step": 4633 }, { "epoch": 0.10297777777777778, "grad_norm": 1.8002424240112305, "learning_rate": 0.0001794443209602134, "loss": 2.2696, "step": 4634 }, { "epoch": 0.103, "grad_norm": 1.4287925958633423, "learning_rate": 0.0001794398755278951, "loss": 1.817, "step": 4635 }, { "epoch": 0.10302222222222222, "grad_norm": 1.5401346683502197, "learning_rate": 0.0001794354300955768, "loss": 1.5767, "step": 4636 }, { "epoch": 0.10304444444444444, "grad_norm": 1.336228370666504, "learning_rate": 0.00017943098466325852, "loss": 1.9442, "step": 4637 }, { "epoch": 0.10306666666666667, "grad_norm": 1.4568718671798706, "learning_rate": 0.00017942653923094023, "loss": 1.9845, "step": 4638 }, { "epoch": 0.10308888888888888, "grad_norm": 1.5085418224334717, "learning_rate": 0.0001794220937986219, "loss": 1.4438, "step": 4639 }, { "epoch": 0.10311111111111111, "grad_norm": 1.366981029510498, "learning_rate": 0.00017941764836630365, "loss": 1.8725, "step": 4640 }, { "epoch": 0.10313333333333333, "grad_norm": 1.7619227170944214, "learning_rate": 0.00017941320293398533, "loss": 2.3364, "step": 4641 }, { "epoch": 0.10315555555555556, "grad_norm": 1.5690550804138184, "learning_rate": 0.00017940875750166704, "loss": 1.8431, "step": 4642 }, { "epoch": 0.10317777777777777, "grad_norm": 1.686866044998169, "learning_rate": 0.00017940431206934875, "loss": 2.4302, "step": 4643 }, { "epoch": 0.1032, "grad_norm": 1.7820451259613037, "learning_rate": 0.00017939986663703046, "loss": 2.4202, "step": 4644 }, { "epoch": 0.10322222222222223, "grad_norm": 1.4131567478179932, "learning_rate": 0.00017939542120471217, "loss": 1.7421, "step": 4645 }, { "epoch": 0.10324444444444444, "grad_norm": 1.5755765438079834, "learning_rate": 0.00017939097577239388, "loss": 2.2758, "step": 4646 }, { "epoch": 0.10326666666666667, "grad_norm": 1.1355630159378052, "learning_rate": 0.00017938653034007559, "loss": 1.7723, "step": 4647 }, { "epoch": 0.10328888888888889, "grad_norm": 1.059228777885437, "learning_rate": 0.0001793820849077573, "loss": 0.9362, "step": 4648 }, { "epoch": 0.10331111111111112, "grad_norm": 1.6165074110031128, "learning_rate": 0.000179377639475439, "loss": 2.4257, "step": 4649 }, { "epoch": 0.10333333333333333, "grad_norm": 1.3630965948104858, "learning_rate": 0.0001793731940431207, "loss": 1.037, "step": 4650 }, { "epoch": 0.10335555555555556, "grad_norm": 0.8397119045257568, "learning_rate": 0.00017936874861080242, "loss": 1.2374, "step": 4651 }, { "epoch": 0.10337777777777778, "grad_norm": 1.1855571269989014, "learning_rate": 0.0001793643031784841, "loss": 2.1357, "step": 4652 }, { "epoch": 0.1034, "grad_norm": 1.1406707763671875, "learning_rate": 0.00017935985774616582, "loss": 2.4501, "step": 4653 }, { "epoch": 0.10342222222222222, "grad_norm": 1.0034575462341309, "learning_rate": 0.00017935541231384753, "loss": 2.0184, "step": 4654 }, { "epoch": 0.10344444444444445, "grad_norm": 1.1791536808013916, "learning_rate": 0.00017935096688152924, "loss": 2.3305, "step": 4655 }, { "epoch": 0.10346666666666667, "grad_norm": 1.5166912078857422, "learning_rate": 0.00017934652144921095, "loss": 2.536, "step": 4656 }, { "epoch": 0.1034888888888889, "grad_norm": 1.3112488985061646, "learning_rate": 0.00017934207601689266, "loss": 2.4141, "step": 4657 }, { "epoch": 0.10351111111111111, "grad_norm": 1.2915891408920288, "learning_rate": 0.00017933763058457437, "loss": 2.1156, "step": 4658 }, { "epoch": 0.10353333333333334, "grad_norm": 1.3239997625350952, "learning_rate": 0.00017933318515225605, "loss": 2.5297, "step": 4659 }, { "epoch": 0.10355555555555555, "grad_norm": 1.2447015047073364, "learning_rate": 0.00017932873971993778, "loss": 2.1459, "step": 4660 }, { "epoch": 0.10357777777777778, "grad_norm": 1.2146960496902466, "learning_rate": 0.00017932429428761947, "loss": 2.5321, "step": 4661 }, { "epoch": 0.1036, "grad_norm": 1.3347951173782349, "learning_rate": 0.00017931984885530118, "loss": 2.353, "step": 4662 }, { "epoch": 0.10362222222222223, "grad_norm": 1.039957880973816, "learning_rate": 0.00017931540342298289, "loss": 1.7461, "step": 4663 }, { "epoch": 0.10364444444444444, "grad_norm": 1.240303874015808, "learning_rate": 0.0001793109579906646, "loss": 2.2365, "step": 4664 }, { "epoch": 0.10366666666666667, "grad_norm": 1.6558023691177368, "learning_rate": 0.0001793065125583463, "loss": 2.2952, "step": 4665 }, { "epoch": 0.10368888888888889, "grad_norm": 1.3637255430221558, "learning_rate": 0.00017930206712602801, "loss": 2.4326, "step": 4666 }, { "epoch": 0.10371111111111112, "grad_norm": 1.1824246644973755, "learning_rate": 0.00017929762169370972, "loss": 2.1414, "step": 4667 }, { "epoch": 0.10373333333333333, "grad_norm": 1.566886067390442, "learning_rate": 0.00017929317626139143, "loss": 1.8825, "step": 4668 }, { "epoch": 0.10375555555555556, "grad_norm": 1.238523244857788, "learning_rate": 0.00017928873082907314, "loss": 1.7236, "step": 4669 }, { "epoch": 0.10377777777777777, "grad_norm": 1.2555123567581177, "learning_rate": 0.00017928428539675483, "loss": 2.3086, "step": 4670 }, { "epoch": 0.1038, "grad_norm": 1.174302101135254, "learning_rate": 0.00017927983996443656, "loss": 1.5017, "step": 4671 }, { "epoch": 0.10382222222222222, "grad_norm": 1.2573962211608887, "learning_rate": 0.00017927539453211825, "loss": 2.0492, "step": 4672 }, { "epoch": 0.10384444444444445, "grad_norm": 1.6517279148101807, "learning_rate": 0.00017927094909979996, "loss": 2.3336, "step": 4673 }, { "epoch": 0.10386666666666666, "grad_norm": 1.2209466695785522, "learning_rate": 0.00017926650366748166, "loss": 1.7249, "step": 4674 }, { "epoch": 0.10388888888888889, "grad_norm": 1.1546794176101685, "learning_rate": 0.00017926205823516337, "loss": 1.6352, "step": 4675 }, { "epoch": 0.1039111111111111, "grad_norm": 1.363912582397461, "learning_rate": 0.00017925761280284508, "loss": 2.3831, "step": 4676 }, { "epoch": 0.10393333333333334, "grad_norm": 1.3337188959121704, "learning_rate": 0.0001792531673705268, "loss": 1.7637, "step": 4677 }, { "epoch": 0.10395555555555555, "grad_norm": 1.9137290716171265, "learning_rate": 0.0001792487219382085, "loss": 2.044, "step": 4678 }, { "epoch": 0.10397777777777778, "grad_norm": 1.146369218826294, "learning_rate": 0.00017924427650589019, "loss": 1.8023, "step": 4679 }, { "epoch": 0.104, "grad_norm": 1.2753961086273193, "learning_rate": 0.00017923983107357192, "loss": 2.0125, "step": 4680 }, { "epoch": 0.10402222222222222, "grad_norm": 1.3141913414001465, "learning_rate": 0.0001792353856412536, "loss": 2.3434, "step": 4681 }, { "epoch": 0.10404444444444444, "grad_norm": 1.7478870153427124, "learning_rate": 0.00017923094020893534, "loss": 1.908, "step": 4682 }, { "epoch": 0.10406666666666667, "grad_norm": 1.4790189266204834, "learning_rate": 0.00017922649477661702, "loss": 1.8963, "step": 4683 }, { "epoch": 0.10408888888888888, "grad_norm": 0.8964288830757141, "learning_rate": 0.00017922204934429873, "loss": 0.8126, "step": 4684 }, { "epoch": 0.10411111111111111, "grad_norm": 1.1856062412261963, "learning_rate": 0.00017921760391198047, "loss": 1.2994, "step": 4685 }, { "epoch": 0.10413333333333333, "grad_norm": 1.4017351865768433, "learning_rate": 0.00017921315847966215, "loss": 1.9044, "step": 4686 }, { "epoch": 0.10415555555555556, "grad_norm": 1.7440826892852783, "learning_rate": 0.00017920871304734386, "loss": 2.5096, "step": 4687 }, { "epoch": 0.10417777777777777, "grad_norm": 1.5403646230697632, "learning_rate": 0.00017920426761502557, "loss": 1.9192, "step": 4688 }, { "epoch": 0.1042, "grad_norm": 1.7913638353347778, "learning_rate": 0.00017919982218270728, "loss": 2.1075, "step": 4689 }, { "epoch": 0.10422222222222222, "grad_norm": 1.7125804424285889, "learning_rate": 0.00017919537675038896, "loss": 1.8505, "step": 4690 }, { "epoch": 0.10424444444444445, "grad_norm": 1.6220624446868896, "learning_rate": 0.0001791909313180707, "loss": 2.1024, "step": 4691 }, { "epoch": 0.10426666666666666, "grad_norm": 1.75843346118927, "learning_rate": 0.0001791864858857524, "loss": 2.3189, "step": 4692 }, { "epoch": 0.10428888888888889, "grad_norm": 1.722414493560791, "learning_rate": 0.0001791820404534341, "loss": 1.8609, "step": 4693 }, { "epoch": 0.1043111111111111, "grad_norm": 1.6046638488769531, "learning_rate": 0.00017917759502111583, "loss": 1.8687, "step": 4694 }, { "epoch": 0.10433333333333333, "grad_norm": 1.341619610786438, "learning_rate": 0.0001791731495887975, "loss": 1.9194, "step": 4695 }, { "epoch": 0.10435555555555555, "grad_norm": 1.5972071886062622, "learning_rate": 0.00017916870415647922, "loss": 2.2778, "step": 4696 }, { "epoch": 0.10437777777777778, "grad_norm": 1.3288145065307617, "learning_rate": 0.00017916425872416093, "loss": 1.6617, "step": 4697 }, { "epoch": 0.1044, "grad_norm": 1.6051876544952393, "learning_rate": 0.00017915981329184264, "loss": 1.8437, "step": 4698 }, { "epoch": 0.10442222222222222, "grad_norm": 1.7933837175369263, "learning_rate": 0.00017915536785952432, "loss": 1.95, "step": 4699 }, { "epoch": 0.10444444444444445, "grad_norm": 1.4337576627731323, "learning_rate": 0.00017915092242720606, "loss": 1.7093, "step": 4700 }, { "epoch": 0.10446666666666667, "grad_norm": 1.213118314743042, "learning_rate": 0.00017914647699488777, "loss": 2.6718, "step": 4701 }, { "epoch": 0.1044888888888889, "grad_norm": 1.1741292476654053, "learning_rate": 0.00017914203156256948, "loss": 2.4319, "step": 4702 }, { "epoch": 0.10451111111111111, "grad_norm": 1.1501327753067017, "learning_rate": 0.0001791375861302512, "loss": 2.3273, "step": 4703 }, { "epoch": 0.10453333333333334, "grad_norm": 1.2908824682235718, "learning_rate": 0.00017913314069793287, "loss": 2.25, "step": 4704 }, { "epoch": 0.10455555555555555, "grad_norm": 1.2125142812728882, "learning_rate": 0.0001791286952656146, "loss": 2.3531, "step": 4705 }, { "epoch": 0.10457777777777778, "grad_norm": 1.2105412483215332, "learning_rate": 0.0001791242498332963, "loss": 2.1998, "step": 4706 }, { "epoch": 0.1046, "grad_norm": 1.067679762840271, "learning_rate": 0.000179119804400978, "loss": 1.9206, "step": 4707 }, { "epoch": 0.10462222222222223, "grad_norm": 1.1268724203109741, "learning_rate": 0.0001791153589686597, "loss": 2.1677, "step": 4708 }, { "epoch": 0.10464444444444444, "grad_norm": 1.1919324398040771, "learning_rate": 0.00017911091353634142, "loss": 2.4894, "step": 4709 }, { "epoch": 0.10466666666666667, "grad_norm": 1.278702974319458, "learning_rate": 0.00017910646810402313, "loss": 0.8101, "step": 4710 }, { "epoch": 0.10468888888888889, "grad_norm": 1.2591575384140015, "learning_rate": 0.00017910202267170484, "loss": 2.6963, "step": 4711 }, { "epoch": 0.10471111111111112, "grad_norm": 1.5875438451766968, "learning_rate": 0.00017909757723938655, "loss": 2.4404, "step": 4712 }, { "epoch": 0.10473333333333333, "grad_norm": 1.4721304178237915, "learning_rate": 0.00017909313180706823, "loss": 2.2582, "step": 4713 }, { "epoch": 0.10475555555555556, "grad_norm": 1.1468361616134644, "learning_rate": 0.00017908868637474997, "loss": 1.5026, "step": 4714 }, { "epoch": 0.10477777777777778, "grad_norm": 1.3252166509628296, "learning_rate": 0.00017908424094243165, "loss": 2.0172, "step": 4715 }, { "epoch": 0.1048, "grad_norm": 1.3450089693069458, "learning_rate": 0.00017907979551011336, "loss": 2.2964, "step": 4716 }, { "epoch": 0.10482222222222222, "grad_norm": 1.4002469778060913, "learning_rate": 0.00017907535007779507, "loss": 2.3678, "step": 4717 }, { "epoch": 0.10484444444444445, "grad_norm": 1.2362087965011597, "learning_rate": 0.00017907090464547678, "loss": 1.9837, "step": 4718 }, { "epoch": 0.10486666666666666, "grad_norm": 1.0984290838241577, "learning_rate": 0.0001790664592131585, "loss": 1.7908, "step": 4719 }, { "epoch": 0.10488888888888889, "grad_norm": 1.2312449216842651, "learning_rate": 0.0001790620137808402, "loss": 2.3593, "step": 4720 }, { "epoch": 0.10491111111111111, "grad_norm": 1.186219334602356, "learning_rate": 0.0001790575683485219, "loss": 2.3052, "step": 4721 }, { "epoch": 0.10493333333333334, "grad_norm": 1.9416412115097046, "learning_rate": 0.00017905312291620362, "loss": 2.1005, "step": 4722 }, { "epoch": 0.10495555555555555, "grad_norm": 1.5877373218536377, "learning_rate": 0.00017904867748388533, "loss": 2.1296, "step": 4723 }, { "epoch": 0.10497777777777778, "grad_norm": 1.4939285516738892, "learning_rate": 0.000179044232051567, "loss": 2.2017, "step": 4724 }, { "epoch": 0.105, "grad_norm": 1.6222294569015503, "learning_rate": 0.00017903978661924875, "loss": 2.1711, "step": 4725 }, { "epoch": 0.10502222222222223, "grad_norm": 1.5012242794036865, "learning_rate": 0.00017903534118693043, "loss": 2.3452, "step": 4726 }, { "epoch": 0.10504444444444444, "grad_norm": 1.6099516153335571, "learning_rate": 0.00017903089575461214, "loss": 2.2325, "step": 4727 }, { "epoch": 0.10506666666666667, "grad_norm": 1.3687937259674072, "learning_rate": 0.00017902645032229385, "loss": 2.1793, "step": 4728 }, { "epoch": 0.10508888888888888, "grad_norm": 1.3842027187347412, "learning_rate": 0.00017902200488997556, "loss": 1.632, "step": 4729 }, { "epoch": 0.10511111111111111, "grad_norm": 1.439971923828125, "learning_rate": 0.00017901755945765727, "loss": 2.2228, "step": 4730 }, { "epoch": 0.10513333333333333, "grad_norm": 1.350061058998108, "learning_rate": 0.00017901311402533898, "loss": 1.861, "step": 4731 }, { "epoch": 0.10515555555555556, "grad_norm": 1.3200052976608276, "learning_rate": 0.0001790086685930207, "loss": 2.1378, "step": 4732 }, { "epoch": 0.10517777777777777, "grad_norm": 1.5480362176895142, "learning_rate": 0.00017900422316070237, "loss": 1.9267, "step": 4733 }, { "epoch": 0.1052, "grad_norm": 1.4195936918258667, "learning_rate": 0.0001789997777283841, "loss": 1.5747, "step": 4734 }, { "epoch": 0.10522222222222222, "grad_norm": 1.2044605016708374, "learning_rate": 0.0001789953322960658, "loss": 1.9024, "step": 4735 }, { "epoch": 0.10524444444444445, "grad_norm": 1.2100012302398682, "learning_rate": 0.0001789908868637475, "loss": 1.7301, "step": 4736 }, { "epoch": 0.10526666666666666, "grad_norm": 1.2560068368911743, "learning_rate": 0.0001789864414314292, "loss": 1.7934, "step": 4737 }, { "epoch": 0.10528888888888889, "grad_norm": 1.6757310628890991, "learning_rate": 0.00017898199599911092, "loss": 2.1064, "step": 4738 }, { "epoch": 0.1053111111111111, "grad_norm": 1.3027863502502441, "learning_rate": 0.00017897755056679263, "loss": 1.7545, "step": 4739 }, { "epoch": 0.10533333333333333, "grad_norm": 1.9690635204315186, "learning_rate": 0.00017897310513447434, "loss": 1.8703, "step": 4740 }, { "epoch": 0.10535555555555555, "grad_norm": 1.5110101699829102, "learning_rate": 0.00017896865970215605, "loss": 1.8594, "step": 4741 }, { "epoch": 0.10537777777777778, "grad_norm": 1.3774563074111938, "learning_rate": 0.00017896421426983776, "loss": 1.9482, "step": 4742 }, { "epoch": 0.1054, "grad_norm": 1.1434893608093262, "learning_rate": 0.00017895976883751947, "loss": 1.4703, "step": 4743 }, { "epoch": 0.10542222222222222, "grad_norm": 1.6772842407226562, "learning_rate": 0.00017895532340520115, "loss": 2.4015, "step": 4744 }, { "epoch": 0.10544444444444444, "grad_norm": 1.4966915845870972, "learning_rate": 0.00017895087797288289, "loss": 2.1092, "step": 4745 }, { "epoch": 0.10546666666666667, "grad_norm": 1.4620712995529175, "learning_rate": 0.00017894643254056457, "loss": 1.8991, "step": 4746 }, { "epoch": 0.10548888888888888, "grad_norm": 1.4245212078094482, "learning_rate": 0.00017894198710824628, "loss": 1.6592, "step": 4747 }, { "epoch": 0.10551111111111111, "grad_norm": 1.5226815938949585, "learning_rate": 0.000178937541675928, "loss": 1.7001, "step": 4748 }, { "epoch": 0.10553333333333334, "grad_norm": 1.407592535018921, "learning_rate": 0.0001789330962436097, "loss": 1.525, "step": 4749 }, { "epoch": 0.10555555555555556, "grad_norm": 1.8174995183944702, "learning_rate": 0.0001789286508112914, "loss": 1.8836, "step": 4750 }, { "epoch": 0.10557777777777778, "grad_norm": 1.2203701734542847, "learning_rate": 0.00017892420537897312, "loss": 2.3811, "step": 4751 }, { "epoch": 0.1056, "grad_norm": 1.1053575277328491, "learning_rate": 0.00017891975994665483, "loss": 2.0804, "step": 4752 }, { "epoch": 0.10562222222222223, "grad_norm": 1.281872034072876, "learning_rate": 0.0001789153145143365, "loss": 2.5541, "step": 4753 }, { "epoch": 0.10564444444444444, "grad_norm": 1.1466424465179443, "learning_rate": 0.00017891086908201824, "loss": 2.3009, "step": 4754 }, { "epoch": 0.10566666666666667, "grad_norm": 2.035588502883911, "learning_rate": 0.00017890642364969993, "loss": 2.1204, "step": 4755 }, { "epoch": 0.10568888888888889, "grad_norm": 1.331515908241272, "learning_rate": 0.00017890197821738164, "loss": 2.4788, "step": 4756 }, { "epoch": 0.10571111111111112, "grad_norm": 1.2990413904190063, "learning_rate": 0.00017889753278506335, "loss": 2.3972, "step": 4757 }, { "epoch": 0.10573333333333333, "grad_norm": 1.1266638040542603, "learning_rate": 0.00017889308735274506, "loss": 2.3233, "step": 4758 }, { "epoch": 0.10575555555555556, "grad_norm": 1.1677242517471313, "learning_rate": 0.0001788886419204268, "loss": 1.0468, "step": 4759 }, { "epoch": 0.10577777777777778, "grad_norm": 1.148490071296692, "learning_rate": 0.00017888419648810848, "loss": 2.4618, "step": 4760 }, { "epoch": 0.1058, "grad_norm": 1.2375208139419556, "learning_rate": 0.00017887975105579018, "loss": 2.0278, "step": 4761 }, { "epoch": 0.10582222222222222, "grad_norm": 1.6354830265045166, "learning_rate": 0.0001788753056234719, "loss": 3.0135, "step": 4762 }, { "epoch": 0.10584444444444445, "grad_norm": 1.2000577449798584, "learning_rate": 0.0001788708601911536, "loss": 1.9629, "step": 4763 }, { "epoch": 0.10586666666666666, "grad_norm": 1.2368160486221313, "learning_rate": 0.0001788664147588353, "loss": 2.2188, "step": 4764 }, { "epoch": 0.1058888888888889, "grad_norm": 1.275530219078064, "learning_rate": 0.00017886196932651702, "loss": 1.9226, "step": 4765 }, { "epoch": 0.10591111111111111, "grad_norm": 1.4124844074249268, "learning_rate": 0.00017885752389419873, "loss": 1.7367, "step": 4766 }, { "epoch": 0.10593333333333334, "grad_norm": 1.3520641326904297, "learning_rate": 0.00017885307846188042, "loss": 1.6431, "step": 4767 }, { "epoch": 0.10595555555555555, "grad_norm": 1.2531776428222656, "learning_rate": 0.00017884863302956215, "loss": 1.7625, "step": 4768 }, { "epoch": 0.10597777777777778, "grad_norm": 1.1857998371124268, "learning_rate": 0.00017884418759724383, "loss": 1.8581, "step": 4769 }, { "epoch": 0.106, "grad_norm": 1.1404083967208862, "learning_rate": 0.00017883974216492554, "loss": 1.9312, "step": 4770 }, { "epoch": 0.10602222222222223, "grad_norm": 1.3994954824447632, "learning_rate": 0.00017883529673260725, "loss": 2.177, "step": 4771 }, { "epoch": 0.10604444444444444, "grad_norm": 1.3618932962417603, "learning_rate": 0.00017883085130028896, "loss": 1.8714, "step": 4772 }, { "epoch": 0.10606666666666667, "grad_norm": 1.509718656539917, "learning_rate": 0.00017882640586797065, "loss": 2.6175, "step": 4773 }, { "epoch": 0.10608888888888889, "grad_norm": 1.5017961263656616, "learning_rate": 0.00017882196043565238, "loss": 1.9237, "step": 4774 }, { "epoch": 0.10611111111111111, "grad_norm": 1.3233697414398193, "learning_rate": 0.0001788175150033341, "loss": 2.0806, "step": 4775 }, { "epoch": 0.10613333333333333, "grad_norm": 1.19089674949646, "learning_rate": 0.00017881306957101577, "loss": 1.3739, "step": 4776 }, { "epoch": 0.10615555555555556, "grad_norm": 1.4545414447784424, "learning_rate": 0.0001788086241386975, "loss": 2.0857, "step": 4777 }, { "epoch": 0.10617777777777777, "grad_norm": 1.4069355726242065, "learning_rate": 0.0001788041787063792, "loss": 1.9801, "step": 4778 }, { "epoch": 0.1062, "grad_norm": 1.385577917098999, "learning_rate": 0.00017879973327406093, "loss": 1.9267, "step": 4779 }, { "epoch": 0.10622222222222222, "grad_norm": 1.0476232767105103, "learning_rate": 0.0001787952878417426, "loss": 1.1107, "step": 4780 }, { "epoch": 0.10624444444444445, "grad_norm": 1.624247670173645, "learning_rate": 0.00017879084240942432, "loss": 1.8352, "step": 4781 }, { "epoch": 0.10626666666666666, "grad_norm": 1.4389219284057617, "learning_rate": 0.00017878639697710603, "loss": 2.073, "step": 4782 }, { "epoch": 0.10628888888888889, "grad_norm": 1.6805499792099, "learning_rate": 0.00017878195154478774, "loss": 1.6638, "step": 4783 }, { "epoch": 0.1063111111111111, "grad_norm": 1.327546238899231, "learning_rate": 0.00017877750611246945, "loss": 1.851, "step": 4784 }, { "epoch": 0.10633333333333334, "grad_norm": 1.2685459852218628, "learning_rate": 0.00017877306068015116, "loss": 1.7745, "step": 4785 }, { "epoch": 0.10635555555555555, "grad_norm": 1.380784034729004, "learning_rate": 0.00017876861524783287, "loss": 1.9107, "step": 4786 }, { "epoch": 0.10637777777777778, "grad_norm": 1.4243820905685425, "learning_rate": 0.00017876416981551455, "loss": 1.5676, "step": 4787 }, { "epoch": 0.1064, "grad_norm": 1.5323160886764526, "learning_rate": 0.0001787597243831963, "loss": 2.1893, "step": 4788 }, { "epoch": 0.10642222222222222, "grad_norm": 1.447121500968933, "learning_rate": 0.00017875527895087797, "loss": 2.2089, "step": 4789 }, { "epoch": 0.10644444444444444, "grad_norm": 1.1103867292404175, "learning_rate": 0.00017875083351855968, "loss": 1.6697, "step": 4790 }, { "epoch": 0.10646666666666667, "grad_norm": 1.676403522491455, "learning_rate": 0.0001787463880862414, "loss": 1.8635, "step": 4791 }, { "epoch": 0.10648888888888888, "grad_norm": 1.495719075202942, "learning_rate": 0.0001787419426539231, "loss": 2.0954, "step": 4792 }, { "epoch": 0.10651111111111111, "grad_norm": 1.6013007164001465, "learning_rate": 0.0001787374972216048, "loss": 1.8357, "step": 4793 }, { "epoch": 0.10653333333333333, "grad_norm": 1.310623049736023, "learning_rate": 0.00017873305178928652, "loss": 1.3455, "step": 4794 }, { "epoch": 0.10655555555555556, "grad_norm": 1.3772886991500854, "learning_rate": 0.00017872860635696823, "loss": 1.5966, "step": 4795 }, { "epoch": 0.10657777777777777, "grad_norm": 1.4872381687164307, "learning_rate": 0.00017872416092464994, "loss": 1.9453, "step": 4796 }, { "epoch": 0.1066, "grad_norm": 1.821520209312439, "learning_rate": 0.00017871971549233165, "loss": 2.0848, "step": 4797 }, { "epoch": 0.10662222222222222, "grad_norm": 1.5731239318847656, "learning_rate": 0.00017871527006001333, "loss": 1.3454, "step": 4798 }, { "epoch": 0.10664444444444444, "grad_norm": 1.2627689838409424, "learning_rate": 0.00017871082462769507, "loss": 0.9885, "step": 4799 }, { "epoch": 0.10666666666666667, "grad_norm": 1.0051491260528564, "learning_rate": 0.00017870637919537675, "loss": 0.7215, "step": 4800 }, { "epoch": 0.10668888888888889, "grad_norm": 1.0902740955352783, "learning_rate": 0.00017870193376305846, "loss": 2.5814, "step": 4801 }, { "epoch": 0.10671111111111112, "grad_norm": 1.281722903251648, "learning_rate": 0.00017869748833074017, "loss": 2.689, "step": 4802 }, { "epoch": 0.10673333333333333, "grad_norm": 0.7057554721832275, "learning_rate": 0.00017869304289842188, "loss": 0.9449, "step": 4803 }, { "epoch": 0.10675555555555556, "grad_norm": 1.2787814140319824, "learning_rate": 0.0001786885974661036, "loss": 1.2284, "step": 4804 }, { "epoch": 0.10677777777777778, "grad_norm": 1.2882000207901, "learning_rate": 0.0001786841520337853, "loss": 1.8383, "step": 4805 }, { "epoch": 0.1068, "grad_norm": 1.1241916418075562, "learning_rate": 0.000178679706601467, "loss": 2.1864, "step": 4806 }, { "epoch": 0.10682222222222222, "grad_norm": 1.198936939239502, "learning_rate": 0.0001786752611691487, "loss": 2.4488, "step": 4807 }, { "epoch": 0.10684444444444445, "grad_norm": 1.236473560333252, "learning_rate": 0.00017867081573683043, "loss": 2.0607, "step": 4808 }, { "epoch": 0.10686666666666667, "grad_norm": 1.1822491884231567, "learning_rate": 0.0001786663703045121, "loss": 1.833, "step": 4809 }, { "epoch": 0.1068888888888889, "grad_norm": 1.7205073833465576, "learning_rate": 0.00017866192487219382, "loss": 2.3711, "step": 4810 }, { "epoch": 0.10691111111111111, "grad_norm": 1.1875735521316528, "learning_rate": 0.00017865747943987553, "loss": 1.7567, "step": 4811 }, { "epoch": 0.10693333333333334, "grad_norm": 1.2851990461349487, "learning_rate": 0.00017865303400755724, "loss": 2.2358, "step": 4812 }, { "epoch": 0.10695555555555555, "grad_norm": 0.8558325171470642, "learning_rate": 0.00017864858857523895, "loss": 1.0373, "step": 4813 }, { "epoch": 0.10697777777777778, "grad_norm": 1.146108627319336, "learning_rate": 0.00017864414314292066, "loss": 1.6266, "step": 4814 }, { "epoch": 0.107, "grad_norm": 1.458898901939392, "learning_rate": 0.00017863969771060237, "loss": 1.9737, "step": 4815 }, { "epoch": 0.10702222222222223, "grad_norm": 1.3957576751708984, "learning_rate": 0.00017863525227828408, "loss": 2.3041, "step": 4816 }, { "epoch": 0.10704444444444444, "grad_norm": 1.4162242412567139, "learning_rate": 0.0001786308068459658, "loss": 1.5047, "step": 4817 }, { "epoch": 0.10706666666666667, "grad_norm": 1.3430386781692505, "learning_rate": 0.00017862636141364747, "loss": 1.7485, "step": 4818 }, { "epoch": 0.10708888888888889, "grad_norm": 1.3710466623306274, "learning_rate": 0.0001786219159813292, "loss": 2.2305, "step": 4819 }, { "epoch": 0.10711111111111112, "grad_norm": 1.6137245893478394, "learning_rate": 0.0001786174705490109, "loss": 1.8626, "step": 4820 }, { "epoch": 0.10713333333333333, "grad_norm": 1.2521051168441772, "learning_rate": 0.0001786130251166926, "loss": 1.6502, "step": 4821 }, { "epoch": 0.10715555555555556, "grad_norm": 1.2675551176071167, "learning_rate": 0.0001786085796843743, "loss": 1.9744, "step": 4822 }, { "epoch": 0.10717777777777777, "grad_norm": 1.7004122734069824, "learning_rate": 0.00017860413425205602, "loss": 2.2287, "step": 4823 }, { "epoch": 0.1072, "grad_norm": 1.5085628032684326, "learning_rate": 0.00017859968881973773, "loss": 1.9892, "step": 4824 }, { "epoch": 0.10722222222222222, "grad_norm": 1.344618320465088, "learning_rate": 0.00017859524338741944, "loss": 1.7773, "step": 4825 }, { "epoch": 0.10724444444444445, "grad_norm": 1.485036015510559, "learning_rate": 0.00017859079795510115, "loss": 2.3897, "step": 4826 }, { "epoch": 0.10726666666666666, "grad_norm": 1.508232593536377, "learning_rate": 0.00017858635252278283, "loss": 2.5241, "step": 4827 }, { "epoch": 0.10728888888888889, "grad_norm": 1.3245428800582886, "learning_rate": 0.00017858190709046457, "loss": 1.5729, "step": 4828 }, { "epoch": 0.10731111111111111, "grad_norm": 1.2436652183532715, "learning_rate": 0.00017857746165814625, "loss": 1.8424, "step": 4829 }, { "epoch": 0.10733333333333334, "grad_norm": 1.1924527883529663, "learning_rate": 0.00017857301622582796, "loss": 1.5195, "step": 4830 }, { "epoch": 0.10735555555555555, "grad_norm": 1.6256686449050903, "learning_rate": 0.00017856857079350967, "loss": 2.0897, "step": 4831 }, { "epoch": 0.10737777777777778, "grad_norm": 1.4407004117965698, "learning_rate": 0.00017856412536119138, "loss": 1.9401, "step": 4832 }, { "epoch": 0.1074, "grad_norm": 1.6473324298858643, "learning_rate": 0.0001785596799288731, "loss": 1.8209, "step": 4833 }, { "epoch": 0.10742222222222222, "grad_norm": 1.5636391639709473, "learning_rate": 0.0001785552344965548, "loss": 1.8687, "step": 4834 }, { "epoch": 0.10744444444444444, "grad_norm": 1.5384244918823242, "learning_rate": 0.0001785507890642365, "loss": 1.8711, "step": 4835 }, { "epoch": 0.10746666666666667, "grad_norm": 1.4427685737609863, "learning_rate": 0.00017854634363191822, "loss": 1.6654, "step": 4836 }, { "epoch": 0.10748888888888888, "grad_norm": 1.6583229303359985, "learning_rate": 0.00017854189819959993, "loss": 1.801, "step": 4837 }, { "epoch": 0.10751111111111111, "grad_norm": 1.4824061393737793, "learning_rate": 0.0001785374527672816, "loss": 2.0656, "step": 4838 }, { "epoch": 0.10753333333333333, "grad_norm": 1.9851138591766357, "learning_rate": 0.00017853300733496335, "loss": 2.6776, "step": 4839 }, { "epoch": 0.10755555555555556, "grad_norm": 1.6271814107894897, "learning_rate": 0.00017852856190264505, "loss": 1.5037, "step": 4840 }, { "epoch": 0.10757777777777777, "grad_norm": 1.7235820293426514, "learning_rate": 0.00017852411647032674, "loss": 2.0508, "step": 4841 }, { "epoch": 0.1076, "grad_norm": 1.6878529787063599, "learning_rate": 0.00017851967103800847, "loss": 1.9263, "step": 4842 }, { "epoch": 0.10762222222222222, "grad_norm": 1.3455007076263428, "learning_rate": 0.00017851522560569016, "loss": 1.8635, "step": 4843 }, { "epoch": 0.10764444444444445, "grad_norm": 1.4259041547775269, "learning_rate": 0.00017851078017337187, "loss": 1.5115, "step": 4844 }, { "epoch": 0.10766666666666666, "grad_norm": 1.975699543952942, "learning_rate": 0.00017850633474105358, "loss": 2.2073, "step": 4845 }, { "epoch": 0.10768888888888889, "grad_norm": 1.9313888549804688, "learning_rate": 0.00017850188930873529, "loss": 1.9747, "step": 4846 }, { "epoch": 0.1077111111111111, "grad_norm": 1.72438645362854, "learning_rate": 0.00017849744387641697, "loss": 2.3328, "step": 4847 }, { "epoch": 0.10773333333333333, "grad_norm": 1.9362549781799316, "learning_rate": 0.0001784929984440987, "loss": 2.2887, "step": 4848 }, { "epoch": 0.10775555555555555, "grad_norm": 1.6018445491790771, "learning_rate": 0.00017848855301178041, "loss": 1.5289, "step": 4849 }, { "epoch": 0.10777777777777778, "grad_norm": 1.141117811203003, "learning_rate": 0.0001784841075794621, "loss": 0.7504, "step": 4850 }, { "epoch": 0.1078, "grad_norm": 1.1608731746673584, "learning_rate": 0.00017847966214714383, "loss": 1.8391, "step": 4851 }, { "epoch": 0.10782222222222222, "grad_norm": 0.7492461204528809, "learning_rate": 0.00017847521671482552, "loss": 1.148, "step": 4852 }, { "epoch": 0.10784444444444445, "grad_norm": 1.2936536073684692, "learning_rate": 0.00017847077128250725, "loss": 2.5965, "step": 4853 }, { "epoch": 0.10786666666666667, "grad_norm": 1.4905349016189575, "learning_rate": 0.00017846632585018894, "loss": 2.1515, "step": 4854 }, { "epoch": 0.1078888888888889, "grad_norm": 1.23819899559021, "learning_rate": 0.00017846188041787065, "loss": 2.2115, "step": 4855 }, { "epoch": 0.10791111111111111, "grad_norm": 1.4479632377624512, "learning_rate": 0.00017845743498555235, "loss": 2.641, "step": 4856 }, { "epoch": 0.10793333333333334, "grad_norm": 1.1513296365737915, "learning_rate": 0.00017845298955323406, "loss": 2.1495, "step": 4857 }, { "epoch": 0.10795555555555555, "grad_norm": 1.3184159994125366, "learning_rate": 0.00017844854412091577, "loss": 2.0914, "step": 4858 }, { "epoch": 0.10797777777777778, "grad_norm": 1.2866036891937256, "learning_rate": 0.00017844409868859748, "loss": 1.5749, "step": 4859 }, { "epoch": 0.108, "grad_norm": 1.1014026403427124, "learning_rate": 0.0001784396532562792, "loss": 2.0802, "step": 4860 }, { "epoch": 0.10802222222222223, "grad_norm": 1.5733935832977295, "learning_rate": 0.00017843520782396088, "loss": 2.6836, "step": 4861 }, { "epoch": 0.10804444444444444, "grad_norm": 1.2848235368728638, "learning_rate": 0.0001784307623916426, "loss": 2.3255, "step": 4862 }, { "epoch": 0.10806666666666667, "grad_norm": 1.2833555936813354, "learning_rate": 0.0001784263169593243, "loss": 0.9655, "step": 4863 }, { "epoch": 0.10808888888888889, "grad_norm": 1.536370873451233, "learning_rate": 0.000178421871527006, "loss": 1.7931, "step": 4864 }, { "epoch": 0.10811111111111112, "grad_norm": 1.3962472677230835, "learning_rate": 0.00017841742609468771, "loss": 2.1334, "step": 4865 }, { "epoch": 0.10813333333333333, "grad_norm": 1.568142294883728, "learning_rate": 0.00017841298066236942, "loss": 2.354, "step": 4866 }, { "epoch": 0.10815555555555556, "grad_norm": 1.3509085178375244, "learning_rate": 0.00017840853523005113, "loss": 2.1654, "step": 4867 }, { "epoch": 0.10817777777777778, "grad_norm": 1.3805365562438965, "learning_rate": 0.00017840408979773284, "loss": 2.1351, "step": 4868 }, { "epoch": 0.1082, "grad_norm": 1.3206920623779297, "learning_rate": 0.00017839964436541455, "loss": 1.9483, "step": 4869 }, { "epoch": 0.10822222222222222, "grad_norm": 1.3076742887496948, "learning_rate": 0.00017839519893309624, "loss": 1.877, "step": 4870 }, { "epoch": 0.10824444444444445, "grad_norm": 1.265954613685608, "learning_rate": 0.00017839075350077797, "loss": 1.9334, "step": 4871 }, { "epoch": 0.10826666666666666, "grad_norm": 1.1229366064071655, "learning_rate": 0.00017838630806845965, "loss": 2.0534, "step": 4872 }, { "epoch": 0.10828888888888889, "grad_norm": 1.210316777229309, "learning_rate": 0.0001783818626361414, "loss": 1.5617, "step": 4873 }, { "epoch": 0.10831111111111111, "grad_norm": 1.445582389831543, "learning_rate": 0.00017837741720382307, "loss": 2.0075, "step": 4874 }, { "epoch": 0.10833333333333334, "grad_norm": 1.116840124130249, "learning_rate": 0.00017837297177150478, "loss": 1.5076, "step": 4875 }, { "epoch": 0.10835555555555555, "grad_norm": 1.5497595071792603, "learning_rate": 0.0001783685263391865, "loss": 1.759, "step": 4876 }, { "epoch": 0.10837777777777778, "grad_norm": 1.470854640007019, "learning_rate": 0.0001783640809068682, "loss": 1.9371, "step": 4877 }, { "epoch": 0.1084, "grad_norm": 1.361628532409668, "learning_rate": 0.0001783596354745499, "loss": 1.9077, "step": 4878 }, { "epoch": 0.10842222222222223, "grad_norm": 1.4020766019821167, "learning_rate": 0.00017835519004223162, "loss": 2.2299, "step": 4879 }, { "epoch": 0.10844444444444444, "grad_norm": 1.097943902015686, "learning_rate": 0.00017835074460991333, "loss": 0.7599, "step": 4880 }, { "epoch": 0.10846666666666667, "grad_norm": 1.819696307182312, "learning_rate": 0.00017834629917759501, "loss": 1.8885, "step": 4881 }, { "epoch": 0.10848888888888888, "grad_norm": 1.4998507499694824, "learning_rate": 0.00017834185374527675, "loss": 2.2118, "step": 4882 }, { "epoch": 0.10851111111111111, "grad_norm": 1.3697640895843506, "learning_rate": 0.00017833740831295843, "loss": 1.6194, "step": 4883 }, { "epoch": 0.10853333333333333, "grad_norm": 1.3775430917739868, "learning_rate": 0.00017833296288064014, "loss": 1.9667, "step": 4884 }, { "epoch": 0.10855555555555556, "grad_norm": 1.5209304094314575, "learning_rate": 0.00017832851744832185, "loss": 2.084, "step": 4885 }, { "epoch": 0.10857777777777777, "grad_norm": 1.9952448606491089, "learning_rate": 0.00017832407201600356, "loss": 1.863, "step": 4886 }, { "epoch": 0.1086, "grad_norm": 1.7274080514907837, "learning_rate": 0.00017831962658368527, "loss": 2.3409, "step": 4887 }, { "epoch": 0.10862222222222222, "grad_norm": 1.2222557067871094, "learning_rate": 0.00017831518115136698, "loss": 0.8603, "step": 4888 }, { "epoch": 0.10864444444444445, "grad_norm": 1.3831441402435303, "learning_rate": 0.0001783107357190487, "loss": 2.0508, "step": 4889 }, { "epoch": 0.10866666666666666, "grad_norm": 1.679049015045166, "learning_rate": 0.0001783062902867304, "loss": 1.7804, "step": 4890 }, { "epoch": 0.10868888888888889, "grad_norm": 1.5535331964492798, "learning_rate": 0.0001783018448544121, "loss": 2.0566, "step": 4891 }, { "epoch": 0.1087111111111111, "grad_norm": 1.339060664176941, "learning_rate": 0.0001782973994220938, "loss": 1.3368, "step": 4892 }, { "epoch": 0.10873333333333333, "grad_norm": 1.4295165538787842, "learning_rate": 0.00017829295398977553, "loss": 1.6355, "step": 4893 }, { "epoch": 0.10875555555555555, "grad_norm": 1.288623332977295, "learning_rate": 0.0001782885085574572, "loss": 1.6462, "step": 4894 }, { "epoch": 0.10877777777777778, "grad_norm": 1.2904632091522217, "learning_rate": 0.00017828406312513892, "loss": 1.8499, "step": 4895 }, { "epoch": 0.1088, "grad_norm": 1.1083375215530396, "learning_rate": 0.00017827961769282063, "loss": 1.0046, "step": 4896 }, { "epoch": 0.10882222222222222, "grad_norm": 1.6553095579147339, "learning_rate": 0.00017827517226050234, "loss": 2.0296, "step": 4897 }, { "epoch": 0.10884444444444444, "grad_norm": 1.8628255128860474, "learning_rate": 0.00017827072682818405, "loss": 2.0301, "step": 4898 }, { "epoch": 0.10886666666666667, "grad_norm": 1.0950030088424683, "learning_rate": 0.00017826628139586576, "loss": 0.9646, "step": 4899 }, { "epoch": 0.10888888888888888, "grad_norm": 1.362380027770996, "learning_rate": 0.00017826183596354747, "loss": 0.9393, "step": 4900 }, { "epoch": 0.10891111111111111, "grad_norm": 1.2046605348587036, "learning_rate": 0.00017825739053122915, "loss": 2.5841, "step": 4901 }, { "epoch": 0.10893333333333333, "grad_norm": 1.240393877029419, "learning_rate": 0.0001782529450989109, "loss": 2.2994, "step": 4902 }, { "epoch": 0.10895555555555556, "grad_norm": 1.2417223453521729, "learning_rate": 0.00017824849966659257, "loss": 2.3333, "step": 4903 }, { "epoch": 0.10897777777777778, "grad_norm": 1.2935045957565308, "learning_rate": 0.00017824405423427428, "loss": 2.4592, "step": 4904 }, { "epoch": 0.109, "grad_norm": 1.198891520500183, "learning_rate": 0.000178239608801956, "loss": 2.2766, "step": 4905 }, { "epoch": 0.10902222222222223, "grad_norm": 1.267836570739746, "learning_rate": 0.0001782351633696377, "loss": 2.327, "step": 4906 }, { "epoch": 0.10904444444444444, "grad_norm": 1.1461093425750732, "learning_rate": 0.0001782307179373194, "loss": 2.1304, "step": 4907 }, { "epoch": 0.10906666666666667, "grad_norm": 1.1516743898391724, "learning_rate": 0.00017822627250500112, "loss": 1.8076, "step": 4908 }, { "epoch": 0.10908888888888889, "grad_norm": 1.1365642547607422, "learning_rate": 0.00017822182707268283, "loss": 1.9656, "step": 4909 }, { "epoch": 0.10911111111111112, "grad_norm": 1.3225398063659668, "learning_rate": 0.00017821738164036454, "loss": 2.2263, "step": 4910 }, { "epoch": 0.10913333333333333, "grad_norm": 1.1225049495697021, "learning_rate": 0.00017821293620804625, "loss": 2.1251, "step": 4911 }, { "epoch": 0.10915555555555556, "grad_norm": 1.3000221252441406, "learning_rate": 0.00017820849077572793, "loss": 1.6102, "step": 4912 }, { "epoch": 0.10917777777777778, "grad_norm": 1.3952467441558838, "learning_rate": 0.00017820404534340967, "loss": 2.2641, "step": 4913 }, { "epoch": 0.1092, "grad_norm": 1.2409698963165283, "learning_rate": 0.00017819959991109138, "loss": 2.2962, "step": 4914 }, { "epoch": 0.10922222222222222, "grad_norm": 1.2674980163574219, "learning_rate": 0.00017819515447877306, "loss": 2.182, "step": 4915 }, { "epoch": 0.10924444444444445, "grad_norm": 1.1855359077453613, "learning_rate": 0.0001781907090464548, "loss": 2.0495, "step": 4916 }, { "epoch": 0.10926666666666666, "grad_norm": 1.5238451957702637, "learning_rate": 0.00017818626361413648, "loss": 2.3102, "step": 4917 }, { "epoch": 0.1092888888888889, "grad_norm": 1.4892759323120117, "learning_rate": 0.0001781818181818182, "loss": 2.2334, "step": 4918 }, { "epoch": 0.10931111111111111, "grad_norm": 1.322411298751831, "learning_rate": 0.0001781773727494999, "loss": 1.8538, "step": 4919 }, { "epoch": 0.10933333333333334, "grad_norm": 1.4651658535003662, "learning_rate": 0.0001781729273171816, "loss": 2.2097, "step": 4920 }, { "epoch": 0.10935555555555555, "grad_norm": 1.3706555366516113, "learning_rate": 0.0001781684818848633, "loss": 2.2071, "step": 4921 }, { "epoch": 0.10937777777777778, "grad_norm": 1.6024689674377441, "learning_rate": 0.00017816403645254503, "loss": 2.5414, "step": 4922 }, { "epoch": 0.1094, "grad_norm": 1.3139142990112305, "learning_rate": 0.00017815959102022674, "loss": 1.8648, "step": 4923 }, { "epoch": 0.10942222222222223, "grad_norm": 1.3900974988937378, "learning_rate": 0.00017815514558790842, "loss": 2.267, "step": 4924 }, { "epoch": 0.10944444444444444, "grad_norm": 1.4711378812789917, "learning_rate": 0.00017815070015559016, "loss": 2.6183, "step": 4925 }, { "epoch": 0.10946666666666667, "grad_norm": 1.3628692626953125, "learning_rate": 0.00017814625472327184, "loss": 2.119, "step": 4926 }, { "epoch": 0.10948888888888889, "grad_norm": 1.5487639904022217, "learning_rate": 0.00017814180929095355, "loss": 1.9755, "step": 4927 }, { "epoch": 0.10951111111111111, "grad_norm": 1.4975794553756714, "learning_rate": 0.00017813736385863526, "loss": 1.8296, "step": 4928 }, { "epoch": 0.10953333333333333, "grad_norm": 1.407785177230835, "learning_rate": 0.00017813291842631697, "loss": 1.9145, "step": 4929 }, { "epoch": 0.10955555555555556, "grad_norm": 1.6278789043426514, "learning_rate": 0.00017812847299399868, "loss": 2.4235, "step": 4930 }, { "epoch": 0.10957777777777777, "grad_norm": 0.8241516351699829, "learning_rate": 0.00017812402756168039, "loss": 0.8306, "step": 4931 }, { "epoch": 0.1096, "grad_norm": 0.8477980494499207, "learning_rate": 0.0001781195821293621, "loss": 1.043, "step": 4932 }, { "epoch": 0.10962222222222222, "grad_norm": 1.435505986213684, "learning_rate": 0.0001781151366970438, "loss": 1.9168, "step": 4933 }, { "epoch": 0.10964444444444445, "grad_norm": 1.3857914209365845, "learning_rate": 0.00017811069126472552, "loss": 1.8039, "step": 4934 }, { "epoch": 0.10966666666666666, "grad_norm": 1.3236032724380493, "learning_rate": 0.0001781062458324072, "loss": 1.911, "step": 4935 }, { "epoch": 0.10968888888888889, "grad_norm": 1.2719550132751465, "learning_rate": 0.00017810180040008893, "loss": 1.9364, "step": 4936 }, { "epoch": 0.1097111111111111, "grad_norm": 1.5228955745697021, "learning_rate": 0.00017809735496777062, "loss": 2.2249, "step": 4937 }, { "epoch": 0.10973333333333334, "grad_norm": 1.7752206325531006, "learning_rate": 0.00017809290953545233, "loss": 2.1801, "step": 4938 }, { "epoch": 0.10975555555555555, "grad_norm": 1.5022207498550415, "learning_rate": 0.00017808846410313404, "loss": 2.0358, "step": 4939 }, { "epoch": 0.10977777777777778, "grad_norm": 1.2860084772109985, "learning_rate": 0.00017808401867081575, "loss": 2.0872, "step": 4940 }, { "epoch": 0.1098, "grad_norm": 1.8445580005645752, "learning_rate": 0.00017807957323849746, "loss": 2.161, "step": 4941 }, { "epoch": 0.10982222222222222, "grad_norm": 1.8703105449676514, "learning_rate": 0.00017807512780617917, "loss": 2.2376, "step": 4942 }, { "epoch": 0.10984444444444444, "grad_norm": 1.394773244857788, "learning_rate": 0.00017807068237386087, "loss": 1.8604, "step": 4943 }, { "epoch": 0.10986666666666667, "grad_norm": 1.3939281702041626, "learning_rate": 0.00017806623694154256, "loss": 1.9885, "step": 4944 }, { "epoch": 0.10988888888888888, "grad_norm": 1.4619903564453125, "learning_rate": 0.0001780617915092243, "loss": 2.0994, "step": 4945 }, { "epoch": 0.10991111111111111, "grad_norm": 1.3319731950759888, "learning_rate": 0.00017805734607690598, "loss": 1.8153, "step": 4946 }, { "epoch": 0.10993333333333333, "grad_norm": 1.2182470560073853, "learning_rate": 0.0001780529006445877, "loss": 1.5511, "step": 4947 }, { "epoch": 0.10995555555555556, "grad_norm": 1.3883278369903564, "learning_rate": 0.0001780484552122694, "loss": 1.6702, "step": 4948 }, { "epoch": 0.10997777777777777, "grad_norm": 1.6375178098678589, "learning_rate": 0.0001780440097799511, "loss": 1.9152, "step": 4949 }, { "epoch": 0.11, "grad_norm": 1.1389442682266235, "learning_rate": 0.00017803956434763281, "loss": 0.9172, "step": 4950 }, { "epoch": 0.11002222222222222, "grad_norm": 0.12997838854789734, "learning_rate": 0.00017803511891531452, "loss": 0.0177, "step": 4951 }, { "epoch": 0.11004444444444444, "grad_norm": 1.1792343854904175, "learning_rate": 0.00017803067348299623, "loss": 2.3594, "step": 4952 }, { "epoch": 0.11006666666666666, "grad_norm": 1.1777515411376953, "learning_rate": 0.00017802622805067794, "loss": 2.3509, "step": 4953 }, { "epoch": 0.11008888888888889, "grad_norm": 1.1146148443222046, "learning_rate": 0.00017802178261835965, "loss": 2.4819, "step": 4954 }, { "epoch": 0.11011111111111112, "grad_norm": 1.207305908203125, "learning_rate": 0.00017801733718604134, "loss": 2.2144, "step": 4955 }, { "epoch": 0.11013333333333333, "grad_norm": 1.1073167324066162, "learning_rate": 0.00017801289175372307, "loss": 2.1333, "step": 4956 }, { "epoch": 0.11015555555555556, "grad_norm": 1.449088454246521, "learning_rate": 0.00017800844632140476, "loss": 1.8638, "step": 4957 }, { "epoch": 0.11017777777777778, "grad_norm": 1.4596796035766602, "learning_rate": 0.00017800400088908646, "loss": 1.7366, "step": 4958 }, { "epoch": 0.1102, "grad_norm": 0.9645782709121704, "learning_rate": 0.00017799955545676817, "loss": 0.7482, "step": 4959 }, { "epoch": 0.11022222222222222, "grad_norm": 1.3452082872390747, "learning_rate": 0.00017799511002444988, "loss": 2.503, "step": 4960 }, { "epoch": 0.11024444444444445, "grad_norm": 1.2432230710983276, "learning_rate": 0.0001779906645921316, "loss": 2.2808, "step": 4961 }, { "epoch": 0.11026666666666667, "grad_norm": 1.3141149282455444, "learning_rate": 0.0001779862191598133, "loss": 1.7479, "step": 4962 }, { "epoch": 0.1102888888888889, "grad_norm": 1.176876425743103, "learning_rate": 0.000177981773727495, "loss": 2.1083, "step": 4963 }, { "epoch": 0.11031111111111111, "grad_norm": 1.2352588176727295, "learning_rate": 0.0001779773282951767, "loss": 1.6807, "step": 4964 }, { "epoch": 0.11033333333333334, "grad_norm": 1.4506590366363525, "learning_rate": 0.00017797288286285843, "loss": 2.1653, "step": 4965 }, { "epoch": 0.11035555555555555, "grad_norm": 1.2555843591690063, "learning_rate": 0.00017796843743054011, "loss": 1.7592, "step": 4966 }, { "epoch": 0.11037777777777778, "grad_norm": 1.2213855981826782, "learning_rate": 0.00017796399199822185, "loss": 2.0853, "step": 4967 }, { "epoch": 0.1104, "grad_norm": 1.7171430587768555, "learning_rate": 0.00017795954656590353, "loss": 2.107, "step": 4968 }, { "epoch": 0.11042222222222223, "grad_norm": 1.5660433769226074, "learning_rate": 0.00017795510113358524, "loss": 1.9708, "step": 4969 }, { "epoch": 0.11044444444444444, "grad_norm": 1.2019463777542114, "learning_rate": 0.00017795065570126695, "loss": 2.2367, "step": 4970 }, { "epoch": 0.11046666666666667, "grad_norm": 1.367891550064087, "learning_rate": 0.00017794621026894866, "loss": 1.7857, "step": 4971 }, { "epoch": 0.11048888888888889, "grad_norm": 1.2923423051834106, "learning_rate": 0.00017794176483663037, "loss": 1.9825, "step": 4972 }, { "epoch": 0.11051111111111112, "grad_norm": 1.4158298969268799, "learning_rate": 0.00017793731940431208, "loss": 2.176, "step": 4973 }, { "epoch": 0.11053333333333333, "grad_norm": 1.428587555885315, "learning_rate": 0.0001779328739719938, "loss": 2.1497, "step": 4974 }, { "epoch": 0.11055555555555556, "grad_norm": 1.3398618698120117, "learning_rate": 0.00017792842853967547, "loss": 2.0232, "step": 4975 }, { "epoch": 0.11057777777777777, "grad_norm": 1.2881113290786743, "learning_rate": 0.0001779239831073572, "loss": 2.2488, "step": 4976 }, { "epoch": 0.1106, "grad_norm": 1.1857106685638428, "learning_rate": 0.0001779195376750389, "loss": 1.4271, "step": 4977 }, { "epoch": 0.11062222222222222, "grad_norm": 1.5726913213729858, "learning_rate": 0.0001779150922427206, "loss": 1.9038, "step": 4978 }, { "epoch": 0.11064444444444445, "grad_norm": 1.5969356298446655, "learning_rate": 0.00017791064681040234, "loss": 1.9209, "step": 4979 }, { "epoch": 0.11066666666666666, "grad_norm": 1.407378077507019, "learning_rate": 0.00017790620137808402, "loss": 1.408, "step": 4980 }, { "epoch": 0.11068888888888889, "grad_norm": 1.4328492879867554, "learning_rate": 0.00017790175594576573, "loss": 2.2418, "step": 4981 }, { "epoch": 0.11071111111111111, "grad_norm": 1.4168318510055542, "learning_rate": 0.00017789731051344744, "loss": 1.9438, "step": 4982 }, { "epoch": 0.11073333333333334, "grad_norm": 1.2629501819610596, "learning_rate": 0.00017789286508112915, "loss": 1.973, "step": 4983 }, { "epoch": 0.11075555555555555, "grad_norm": 1.528676152229309, "learning_rate": 0.00017788841964881083, "loss": 1.9864, "step": 4984 }, { "epoch": 0.11077777777777778, "grad_norm": 1.5707221031188965, "learning_rate": 0.00017788397421649257, "loss": 2.4735, "step": 4985 }, { "epoch": 0.1108, "grad_norm": 1.2189866304397583, "learning_rate": 0.00017787952878417425, "loss": 1.4992, "step": 4986 }, { "epoch": 0.11082222222222222, "grad_norm": 1.1503536701202393, "learning_rate": 0.000177875083351856, "loss": 1.4935, "step": 4987 }, { "epoch": 0.11084444444444444, "grad_norm": 1.5683157444000244, "learning_rate": 0.0001778706379195377, "loss": 1.7106, "step": 4988 }, { "epoch": 0.11086666666666667, "grad_norm": 1.5320016145706177, "learning_rate": 0.00017786619248721938, "loss": 1.669, "step": 4989 }, { "epoch": 0.11088888888888888, "grad_norm": 1.1583964824676514, "learning_rate": 0.00017786174705490112, "loss": 0.9219, "step": 4990 }, { "epoch": 0.11091111111111111, "grad_norm": 1.0285687446594238, "learning_rate": 0.0001778573016225828, "loss": 0.9763, "step": 4991 }, { "epoch": 0.11093333333333333, "grad_norm": 1.4588276147842407, "learning_rate": 0.0001778528561902645, "loss": 1.9239, "step": 4992 }, { "epoch": 0.11095555555555556, "grad_norm": 1.398634433746338, "learning_rate": 0.00017784841075794622, "loss": 1.6122, "step": 4993 }, { "epoch": 0.11097777777777777, "grad_norm": 1.389514684677124, "learning_rate": 0.00017784396532562793, "loss": 1.7873, "step": 4994 }, { "epoch": 0.111, "grad_norm": 1.3286993503570557, "learning_rate": 0.0001778395198933096, "loss": 1.5322, "step": 4995 }, { "epoch": 0.11102222222222222, "grad_norm": 1.3495367765426636, "learning_rate": 0.00017783507446099135, "loss": 1.7065, "step": 4996 }, { "epoch": 0.11104444444444445, "grad_norm": 1.3817431926727295, "learning_rate": 0.00017783062902867306, "loss": 1.8559, "step": 4997 }, { "epoch": 0.11106666666666666, "grad_norm": 1.6605621576309204, "learning_rate": 0.00017782618359635474, "loss": 2.1082, "step": 4998 }, { "epoch": 0.11108888888888889, "grad_norm": 1.6809682846069336, "learning_rate": 0.00017782173816403648, "loss": 1.3724, "step": 4999 }, { "epoch": 0.1111111111111111, "grad_norm": 2.218095541000366, "learning_rate": 0.00017781729273171816, "loss": 1.8033, "step": 5000 } ], "logging_steps": 1, "max_steps": 45000, "num_input_tokens_seen": 0, "num_train_epochs": 1, "save_steps": 5000, "stateful_callbacks": { "TrainerControl": { "args": { "should_epoch_stop": false, "should_evaluate": false, "should_log": false, "should_save": true, "should_training_stop": false }, "attributes": {} } }, "total_flos": 4.949362506397286e+16, "train_batch_size": 1, "trial_name": null, "trial_params": null }