Training in progress, step 100, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +371 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:127b1b7fcb9b574ff4282ba4d59294ba071d97a3909df7c979eb010fcd9b452c
 size 97307544

 version https://git-lfs.github.com/spec/v1
+oid sha256:344672b76a6eee910620b479fe729ea819e037970416a2da9c1f480b695cc16c
 size 97307544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c260969f6009d482216eacd547de9c0949176b00ff45ca00f6087c08134401c
 size 194840426

 version https://git-lfs.github.com/spec/v1
+oid sha256:e2f7b880d09d0c3e663dd277d43931934dd5cae2c72a1d71171a7d9c4cdb79e1
 size 194840426

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8fd7e7e2b391fa17b4b3f03a5df7af4b83f05a92f4159d8c450dccd8a2bebdf7
 size 14960

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f040d6a8c201abcf3917e0a17887621ab7f00285dd9628429c57382ef120ecc
 size 14960

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:812fff631316bd9fe72a9f6ce9e49bd30575ca32f35699b84a2d6bc9385b5a2d
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:d96455b0fad3098637e80e0d67d418f96909245c6b651f9a052ab7d0d6a61b37
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa16ed0829b2165a3e10691c48e4da082bf5bffb3ea8bc98a99ab7a25467149d
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f8634313385285fd8196210c6d605ebf00c471ef08042ed77baf52e7f3ee383f
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aaebebb482b02cbfec23585c713fba36dfd6d9523e09040459f6e3f1dd1667f6
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:45d012378b6142add5604e3eaceff1e6b4f62ab3610e3a42446351ba5865dcab
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:83a4f28ad595f3787795cfa4023a55d79a0c7173d55330463a0fe673589854e9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9638e97525c935b52387c043e18f68d18c825b65e2c95cc7a3dc46bbe55a1e3b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.1133440732955933,
-  "best_model_checkpoint": "miner_id_24/checkpoint-50",
-  "epoch": 0.04612971676353907,
   "eval_steps": 25,
-  "global_step": 50,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -381,6 +381,372 @@
       "eval_samples_per_second": 82.801,
       "eval_steps_per_second": 8.28,
       "step": 50
     }
   ],
   "logging_steps": 1,
@@ -409,7 +775,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.0992764116205568e+17,
   "train_batch_size": 3,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.0208970308303833,
+  "best_model_checkpoint": "miner_id_24/checkpoint-100",
+  "epoch": 0.09225943352707815,
   "eval_steps": 25,
+  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 82.801,
       "eval_steps_per_second": 8.28,
       "step": 50
+    },
+    {
+      "epoch": 0.047052311098809856,
+      "grad_norm": 0.5303361415863037,
+      "learning_rate": 0.00019380934412829232,
+      "loss": 1.1873,
+      "step": 51
+    },
+    {
+      "epoch": 0.04797490543408064,
+      "grad_norm": 0.717869222164154,
+      "learning_rate": 0.00019348327417301517,
+      "loss": 1.2218,
+      "step": 52
+    },
+    {
+      "epoch": 0.04889749976935141,
+      "grad_norm": 0.6033234000205994,
+      "learning_rate": 0.00019314915792601581,
+      "loss": 1.2588,
+      "step": 53
+    },
+    {
+      "epoch": 0.049820094104622195,
+      "grad_norm": 0.5174582004547119,
+      "learning_rate": 0.00019280702759011354,
+      "loss": 1.2331,
+      "step": 54
+    },
+    {
+      "epoch": 0.05074268843989298,
+      "grad_norm": 0.4686112105846405,
+      "learning_rate": 0.00019245691614054226,
+      "loss": 1.1302,
+      "step": 55
+    },
+    {
+      "epoch": 0.05166528277516376,
+      "grad_norm": 0.4974168539047241,
+      "learning_rate": 0.0001920988573217721,
+      "loss": 1.1626,
+      "step": 56
+    },
+    {
+      "epoch": 0.05258787711043454,
+      "grad_norm": 0.5215023756027222,
+      "learning_rate": 0.00019173288564425733,
+      "loss": 1.1399,
+      "step": 57
+    },
+    {
+      "epoch": 0.053510471445705324,
+      "grad_norm": 0.49643176794052124,
+      "learning_rate": 0.00019135903638110993,
+      "loss": 1.1402,
+      "step": 58
+    },
+    {
+      "epoch": 0.054433065780976106,
+      "grad_norm": 0.5159599184989929,
+      "learning_rate": 0.00019097734556469995,
+      "loss": 1.0672,
+      "step": 59
+    },
+    {
+      "epoch": 0.05535566011624689,
+      "grad_norm": 0.5096753239631653,
+      "learning_rate": 0.00019058784998318273,
+      "loss": 1.0373,
+      "step": 60
+    },
+    {
+      "epoch": 0.05627825445151767,
+      "grad_norm": 0.5594645142555237,
+      "learning_rate": 0.0001901905871769531,
+      "loss": 1.0682,
+      "step": 61
+    },
+    {
+      "epoch": 0.05720084878678845,
+      "grad_norm": 0.8526697158813477,
+      "learning_rate": 0.0001897855954350272,
+      "loss": 0.8273,
+      "step": 62
+    },
+    {
+      "epoch": 0.05812344312205923,
+      "grad_norm": 0.5586766004562378,
+      "learning_rate": 0.00018937291379135196,
+      "loss": 1.1242,
+      "step": 63
+    },
+    {
+      "epoch": 0.05904603745733001,
+      "grad_norm": 0.5625215172767639,
+      "learning_rate": 0.0001889525820210432,
+      "loss": 1.3812,
+      "step": 64
+    },
+    {
+      "epoch": 0.05996863179260079,
+      "grad_norm": 0.46945062279701233,
+      "learning_rate": 0.00018852464063655176,
+      "loss": 1.2655,
+      "step": 65
+    },
+    {
+      "epoch": 0.060891226127871574,
+      "grad_norm": 0.49760475754737854,
+      "learning_rate": 0.000188089130883759,
+      "loss": 1.1365,
+      "step": 66
+    },
+    {
+      "epoch": 0.061813820463142356,
+      "grad_norm": 0.47834065556526184,
+      "learning_rate": 0.00018764609473800127,
+      "loss": 1.1662,
+      "step": 67
+    },
+    {
+      "epoch": 0.06273641479841313,
+      "grad_norm": 0.508231520652771,
+      "learning_rate": 0.0001871955749000245,
+      "loss": 1.1352,
+      "step": 68
+    },
+    {
+      "epoch": 0.06365900913368391,
+      "grad_norm": 0.5424789786338806,
+      "learning_rate": 0.00018673761479186832,
+      "loss": 1.1534,
+      "step": 69
+    },
+    {
+      "epoch": 0.0645816034689547,
+      "grad_norm": 0.546637773513794,
+      "learning_rate": 0.0001862722585526811,
+      "loss": 1.1505,
+      "step": 70
+    },
+    {
+      "epoch": 0.06550419780422548,
+      "grad_norm": 0.5321767330169678,
+      "learning_rate": 0.0001857995510344658,
+      "loss": 1.0851,
+      "step": 71
+    },
+    {
+      "epoch": 0.06642679213949626,
+      "grad_norm": 0.5386099219322205,
+      "learning_rate": 0.00018531953779775683,
+      "loss": 1.0585,
+      "step": 72
+    },
+    {
+      "epoch": 0.06734938647476704,
+      "grad_norm": 0.5138699412345886,
+      "learning_rate": 0.0001848322651072291,
+      "loss": 1.0444,
+      "step": 73
+    },
+    {
+      "epoch": 0.06827198081003782,
+      "grad_norm": 0.6210483312606812,
+      "learning_rate": 0.0001843377799272386,
+      "loss": 0.9183,
+      "step": 74
+    },
+    {
+      "epoch": 0.0691945751453086,
+      "grad_norm": 0.6338362097740173,
+      "learning_rate": 0.00018383612991729623,
+      "loss": 0.2692,
+      "step": 75
+    },
+    {
+      "epoch": 0.0691945751453086,
+      "eval_loss": 1.0709586143493652,
+      "eval_runtime": 0.6044,
+      "eval_samples_per_second": 82.723,
+      "eval_steps_per_second": 8.272,
+      "step": 75
+    },
+    {
+      "epoch": 0.07011716948057939,
+      "grad_norm": 0.4989747405052185,
+      "learning_rate": 0.00018332736342747404,
+      "loss": 1.2276,
+      "step": 76
+    },
+    {
+      "epoch": 0.07103976381585017,
+      "grad_norm": 0.5539114475250244,
+      "learning_rate": 0.00018281152949374527,
+      "loss": 1.2626,
+      "step": 77
+    },
+    {
+      "epoch": 0.07196235815112095,
+      "grad_norm": 0.45691347122192383,
+      "learning_rate": 0.00018228867783325804,
+      "loss": 1.2259,
+      "step": 78
+    },
+    {
+      "epoch": 0.07288495248639174,
+      "grad_norm": 0.48130282759666443,
+      "learning_rate": 0.00018175885883954364,
+      "loss": 1.1878,
+      "step": 79
+    },
+    {
+      "epoch": 0.07380754682166252,
+      "grad_norm": 0.4967883229255676,
+      "learning_rate": 0.00018122212357765945,
+      "loss": 1.1519,
+      "step": 80
+    },
+    {
+      "epoch": 0.0747301411569333,
+      "grad_norm": 0.49831900000572205,
+      "learning_rate": 0.00018067852377926704,
+      "loss": 1.1397,
+      "step": 81
+    },
+    {
+      "epoch": 0.07565273549220408,
+      "grad_norm": 0.5220170021057129,
+      "learning_rate": 0.0001801281118376465,
+      "loss": 1.0622,
+      "step": 82
+    },
+    {
+      "epoch": 0.07657532982747486,
+      "grad_norm": 0.5449658632278442,
+      "learning_rate": 0.00017957094080264634,
+      "loss": 1.0355,
+      "step": 83
+    },
+    {
+      "epoch": 0.07749792416274565,
+      "grad_norm": 0.6329752206802368,
+      "learning_rate": 0.00017900706437557054,
+      "loss": 1.0584,
+      "step": 84
+    },
+    {
+      "epoch": 0.07842051849801643,
+      "grad_norm": 0.6001924276351929,
+      "learning_rate": 0.00017843653690400278,
+      "loss": 1.022,
+      "step": 85
+    },
+    {
+      "epoch": 0.07934311283328721,
+      "grad_norm": 0.5846312046051025,
+      "learning_rate": 0.00017785941337656827,
+      "loss": 0.9959,
+      "step": 86
+    },
+    {
+      "epoch": 0.08026570716855798,
+      "grad_norm": 0.6020424365997314,
+      "learning_rate": 0.00017727574941763373,
+      "loss": 0.4521,
+      "step": 87
+    },
+    {
+      "epoch": 0.08118830150382876,
+      "grad_norm": 0.43142932653427124,
+      "learning_rate": 0.00017668560128194635,
+      "loss": 1.1681,
+      "step": 88
+    },
+    {
+      "epoch": 0.08211089583909954,
+      "grad_norm": 0.660566508769989,
+      "learning_rate": 0.0001760890258492117,
+      "loss": 1.3461,
+      "step": 89
+    },
+    {
+      "epoch": 0.08303349017437033,
+      "grad_norm": 0.5984129309654236,
+      "learning_rate": 0.00017548608061861176,
+      "loss": 1.2538,
+      "step": 90
+    },
+    {
+      "epoch": 0.08395608450964111,
+      "grad_norm": 0.5732012391090393,
+      "learning_rate": 0.0001748768237032627,
+      "loss": 1.2725,
+      "step": 91
+    },
+    {
+      "epoch": 0.08487867884491189,
+      "grad_norm": 0.5434936881065369,
+      "learning_rate": 0.00017426131382461415,
+      "loss": 1.0838,
+      "step": 92
+    },
+    {
+      "epoch": 0.08580127318018267,
+      "grad_norm": 0.4646851718425751,
+      "learning_rate": 0.00017363961030678927,
+      "loss": 1.0811,
+      "step": 93
+    },
+    {
+      "epoch": 0.08672386751545345,
+      "grad_norm": 0.48649483919143677,
+      "learning_rate": 0.00017301177307086713,
+      "loss": 1.0298,
+      "step": 94
+    },
+    {
+      "epoch": 0.08764646185072424,
+      "grad_norm": 0.5579357147216797,
+      "learning_rate": 0.00017237786262910726,
+      "loss": 1.0374,
+      "step": 95
+    },
+    {
+      "epoch": 0.08856905618599502,
+      "grad_norm": 0.612695574760437,
+      "learning_rate": 0.00017173794007911735,
+      "loss": 1.0592,
+      "step": 96
+    },
+    {
+      "epoch": 0.0894916505212658,
+      "grad_norm": 0.5733603239059448,
+      "learning_rate": 0.00017109206709796477,
+      "loss": 1.0191,
+      "step": 97
+    },
+    {
+      "epoch": 0.09041424485653658,
+      "grad_norm": 0.6126962304115295,
+      "learning_rate": 0.00017044030593623167,
+      "loss": 1.0036,
+      "step": 98
+    },
+    {
+      "epoch": 0.09133683919180736,
+      "grad_norm": 0.6726813912391663,
+      "learning_rate": 0.00016978271941201536,
+      "loss": 0.8152,
+      "step": 99
+    },
+    {
+      "epoch": 0.09225943352707815,
+      "grad_norm": 0.40060344338417053,
+      "learning_rate": 0.00016911937090487373,
+      "loss": 0.0465,
+      "step": 100
+    },
+    {
+      "epoch": 0.09225943352707815,
+      "eval_loss": 1.0208970308303833,
+      "eval_runtime": 0.6034,
+      "eval_samples_per_second": 82.859,
+      "eval_steps_per_second": 8.286,
+      "step": 100
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 4.1985528232411136e+17,
   "train_batch_size": 3,
   "trial_name": null,
   "trial_params": null