pharaouk
/

unnatural_codellama_34B

Model card Files Files and versions Community

pharaouk commited on Aug 25, 2023

Commit

0af3fe6

1 Parent(s): 167671f

a

Browse files

Files changed (25) hide show

adapter_config.json +6 -6
adapter_model.bin +1 -1
checkpoint-200/adapter_config.json +6 -6
checkpoint-200/adapter_model.bin +1 -1
checkpoint-200/adapter_model/adapter_model/adapter_config.json +6 -6
checkpoint-200/adapter_model/adapter_model/adapter_model.bin +1 -1
checkpoint-200/optimizer.pt +1 -1
checkpoint-200/rng_state.pth +1 -1
checkpoint-200/scheduler.pt +1 -1
checkpoint-200/tokenizer_config.json +1 -3
checkpoint-200/trainer_state.json +431 -461
checkpoint-200/training_args.bin +1 -1
checkpoint-400/adapter_config.json +6 -6
checkpoint-400/adapter_model.bin +1 -1
checkpoint-400/adapter_model/adapter_model/README.md +20 -0
checkpoint-400/adapter_model/adapter_model/adapter_config.json +26 -0
checkpoint-400/adapter_model/adapter_model/adapter_model.bin +3 -0
checkpoint-400/optimizer.pt +1 -1
checkpoint-400/rng_state.pth +1 -1
checkpoint-400/scheduler.pt +1 -1
checkpoint-400/tokenizer_config.json +1 -3
checkpoint-400/trainer_state.json +858 -918
checkpoint-400/training_args.bin +1 -1
tokenizer_config.json +1 -3
training_args.bin +1 -1

adapter_config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "auto_mapping": null,
-  "base_model_name_or_path": "alpindale/CodeLlama-34B-hf",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
@@ -14,13 +14,13 @@
   "r": 64,
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "up_proj",
-    "gate_proj",
-    "down_proj",
     "q_proj",
     "o_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

 {
   "auto_mapping": null,
+  "base_model_name_or_path": "codellama/CodeLlama-34b-Python-hf",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
   "r": 64,
   "revision": null,
   "target_modules": [
+    "k_proj",
     "q_proj",
+    "v_proj",
     "o_proj",
+    "gate_proj",
+    "up_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20f63e1f9f5ce72e3d0fcb7fa87c92aeb6019137e90d5971496e900c70d14626
 size 871609293

 version https://git-lfs.github.com/spec/v1
+oid sha256:1af5d01bf9badfccc5c82770b56c6a6cdd6418705b7ac5979ca2a69aa9395cf4
 size 871609293

checkpoint-200/adapter_config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "auto_mapping": null,
-  "base_model_name_or_path": "alpindale/CodeLlama-34B-hf",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
@@ -14,13 +14,13 @@
   "r": 64,
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "up_proj",
-    "gate_proj",
-    "down_proj",
     "q_proj",
     "o_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

 {
   "auto_mapping": null,
+  "base_model_name_or_path": "codellama/CodeLlama-34b-Python-hf",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
   "r": 64,
   "revision": null,
   "target_modules": [
+    "k_proj",
     "q_proj",
+    "v_proj",
     "o_proj",
+    "gate_proj",
+    "up_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

checkpoint-200/adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:160a60dd1cd3974d6547f7ec7bccbdd179da028231e05e345a2477823ba13476
 size 871609293

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5ccfb1a0ea0f9a78946fca6cabf55b2e581ad5c230518e05796212b2142ddbb
 size 871609293

checkpoint-200/adapter_model/adapter_model/adapter_config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "auto_mapping": null,
-  "base_model_name_or_path": "alpindale/CodeLlama-34B-hf",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
@@ -14,13 +14,13 @@
   "r": 64,
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "up_proj",
-    "gate_proj",
-    "down_proj",
     "q_proj",
     "o_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

 {
   "auto_mapping": null,
+  "base_model_name_or_path": "codellama/CodeLlama-34b-Python-hf",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
   "r": 64,
   "revision": null,
   "target_modules": [
+    "k_proj",
     "q_proj",
+    "v_proj",
     "o_proj",
+    "gate_proj",
+    "up_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

checkpoint-200/adapter_model/adapter_model/adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:160a60dd1cd3974d6547f7ec7bccbdd179da028231e05e345a2477823ba13476
 size 871609293

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5ccfb1a0ea0f9a78946fca6cabf55b2e581ad5c230518e05796212b2142ddbb
 size 871609293

checkpoint-200/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28664f723821987f28653721f3c3e5831cf63de5de35a89366da708f0f7196fc
 size 3485880477

 version https://git-lfs.github.com/spec/v1
+oid sha256:76db89aa865c6c0a8ec3928a2b2b6daae0a3918e3f6e1a1d76ef3ca8c7dc7fd5
 size 3485880477

checkpoint-200/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:41a5175571e28bc9e49814ab269d17e197cb3c5f958226d58cf87c3326589d83
 size 14511

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae24c3e879b23efe7f563fecb9a8536d5b1ba37dfc40dc27479609345e020130
 size 14511

checkpoint-200/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7aa2c8b84e17817e6a4dcba5955fca913e266fdcd47f5594a29933ebd4972a01
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:81248501833af563175f43c1d681185643b8411cee1fb1e631b8687c465eb2e3
 size 627

checkpoint-200/tokenizer_config.json CHANGED Viewed

@@ -23,7 +23,6 @@
   "pad_token": null,
   "padding_side": "right",
   "sp_model_kwargs": {},
-  "spaces_between_special_tokens": false,
   "tokenizer_class": "LlamaTokenizer",
   "unk_token": {
     "__type": "AddedToken",
@@ -32,6 +31,5 @@
     "normalized": true,
     "rstrip": false,
     "single_word": false
-  },
-  "use_default_system_prompt": true
 }

   "pad_token": null,
   "padding_side": "right",
   "sp_model_kwargs": {},
   "tokenizer_class": "LlamaTokenizer",
   "unk_token": {
     "__type": "AddedToken",
     "normalized": true,
     "rstrip": false,
     "single_word": false
+  }
 }

checkpoint-200/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.3453182876110077,
-  "best_model_checkpoint": "./output_v2/34bCodellama_CodeLlama-34B-hf_unnatural-instructions_standardized/checkpoint-200",
   "epoch": 0.012222137346268428,
   "global_step": 200,
   "is_hyper_param_search": false,
@@ -9,1279 +9,1249 @@
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 1.9735,
       "step": 1
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 2.7155,
       "step": 2
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 3.1137,
       "step": 3
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 1.6054,
       "step": 4
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 1.0381,
       "step": 5
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.9959,
       "step": 6
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.7395,
       "step": 7
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.3255,
       "step": 8
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.8252,
       "step": 9
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.5362,
       "step": 10
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 1.404,
       "step": 11
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.6234,
       "step": 12
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 1.0263,
       "step": 13
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2622,
       "step": 14
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2692,
       "step": 15
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2624,
       "step": 16
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.4385,
       "step": 17
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.3265,
       "step": 18
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2191,
       "step": 19
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 1.0049,
       "step": 20
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.6586,
       "step": 21
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.3471,
       "step": 22
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.7134,
       "step": 23
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 1.01,
       "step": 24
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2802,
       "step": 25
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.4205,
       "step": 26
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.7682,
       "step": 27
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2002,
       "step": 28
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2132,
       "step": 29
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 1.0622,
       "step": 30
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.212,
       "step": 31
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.3738,
       "step": 32
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.3594,
       "step": 33
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.8766,
       "step": 34
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.3108,
       "step": 35
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2127,
       "step": 36
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.5968,
       "step": 37
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.8806,
       "step": 38
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.0633,
       "step": 39
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.5851,
       "step": 40
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2376,
       "step": 41
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2293,
       "step": 42
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.428,
       "step": 43
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.131,
       "step": 44
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.3724,
       "step": 45
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.5031,
       "step": 46
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.4934,
       "step": 47
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.8127,
       "step": 48
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.4573,
       "step": 49
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.5568,
       "step": 50
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.5411,
       "step": 51
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.4448,
       "step": 52
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.3774,
       "step": 53
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.1825,
       "step": 54
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2356,
       "step": 55
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.0236,
       "step": 56
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.4344,
       "step": 57
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.4589,
       "step": 58
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.3766,
       "step": 59
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.6034,
       "step": 60
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.7632,
       "step": 61
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.0612,
       "step": 62
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.6783,
       "step": 63
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2845,
       "step": 64
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.395,
       "step": 65
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.8106,
       "step": 66
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.1468,
       "step": 67
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.0537,
       "step": 68
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.4816,
       "step": 69
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.6052,
       "step": 70
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2805,
       "step": 71
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.8279,
       "step": 72
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.6954,
       "step": 73
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.0635,
       "step": 74
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2866,
       "step": 75
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.9656,
       "step": 76
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.1113,
       "step": 77
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.4063,
       "step": 78
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.3245,
       "step": 79
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.3966,
       "step": 80
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.4809,
       "step": 81
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3844,
       "step": 82
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1501,
       "step": 83
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5504,
       "step": 84
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2332,
       "step": 85
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0049,
       "step": 86
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2585,
       "step": 87
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2012,
       "step": 88
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0386,
       "step": 89
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5818,
       "step": 90
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2827,
       "step": 91
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3877,
       "step": 92
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3117,
       "step": 93
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.9205,
       "step": 94
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.4653,
       "step": 95
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3412,
       "step": 96
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3367,
       "step": 97
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1755,
       "step": 98
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3586,
       "step": 99
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5682,
       "step": 100
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.4869,
       "step": 101
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.7614,
       "step": 102
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.4366,
       "step": 103
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5307,
       "step": 104
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3974,
       "step": 105
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5255,
       "step": 106
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2682,
       "step": 107
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.4884,
       "step": 108
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0414,
       "step": 109
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5094,
       "step": 110
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.298,
       "step": 111
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2147,
       "step": 112
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2712,
       "step": 113
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5713,
       "step": 114
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2979,
       "step": 115
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2424,
       "step": 116
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1412,
       "step": 117
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3252,
       "step": 118
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.4267,
       "step": 119
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2139,
       "step": 120
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.4214,
       "step": 121
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2338,
       "step": 122
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5877,
       "step": 123
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2574,
       "step": 124
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0011,
       "step": 125
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.6156,
       "step": 126
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0888,
       "step": 127
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3159,
       "step": 128
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2122,
       "step": 129
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1131,
       "step": 130
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1634,
       "step": 131
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3788,
       "step": 132
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3187,
       "step": 133
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1685,
       "step": 134
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 1.5573,
       "step": 135
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3409,
       "step": 136
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 1.1279,
       "step": 137
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1385,
       "step": 138
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5391,
       "step": 139
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.9212,
       "step": 140
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3178,
       "step": 141
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1896,
       "step": 142
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2479,
       "step": 143
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0806,
       "step": 144
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.4446,
       "step": 145
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1199,
       "step": 146
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0728,
       "step": 147
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2178,
       "step": 148
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.6712,
       "step": 149
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0917,
       "step": 150
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0679,
       "step": 151
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2296,
       "step": 152
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.4093,
       "step": 153
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.7889,
       "step": 154
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.142,
       "step": 155
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.16,
       "step": 156
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2812,
       "step": 157
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3536,
       "step": 158
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2734,
       "step": 159
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 1.0048,
       "step": 160
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2911,
       "step": 161
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2417,
       "step": 162
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.8293,
       "step": 163
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.4375,
       "step": 164
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.7972,
       "step": 165
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1297,
       "step": 166
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5533,
       "step": 167
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.8447,
       "step": 168
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0787,
       "step": 169
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2196,
       "step": 170
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1463,
       "step": 171
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2969,
       "step": 172
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.204,
       "step": 173
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5595,
       "step": 174
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1947,
       "step": 175
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.239,
       "step": 176
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0937,
       "step": 177
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0284,
       "step": 178
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.4115,
       "step": 179
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1322,
       "step": 180
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3562,
       "step": 181
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5618,
       "step": 182
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5469,
       "step": 183
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2538,
       "step": 184
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3875,
       "step": 185
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1755,
       "step": 186
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5634,
       "step": 187
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5176,
       "step": 188
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3164,
       "step": 189
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1107,
       "step": 190
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.7371,
       "step": 191
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3597,
       "step": 192
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.6858,
       "step": 193
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2797,
       "step": 194
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5096,
       "step": 195
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.4265,
       "step": 196
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.4173,
       "step": 197
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1054,
       "step": 198
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.112,
       "step": 199
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.316,
       "step": 200
     },
     {
       "epoch": 0.01,
-      "eval_loss": 0.3453182876110077,
-      "eval_runtime": 435.8836,
-      "eval_samples_per_second": 2.294,
-      "eval_steps_per_second": 1.147,
       "step": 200
     },
     {
       "epoch": 0.01,
-      "mmlu_eval_accuracy": 0.4811559812252676,
-      "mmlu_eval_accuracy_abstract_algebra": 0.45454545454545453,
-      "mmlu_eval_accuracy_anatomy": 0.5,
-      "mmlu_eval_accuracy_astronomy": 0.25,
-      "mmlu_eval_accuracy_business_ethics": 0.6363636363636364,
       "mmlu_eval_accuracy_clinical_knowledge": 0.41379310344827586,
-      "mmlu_eval_accuracy_college_biology": 0.5,
-      "mmlu_eval_accuracy_college_chemistry": 0.125,
-      "mmlu_eval_accuracy_college_computer_science": 0.45454545454545453,
-      "mmlu_eval_accuracy_college_mathematics": 0.45454545454545453,
-      "mmlu_eval_accuracy_college_medicine": 0.5454545454545454,
-      "mmlu_eval_accuracy_college_physics": 0.36363636363636365,
-      "mmlu_eval_accuracy_computer_security": 0.6363636363636364,
-      "mmlu_eval_accuracy_conceptual_physics": 0.3076923076923077,
-      "mmlu_eval_accuracy_econometrics": 0.3333333333333333,
       "mmlu_eval_accuracy_electrical_engineering": 0.25,
-      "mmlu_eval_accuracy_elementary_mathematics": 0.2926829268292683,
       "mmlu_eval_accuracy_formal_logic": 0.21428571428571427,
       "mmlu_eval_accuracy_global_facts": 0.0,
-      "mmlu_eval_accuracy_high_school_biology": 0.375,
-      "mmlu_eval_accuracy_high_school_chemistry": 0.3181818181818182,
       "mmlu_eval_accuracy_high_school_computer_science": 0.5555555555555556,
-      "mmlu_eval_accuracy_high_school_european_history": 0.7222222222222222,
-      "mmlu_eval_accuracy_high_school_geography": 0.8181818181818182,
-      "mmlu_eval_accuracy_high_school_government_and_politics": 0.6666666666666666,
-      "mmlu_eval_accuracy_high_school_macroeconomics": 0.4186046511627907,
-      "mmlu_eval_accuracy_high_school_mathematics": 0.27586206896551724,
-      "mmlu_eval_accuracy_high_school_microeconomics": 0.5769230769230769,
-      "mmlu_eval_accuracy_high_school_physics": 0.4117647058823529,
-      "mmlu_eval_accuracy_high_school_psychology": 0.7166666666666667,
-      "mmlu_eval_accuracy_high_school_statistics": 0.34782608695652173,
-      "mmlu_eval_accuracy_high_school_us_history": 0.6818181818181818,
-      "mmlu_eval_accuracy_high_school_world_history": 0.5384615384615384,
-      "mmlu_eval_accuracy_human_aging": 0.6086956521739131,
-      "mmlu_eval_accuracy_human_sexuality": 0.3333333333333333,
-      "mmlu_eval_accuracy_international_law": 0.7692307692307693,
-      "mmlu_eval_accuracy_jurisprudence": 0.45454545454545453,
-      "mmlu_eval_accuracy_logical_fallacies": 0.7777777777777778,
-      "mmlu_eval_accuracy_machine_learning": 0.45454545454545453,
-      "mmlu_eval_accuracy_management": 0.7272727272727273,
-      "mmlu_eval_accuracy_marketing": 0.88,
-      "mmlu_eval_accuracy_medical_genetics": 0.7272727272727273,
-      "mmlu_eval_accuracy_miscellaneous": 0.5813953488372093,
-      "mmlu_eval_accuracy_moral_disputes": 0.42105263157894735,
-      "mmlu_eval_accuracy_moral_scenarios": 0.35,
-      "mmlu_eval_accuracy_nutrition": 0.6363636363636364,
-      "mmlu_eval_accuracy_philosophy": 0.47058823529411764,
-      "mmlu_eval_accuracy_prehistory": 0.34285714285714286,
-      "mmlu_eval_accuracy_professional_accounting": 0.22580645161290322,
-      "mmlu_eval_accuracy_professional_law": 0.3176470588235294,
-      "mmlu_eval_accuracy_professional_medicine": 0.2903225806451613,
-      "mmlu_eval_accuracy_professional_psychology": 0.4492753623188406,
-      "mmlu_eval_accuracy_public_relations": 0.4166666666666667,
-      "mmlu_eval_accuracy_security_studies": 0.5185185185185185,
-      "mmlu_eval_accuracy_sociology": 0.5909090909090909,
-      "mmlu_eval_accuracy_us_foreign_policy": 0.6363636363636364,
-      "mmlu_eval_accuracy_virology": 0.5,
-      "mmlu_eval_accuracy_world_religions": 0.7894736842105263,
-      "mmlu_loss": 0.9429792200577477,
       "step": 200
     }
   ],
   "max_steps": 5000,
   "num_train_epochs": 1,
-  "total_flos": 3.4693272745672704e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.3938411474227905,
+  "best_model_checkpoint": "./output_v2/34bCodellama_CodeLlama-34b-Python-hf_unnatural-instructions_standardized/checkpoint-200",
   "epoch": 0.012222137346268428,
   "global_step": 200,
   "is_hyper_param_search": false,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.1006,
       "step": 1
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 1.2792,
       "step": 2
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.3465,
       "step": 3
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.4367,
       "step": 4
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.1706,
       "step": 5
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.632,
       "step": 6
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.1233,
       "step": 7
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.4661,
       "step": 8
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.1672,
       "step": 9
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.0641,
       "step": 10
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.3908,
       "step": 11
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.505,
       "step": 12
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.7672,
       "step": 13
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.2875,
       "step": 14
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.4619,
       "step": 15
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.4586,
       "step": 16
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.7159,
       "step": 17
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.207,
       "step": 18
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.4808,
       "step": 19
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.104,
       "step": 20
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.5561,
       "step": 21
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.4114,
       "step": 22
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.3656,
       "step": 23
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.6222,
       "step": 24
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.502,
       "step": 25
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.3339,
       "step": 26
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.6282,
       "step": 27
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.104,
       "step": 28
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.7241,
       "step": 29
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.7388,
       "step": 30
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.1877,
       "step": 31
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.5733,
       "step": 32
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.6204,
       "step": 33
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.9779,
       "step": 34
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 1.0215,
       "step": 35
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.2895,
       "step": 36
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.3081,
       "step": 37
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.6799,
       "step": 38
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.6704,
       "step": 39
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.6087,
       "step": 40
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.8191,
       "step": 41
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.307,
       "step": 42
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.431,
       "step": 43
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.2427,
       "step": 44
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.8054,
       "step": 45
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 1.0238,
       "step": 46
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.4241,
       "step": 47
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.1145,
       "step": 48
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 1.069,
       "step": 49
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 1.0728,
       "step": 50
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.108,
       "step": 51
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.2927,
       "step": 52
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.2443,
       "step": 53
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.0006,
       "step": 54
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.2178,
       "step": 55
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.2221,
       "step": 56
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.0375,
       "step": 57
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.1756,
       "step": 58
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.4141,
       "step": 59
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.154,
       "step": 60
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.1159,
       "step": 61
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.2163,
       "step": 62
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.3193,
       "step": 63
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.3983,
       "step": 64
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.7675,
       "step": 65
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.395,
       "step": 66
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.4137,
       "step": 67
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.1585,
       "step": 68
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.0744,
       "step": 69
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.2868,
       "step": 70
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.6288,
       "step": 71
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.2539,
       "step": 72
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.9,
       "step": 73
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.5689,
       "step": 74
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.1503,
       "step": 75
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.6418,
       "step": 76
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.2353,
       "step": 77
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.8223,
       "step": 78
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.1297,
       "step": 79
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.6385,
       "step": 80
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.1623,
       "step": 81
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3846,
       "step": 82
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3152,
       "step": 83
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1425,
       "step": 84
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.6978,
       "step": 85
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 1.0012,
       "step": 86
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1544,
       "step": 87
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.7167,
       "step": 88
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.5173,
       "step": 89
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.4471,
       "step": 90
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.4159,
       "step": 91
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.697,
       "step": 92
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2301,
       "step": 93
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.9655,
       "step": 94
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2113,
       "step": 95
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 1.5099,
       "step": 96
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.6587,
       "step": 97
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.677,
       "step": 98
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.8563,
       "step": 99
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 1.6579,
       "step": 100
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2976,
       "step": 101
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.4181,
       "step": 102
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3141,
       "step": 103
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1189,
       "step": 104
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.0589,
       "step": 105
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.533,
       "step": 106
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.4562,
       "step": 107
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2835,
       "step": 108
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.5246,
       "step": 109
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2345,
       "step": 110
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1858,
       "step": 111
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.5243,
       "step": 112
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3014,
       "step": 113
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.0783,
       "step": 114
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1369,
       "step": 115
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1517,
       "step": 116
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.4089,
       "step": 117
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.184,
       "step": 118
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.218,
       "step": 119
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2696,
       "step": 120
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.0955,
       "step": 121
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3469,
       "step": 122
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2769,
       "step": 123
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2437,
       "step": 124
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2283,
       "step": 125
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.5484,
       "step": 126
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3495,
       "step": 127
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.7042,
       "step": 128
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3839,
       "step": 129
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3892,
       "step": 130
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2422,
       "step": 131
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3934,
       "step": 132
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.4136,
       "step": 133
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.0939,
       "step": 134
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.508,
       "step": 135
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3331,
       "step": 136
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.377,
       "step": 137
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.8366,
       "step": 138
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2068,
       "step": 139
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.484,
       "step": 140
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.8796,
       "step": 141
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.4984,
       "step": 142
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.5241,
       "step": 143
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.4839,
       "step": 144
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2773,
       "step": 145
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.5004,
       "step": 146
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3029,
       "step": 147
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.9682,
       "step": 148
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3496,
       "step": 149
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.462,
       "step": 150
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1464,
       "step": 151
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1177,
       "step": 152
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3903,
       "step": 153
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2373,
       "step": 154
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1732,
       "step": 155
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.5158,
       "step": 156
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3224,
       "step": 157
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2082,
       "step": 158
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2307,
       "step": 159
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1758,
       "step": 160
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2339,
       "step": 161
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.0613,
       "step": 162
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1142,
       "step": 163
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3177,
       "step": 164
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.4358,
       "step": 165
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 1.3582,
       "step": 166
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.5703,
       "step": 167
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3477,
       "step": 168
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.4394,
       "step": 169
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3481,
       "step": 170
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1735,
       "step": 171
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.0878,
       "step": 172
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.0659,
       "step": 173
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3527,
       "step": 174
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1819,
       "step": 175
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.379,
       "step": 176
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2146,
       "step": 177
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.133,
       "step": 178
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.5217,
       "step": 179
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3077,
       "step": 180
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.0022,
       "step": 181
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1031,
       "step": 182
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.681,
       "step": 183
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.7839,
       "step": 184
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.6465,
       "step": 185
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2607,
       "step": 186
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.7913,
       "step": 187
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.4266,
       "step": 188
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2851,
       "step": 189
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.6628,
       "step": 190
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.8151,
       "step": 191
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3577,
       "step": 192
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.4329,
       "step": 193
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1639,
       "step": 194
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1394,
       "step": 195
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3146,
       "step": 196
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2623,
       "step": 197
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 1.3405,
       "step": 198
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.6208,
       "step": 199
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.7118,
       "step": 200
     },
     {
       "epoch": 0.01,
+      "eval_loss": 0.3938411474227905,
+      "eval_runtime": 219.0899,
+      "eval_samples_per_second": 2.282,
+      "eval_steps_per_second": 1.141,
       "step": 200
     },
     {
       "epoch": 0.01,
+      "mmlu_eval_accuracy": 0.3485764968358423,
+      "mmlu_eval_accuracy_abstract_algebra": 0.36363636363636365,
+      "mmlu_eval_accuracy_anatomy": 0.35714285714285715,
+      "mmlu_eval_accuracy_astronomy": 0.5,
+      "mmlu_eval_accuracy_business_ethics": 0.2727272727272727,
       "mmlu_eval_accuracy_clinical_knowledge": 0.41379310344827586,
+      "mmlu_eval_accuracy_college_biology": 0.4375,
+      "mmlu_eval_accuracy_college_chemistry": 0.25,
+      "mmlu_eval_accuracy_college_computer_science": 0.36363636363636365,
+      "mmlu_eval_accuracy_college_mathematics": 0.36363636363636365,
+      "mmlu_eval_accuracy_college_medicine": 0.4090909090909091,
+      "mmlu_eval_accuracy_college_physics": 0.2727272727272727,
+      "mmlu_eval_accuracy_computer_security": 0.45454545454545453,
+      "mmlu_eval_accuracy_conceptual_physics": 0.34615384615384615,
+      "mmlu_eval_accuracy_econometrics": 0.25,
       "mmlu_eval_accuracy_electrical_engineering": 0.25,
+      "mmlu_eval_accuracy_elementary_mathematics": 0.34146341463414637,
       "mmlu_eval_accuracy_formal_logic": 0.21428571428571427,
       "mmlu_eval_accuracy_global_facts": 0.0,
+      "mmlu_eval_accuracy_high_school_biology": 0.3125,
+      "mmlu_eval_accuracy_high_school_chemistry": 0.18181818181818182,
       "mmlu_eval_accuracy_high_school_computer_science": 0.5555555555555556,
+      "mmlu_eval_accuracy_high_school_european_history": 0.5555555555555556,
+      "mmlu_eval_accuracy_high_school_geography": 0.7272727272727273,
+      "mmlu_eval_accuracy_high_school_government_and_politics": 0.2857142857142857,
+      "mmlu_eval_accuracy_high_school_macroeconomics": 0.5116279069767442,
+      "mmlu_eval_accuracy_high_school_mathematics": 0.20689655172413793,
+      "mmlu_eval_accuracy_high_school_microeconomics": 0.21428571428571427,
+      "mmlu_loss": 0.783768397025764,
       "step": 200
     }
   ],
   "max_steps": 5000,
   "num_train_epochs": 1,
+  "total_flos": 2.978705686187213e+16,
   "trial_name": null,
   "trial_params": null
 }

checkpoint-200/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd28a065deb906dd6787d5be775d7f7fef1c3352a93f2dc2266d20467a05b48d
 size 6011

 version https://git-lfs.github.com/spec/v1
+oid sha256:6221336348c810e346236bf80a362d1c36330d016829c5789d6e4b72e63969b6
 size 6011

checkpoint-400/adapter_config.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
   "auto_mapping": null,
-  "base_model_name_or_path": "alpindale/CodeLlama-34B-hf",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
@@ -14,13 +14,13 @@
   "r": 64,
   "revision": null,
   "target_modules": [
-    "v_proj",
-    "up_proj",
-    "gate_proj",
-    "down_proj",
     "q_proj",
     "o_proj",
-    "k_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

 {
   "auto_mapping": null,
+  "base_model_name_or_path": "codellama/CodeLlama-34b-Python-hf",
   "bias": "none",
   "fan_in_fan_out": false,
   "inference_mode": true,
   "r": 64,
   "revision": null,
   "target_modules": [
+    "k_proj",
     "q_proj",
+    "v_proj",
     "o_proj",
+    "gate_proj",
+    "up_proj",
+    "down_proj"
   ],
   "task_type": "CAUSAL_LM"
 }

checkpoint-400/adapter_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:20f63e1f9f5ce72e3d0fcb7fa87c92aeb6019137e90d5971496e900c70d14626
 size 871609293

 version https://git-lfs.github.com/spec/v1
+oid sha256:1af5d01bf9badfccc5c82770b56c6a6cdd6418705b7ac5979ca2a69aa9395cf4
 size 871609293

checkpoint-400/adapter_model/adapter_model/README.md ADDED Viewed

	@@ -0,0 +1,20 @@

+---
+library_name: peft
+---
+## Training procedure
+The following `bitsandbytes` quantization config was used during training:
+- load_in_8bit: False
+- load_in_4bit: True
+- llm_int8_threshold: 6.0
+- llm_int8_skip_modules: None
+- llm_int8_enable_fp32_cpu_offload: False
+- llm_int8_has_fp16_weight: False
+- bnb_4bit_quant_type: nf4
+- bnb_4bit_use_double_quant: True
+- bnb_4bit_compute_dtype: bfloat16
+### Framework versions
+- PEFT 0.4.0

checkpoint-400/adapter_model/adapter_model/adapter_config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "auto_mapping": null,
+  "base_model_name_or_path": "codellama/CodeLlama-34b-Python-hf",
+  "bias": "none",
+  "fan_in_fan_out": false,
+  "inference_mode": true,
+  "init_lora_weights": true,
+  "layers_pattern": null,
+  "layers_to_transform": null,
+  "lora_alpha": 16.0,
+  "lora_dropout": 0.1,
+  "modules_to_save": null,
+  "peft_type": "LORA",
+  "r": 64,
+  "revision": null,
+  "target_modules": [
+    "k_proj",
+    "q_proj",
+    "v_proj",
+    "o_proj",
+    "gate_proj",
+    "up_proj",
+    "down_proj"
+  ],
+  "task_type": "CAUSAL_LM"
+}

checkpoint-400/adapter_model/adapter_model/adapter_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1af5d01bf9badfccc5c82770b56c6a6cdd6418705b7ac5979ca2a69aa9395cf4
+size 871609293

checkpoint-400/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5bbe1bdd2b11078dc20e8ba8d86297f3269b045d20db70804401d8c7b3fe590c
 size 3485881117

 version https://git-lfs.github.com/spec/v1
+oid sha256:e97c9e244ad4da2d730ae74830aef4c3a6ad5097bc9fd5e28b2ad10a070f522d
 size 3485881117

checkpoint-400/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cd8504965e12c1c177b0358cf8e356b8368468b64276e35c622c130f00b781b6
 size 14511

 version https://git-lfs.github.com/spec/v1
+oid sha256:6ce8ae09e310b824c5926b786c493b2261b25e11f1a648afad871272fb89a96f
 size 14511

checkpoint-400/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13276f15dd2b6acc19b970176aa2db4ac9b58241843e72c89b50e3094e903b19
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:9ef1ca3e6fc07b43239ed034e2d8e5ae6ded24ae869473b3f8f48afde040dedc
 size 627

checkpoint-400/tokenizer_config.json CHANGED Viewed

@@ -23,7 +23,6 @@
   "pad_token": null,
   "padding_side": "right",
   "sp_model_kwargs": {},
-  "spaces_between_special_tokens": false,
   "tokenizer_class": "LlamaTokenizer",
   "unk_token": {
     "__type": "AddedToken",
@@ -32,6 +31,5 @@
     "normalized": true,
     "rstrip": false,
     "single_word": false
-  },
-  "use_default_system_prompt": true
 }

   "pad_token": null,
   "padding_side": "right",
   "sp_model_kwargs": {},
   "tokenizer_class": "LlamaTokenizer",
   "unk_token": {
     "__type": "AddedToken",
     "normalized": true,
     "rstrip": false,
     "single_word": false
+  }
 }

checkpoint-400/trainer_state.json CHANGED Viewed

@@ -1,6 +1,6 @@
 {
-  "best_metric": 0.3298754394054413,
-  "best_model_checkpoint": "./output_v2/34bCodellama_CodeLlama-34B-hf_unnatural-instructions_standardized/checkpoint-400",
   "epoch": 0.024444274692536856,
   "global_step": 400,
   "is_hyper_param_search": false,
@@ -9,2550 +9,2490 @@
   "log_history": [
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 1.9735,
       "step": 1
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 2.7155,
       "step": 2
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 3.1137,
       "step": 3
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 1.6054,
       "step": 4
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 1.0381,
       "step": 5
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.9959,
       "step": 6
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.7395,
       "step": 7
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.3255,
       "step": 8
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.8252,
       "step": 9
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.5362,
       "step": 10
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 1.404,
       "step": 11
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.6234,
       "step": 12
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 1.0263,
       "step": 13
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2622,
       "step": 14
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2692,
       "step": 15
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2624,
       "step": 16
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.4385,
       "step": 17
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.3265,
       "step": 18
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2191,
       "step": 19
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 1.0049,
       "step": 20
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.6586,
       "step": 21
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.3471,
       "step": 22
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.7134,
       "step": 23
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 1.01,
       "step": 24
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2802,
       "step": 25
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.4205,
       "step": 26
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.7682,
       "step": 27
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2002,
       "step": 28
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2132,
       "step": 29
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 1.0622,
       "step": 30
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.212,
       "step": 31
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.3738,
       "step": 32
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.3594,
       "step": 33
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.8766,
       "step": 34
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.3108,
       "step": 35
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2127,
       "step": 36
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.5968,
       "step": 37
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.8806,
       "step": 38
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.0633,
       "step": 39
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.5851,
       "step": 40
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2376,
       "step": 41
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2293,
       "step": 42
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.428,
       "step": 43
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.131,
       "step": 44
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.3724,
       "step": 45
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.5031,
       "step": 46
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.4934,
       "step": 47
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.8127,
       "step": 48
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.4573,
       "step": 49
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.5568,
       "step": 50
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.5411,
       "step": 51
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.4448,
       "step": 52
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.3774,
       "step": 53
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.1825,
       "step": 54
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2356,
       "step": 55
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.0236,
       "step": 56
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.4344,
       "step": 57
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.4589,
       "step": 58
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.3766,
       "step": 59
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.6034,
       "step": 60
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.7632,
       "step": 61
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.0612,
       "step": 62
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.6783,
       "step": 63
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2845,
       "step": 64
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.395,
       "step": 65
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.8106,
       "step": 66
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.1468,
       "step": 67
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.0537,
       "step": 68
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.4816,
       "step": 69
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.6052,
       "step": 70
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2805,
       "step": 71
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.8279,
       "step": 72
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.6954,
       "step": 73
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.0635,
       "step": 74
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.2866,
       "step": 75
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.9656,
       "step": 76
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.1113,
       "step": 77
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.4063,
       "step": 78
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.3245,
       "step": 79
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.3966,
       "step": 80
     },
     {
       "epoch": 0.0,
-      "learning_rate": 0.0002,
-      "loss": 0.4809,
       "step": 81
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3844,
       "step": 82
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1501,
       "step": 83
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5504,
       "step": 84
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2332,
       "step": 85
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0049,
       "step": 86
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2585,
       "step": 87
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2012,
       "step": 88
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0386,
       "step": 89
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5818,
       "step": 90
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2827,
       "step": 91
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3877,
       "step": 92
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3117,
       "step": 93
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.9205,
       "step": 94
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.4653,
       "step": 95
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3412,
       "step": 96
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3367,
       "step": 97
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1755,
       "step": 98
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3586,
       "step": 99
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5682,
       "step": 100
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.4869,
       "step": 101
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.7614,
       "step": 102
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.4366,
       "step": 103
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5307,
       "step": 104
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3974,
       "step": 105
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5255,
       "step": 106
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2682,
       "step": 107
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.4884,
       "step": 108
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0414,
       "step": 109
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5094,
       "step": 110
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.298,
       "step": 111
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2147,
       "step": 112
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2712,
       "step": 113
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5713,
       "step": 114
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2979,
       "step": 115
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2424,
       "step": 116
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1412,
       "step": 117
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3252,
       "step": 118
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.4267,
       "step": 119
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2139,
       "step": 120
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.4214,
       "step": 121
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2338,
       "step": 122
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5877,
       "step": 123
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2574,
       "step": 124
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0011,
       "step": 125
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.6156,
       "step": 126
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0888,
       "step": 127
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3159,
       "step": 128
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2122,
       "step": 129
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1131,
       "step": 130
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1634,
       "step": 131
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3788,
       "step": 132
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3187,
       "step": 133
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1685,
       "step": 134
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 1.5573,
       "step": 135
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3409,
       "step": 136
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 1.1279,
       "step": 137
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1385,
       "step": 138
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5391,
       "step": 139
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.9212,
       "step": 140
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3178,
       "step": 141
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1896,
       "step": 142
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2479,
       "step": 143
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0806,
       "step": 144
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.4446,
       "step": 145
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1199,
       "step": 146
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0728,
       "step": 147
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2178,
       "step": 148
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.6712,
       "step": 149
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0917,
       "step": 150
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0679,
       "step": 151
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2296,
       "step": 152
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.4093,
       "step": 153
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.7889,
       "step": 154
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.142,
       "step": 155
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.16,
       "step": 156
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2812,
       "step": 157
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3536,
       "step": 158
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2734,
       "step": 159
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 1.0048,
       "step": 160
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2911,
       "step": 161
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2417,
       "step": 162
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.8293,
       "step": 163
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.4375,
       "step": 164
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.7972,
       "step": 165
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1297,
       "step": 166
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5533,
       "step": 167
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.8447,
       "step": 168
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0787,
       "step": 169
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2196,
       "step": 170
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1463,
       "step": 171
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2969,
       "step": 172
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.204,
       "step": 173
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5595,
       "step": 174
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1947,
       "step": 175
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.239,
       "step": 176
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0937,
       "step": 177
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0284,
       "step": 178
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.4115,
       "step": 179
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1322,
       "step": 180
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3562,
       "step": 181
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5618,
       "step": 182
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5469,
       "step": 183
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2538,
       "step": 184
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3875,
       "step": 185
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1755,
       "step": 186
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5634,
       "step": 187
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5176,
       "step": 188
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3164,
       "step": 189
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1107,
       "step": 190
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.7371,
       "step": 191
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3597,
       "step": 192
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.6858,
       "step": 193
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2797,
       "step": 194
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5096,
       "step": 195
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.4265,
       "step": 196
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.4173,
       "step": 197
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1054,
       "step": 198
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.112,
       "step": 199
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.316,
       "step": 200
     },
     {
       "epoch": 0.01,
-      "eval_loss": 0.3453182876110077,
-      "eval_runtime": 435.8836,
-      "eval_samples_per_second": 2.294,
-      "eval_steps_per_second": 1.147,
       "step": 200
     },
     {
       "epoch": 0.01,
-      "mmlu_eval_accuracy": 0.4811559812252676,
-      "mmlu_eval_accuracy_abstract_algebra": 0.45454545454545453,
-      "mmlu_eval_accuracy_anatomy": 0.5,
-      "mmlu_eval_accuracy_astronomy": 0.25,
-      "mmlu_eval_accuracy_business_ethics": 0.6363636363636364,
       "mmlu_eval_accuracy_clinical_knowledge": 0.41379310344827586,
-      "mmlu_eval_accuracy_college_biology": 0.5,
-      "mmlu_eval_accuracy_college_chemistry": 0.125,
-      "mmlu_eval_accuracy_college_computer_science": 0.45454545454545453,
-      "mmlu_eval_accuracy_college_mathematics": 0.45454545454545453,
-      "mmlu_eval_accuracy_college_medicine": 0.5454545454545454,
-      "mmlu_eval_accuracy_college_physics": 0.36363636363636365,
-      "mmlu_eval_accuracy_computer_security": 0.6363636363636364,
-      "mmlu_eval_accuracy_conceptual_physics": 0.3076923076923077,
-      "mmlu_eval_accuracy_econometrics": 0.3333333333333333,
       "mmlu_eval_accuracy_electrical_engineering": 0.25,
-      "mmlu_eval_accuracy_elementary_mathematics": 0.2926829268292683,
       "mmlu_eval_accuracy_formal_logic": 0.21428571428571427,
       "mmlu_eval_accuracy_global_facts": 0.0,
-      "mmlu_eval_accuracy_high_school_biology": 0.375,
-      "mmlu_eval_accuracy_high_school_chemistry": 0.3181818181818182,
       "mmlu_eval_accuracy_high_school_computer_science": 0.5555555555555556,
-      "mmlu_eval_accuracy_high_school_european_history": 0.7222222222222222,
-      "mmlu_eval_accuracy_high_school_geography": 0.8181818181818182,
-      "mmlu_eval_accuracy_high_school_government_and_politics": 0.6666666666666666,
-      "mmlu_eval_accuracy_high_school_macroeconomics": 0.4186046511627907,
-      "mmlu_eval_accuracy_high_school_mathematics": 0.27586206896551724,
-      "mmlu_eval_accuracy_high_school_microeconomics": 0.5769230769230769,
-      "mmlu_eval_accuracy_high_school_physics": 0.4117647058823529,
-      "mmlu_eval_accuracy_high_school_psychology": 0.7166666666666667,
-      "mmlu_eval_accuracy_high_school_statistics": 0.34782608695652173,
-      "mmlu_eval_accuracy_high_school_us_history": 0.6818181818181818,
-      "mmlu_eval_accuracy_high_school_world_history": 0.5384615384615384,
-      "mmlu_eval_accuracy_human_aging": 0.6086956521739131,
-      "mmlu_eval_accuracy_human_sexuality": 0.3333333333333333,
-      "mmlu_eval_accuracy_international_law": 0.7692307692307693,
-      "mmlu_eval_accuracy_jurisprudence": 0.45454545454545453,
-      "mmlu_eval_accuracy_logical_fallacies": 0.7777777777777778,
-      "mmlu_eval_accuracy_machine_learning": 0.45454545454545453,
-      "mmlu_eval_accuracy_management": 0.7272727272727273,
-      "mmlu_eval_accuracy_marketing": 0.88,
-      "mmlu_eval_accuracy_medical_genetics": 0.7272727272727273,
-      "mmlu_eval_accuracy_miscellaneous": 0.5813953488372093,
-      "mmlu_eval_accuracy_moral_disputes": 0.42105263157894735,
-      "mmlu_eval_accuracy_moral_scenarios": 0.35,
-      "mmlu_eval_accuracy_nutrition": 0.6363636363636364,
-      "mmlu_eval_accuracy_philosophy": 0.47058823529411764,
-      "mmlu_eval_accuracy_prehistory": 0.34285714285714286,
-      "mmlu_eval_accuracy_professional_accounting": 0.22580645161290322,
-      "mmlu_eval_accuracy_professional_law": 0.3176470588235294,
-      "mmlu_eval_accuracy_professional_medicine": 0.2903225806451613,
-      "mmlu_eval_accuracy_professional_psychology": 0.4492753623188406,
-      "mmlu_eval_accuracy_public_relations": 0.4166666666666667,
-      "mmlu_eval_accuracy_security_studies": 0.5185185185185185,
-      "mmlu_eval_accuracy_sociology": 0.5909090909090909,
-      "mmlu_eval_accuracy_us_foreign_policy": 0.6363636363636364,
-      "mmlu_eval_accuracy_virology": 0.5,
-      "mmlu_eval_accuracy_world_religions": 0.7894736842105263,
-      "mmlu_loss": 0.9429792200577477,
       "step": 200
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2838,
       "step": 201
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2909,
       "step": 202
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5662,
       "step": 203
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1471,
       "step": 204
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3506,
       "step": 205
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3255,
       "step": 206
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2363,
       "step": 207
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0581,
       "step": 208
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0182,
       "step": 209
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.4469,
       "step": 210
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.6449,
       "step": 211
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 1.0061,
       "step": 212
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2537,
       "step": 213
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 1.3736,
       "step": 214
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3474,
       "step": 215
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.6253,
       "step": 216
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5241,
       "step": 217
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0377,
       "step": 218
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2494,
       "step": 219
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.152,
       "step": 220
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.253,
       "step": 221
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.075,
       "step": 222
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1513,
       "step": 223
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5925,
       "step": 224
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2344,
       "step": 225
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3119,
       "step": 226
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.4142,
       "step": 227
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5266,
       "step": 228
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3029,
       "step": 229
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5502,
       "step": 230
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1675,
       "step": 231
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.4987,
       "step": 232
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.8938,
       "step": 233
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2379,
       "step": 234
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.0423,
       "step": 235
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1419,
       "step": 236
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2125,
       "step": 237
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3397,
       "step": 238
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.232,
       "step": 239
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.7102,
       "step": 240
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.3081,
       "step": 241
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.2406,
       "step": 242
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.1953,
       "step": 243
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.197,
       "step": 244
     },
     {
       "epoch": 0.01,
-      "learning_rate": 0.0002,
-      "loss": 0.5018,
       "step": 245
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.0011,
       "step": 246
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.1112,
       "step": 247
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2433,
       "step": 248
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2467,
       "step": 249
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2748,
       "step": 250
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.427,
       "step": 251
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.5246,
       "step": 252
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.8089,
       "step": 253
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.5974,
       "step": 254
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.4483,
       "step": 255
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.5411,
       "step": 256
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 1.0383,
       "step": 257
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3503,
       "step": 258
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.4224,
       "step": 259
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3989,
       "step": 260
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.0156,
       "step": 261
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.059,
       "step": 262
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.4875,
       "step": 263
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.5285,
       "step": 264
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3905,
       "step": 265
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2485,
       "step": 266
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.0871,
       "step": 267
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.375,
       "step": 268
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.6823,
       "step": 269
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.1278,
       "step": 270
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.4192,
       "step": 271
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.369,
       "step": 272
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.1667,
       "step": 273
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3167,
       "step": 274
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.4002,
       "step": 275
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.7081,
       "step": 276
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.6772,
       "step": 277
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.9273,
       "step": 278
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3571,
       "step": 279
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3216,
       "step": 280
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3049,
       "step": 281
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3644,
       "step": 282
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.1136,
       "step": 283
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.8281,
       "step": 284
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3866,
       "step": 285
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.6077,
       "step": 286
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2542,
       "step": 287
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.0754,
       "step": 288
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.4549,
       "step": 289
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2535,
       "step": 290
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.0623,
       "step": 291
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.506,
       "step": 292
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.4297,
       "step": 293
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2837,
       "step": 294
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.123,
       "step": 295
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3171,
       "step": 296
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.1956,
       "step": 297
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3334,
       "step": 298
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.1935,
       "step": 299
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.4596,
       "step": 300
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3046,
       "step": 301
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3804,
       "step": 302
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3248,
       "step": 303
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2898,
       "step": 304
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.4411,
       "step": 305
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.5006,
       "step": 306
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.0616,
       "step": 307
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.1974,
       "step": 308
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2575,
       "step": 309
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.1852,
       "step": 310
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.191,
       "step": 311
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.205,
       "step": 312
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3353,
       "step": 313
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.4007,
       "step": 314
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.0527,
       "step": 315
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3113,
       "step": 316
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2557,
       "step": 317
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2492,
       "step": 318
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.0202,
       "step": 319
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.0006,
       "step": 320
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.5835,
       "step": 321
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3835,
       "step": 322
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3948,
       "step": 323
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2367,
       "step": 324
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.0857,
       "step": 325
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2721,
       "step": 326
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.0837,
       "step": 327
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.4804,
       "step": 328
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.0626,
       "step": 329
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.1362,
       "step": 330
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2887,
       "step": 331
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.1514,
       "step": 332
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.5356,
       "step": 333
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2528,
       "step": 334
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.0625,
       "step": 335
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.0133,
       "step": 336
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2942,
       "step": 337
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.7313,
       "step": 338
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3594,
       "step": 339
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.1863,
       "step": 340
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.154,
       "step": 341
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.4095,
       "step": 342
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.0629,
       "step": 343
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.7485,
       "step": 344
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.0399,
       "step": 345
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.8687,
       "step": 346
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.6033,
       "step": 347
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.1485,
       "step": 348
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3709,
       "step": 349
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.0525,
       "step": 350
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.1674,
       "step": 351
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.0609,
       "step": 352
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3799,
       "step": 353
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3422,
       "step": 354
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.4144,
       "step": 355
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2626,
       "step": 356
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.687,
       "step": 357
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.4491,
       "step": 358
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.723,
       "step": 359
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3955,
       "step": 360
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2879,
       "step": 361
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.7725,
       "step": 362
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2334,
       "step": 363
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.7444,
       "step": 364
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.837,
       "step": 365
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3277,
       "step": 366
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.4366,
       "step": 367
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2013,
       "step": 368
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.1617,
       "step": 369
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2804,
       "step": 370
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 1.1655,
       "step": 371
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.6786,
       "step": 372
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3358,
       "step": 373
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.5243,
       "step": 374
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3309,
       "step": 375
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2393,
       "step": 376
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.5474,
       "step": 377
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.1695,
       "step": 378
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.0975,
       "step": 379
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2748,
       "step": 380
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.6588,
       "step": 381
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3226,
       "step": 382
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.1443,
       "step": 383
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2284,
       "step": 384
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2532,
       "step": 385
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.4315,
       "step": 386
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3583,
       "step": 387
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.1068,
       "step": 388
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3752,
       "step": 389
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3231,
       "step": 390
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.12,
       "step": 391
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2209,
       "step": 392
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.3115,
       "step": 393
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.4848,
       "step": 394
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2688,
       "step": 395
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.2797,
       "step": 396
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.4188,
       "step": 397
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.1552,
       "step": 398
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.1362,
       "step": 399
     },
     {
       "epoch": 0.02,
-      "learning_rate": 0.0002,
-      "loss": 0.287,
       "step": 400
     },
     {
       "epoch": 0.02,
-      "eval_loss": 0.3298754394054413,
-      "eval_runtime": 436.0672,
-      "eval_samples_per_second": 2.293,
-      "eval_steps_per_second": 1.147,
       "step": 400
     },
     {
       "epoch": 0.02,
-      "mmlu_eval_accuracy": 0.4953105974030981,
-      "mmlu_eval_accuracy_abstract_algebra": 0.45454545454545453,
       "mmlu_eval_accuracy_anatomy": 0.5,
       "mmlu_eval_accuracy_astronomy": 0.375,
-      "mmlu_eval_accuracy_business_ethics": 0.5454545454545454,
       "mmlu_eval_accuracy_clinical_knowledge": 0.4827586206896552,
-      "mmlu_eval_accuracy_college_biology": 0.4375,
       "mmlu_eval_accuracy_college_chemistry": 0.125,
       "mmlu_eval_accuracy_college_computer_science": 0.2727272727272727,
-      "mmlu_eval_accuracy_college_mathematics": 0.36363636363636365,
-      "mmlu_eval_accuracy_college_medicine": 0.5,
-      "mmlu_eval_accuracy_college_physics": 0.36363636363636365,
-      "mmlu_eval_accuracy_computer_security": 0.8181818181818182,
-      "mmlu_eval_accuracy_conceptual_physics": 0.2692307692307692,
-      "mmlu_eval_accuracy_econometrics": 0.3333333333333333,
-      "mmlu_eval_accuracy_electrical_engineering": 0.3125,
-      "mmlu_eval_accuracy_elementary_mathematics": 0.43902439024390244,
-      "mmlu_eval_accuracy_formal_logic": 0.2857142857142857,
-      "mmlu_eval_accuracy_global_facts": 0.1,
-      "mmlu_eval_accuracy_high_school_biology": 0.3125,
       "mmlu_eval_accuracy_high_school_chemistry": 0.22727272727272727,
-      "mmlu_eval_accuracy_high_school_computer_science": 0.5555555555555556,
-      "mmlu_eval_accuracy_high_school_european_history": 0.6666666666666666,
-      "mmlu_eval_accuracy_high_school_geography": 0.8181818181818182,
-      "mmlu_eval_accuracy_high_school_government_and_politics": 0.7142857142857143,
-      "mmlu_eval_accuracy_high_school_macroeconomics": 0.46511627906976744,
-      "mmlu_eval_accuracy_high_school_mathematics": 0.27586206896551724,
-      "mmlu_eval_accuracy_high_school_microeconomics": 0.5,
-      "mmlu_eval_accuracy_high_school_physics": 0.29411764705882354,
-      "mmlu_eval_accuracy_high_school_psychology": 0.7333333333333333,
-      "mmlu_eval_accuracy_high_school_statistics": 0.2608695652173913,
-      "mmlu_eval_accuracy_high_school_us_history": 0.5909090909090909,
-      "mmlu_eval_accuracy_high_school_world_history": 0.46153846153846156,
-      "mmlu_eval_accuracy_human_aging": 0.5217391304347826,
-      "mmlu_eval_accuracy_human_sexuality": 0.4166666666666667,
-      "mmlu_eval_accuracy_international_law": 0.6923076923076923,
-      "mmlu_eval_accuracy_jurisprudence": 0.5454545454545454,
-      "mmlu_eval_accuracy_logical_fallacies": 0.7777777777777778,
-      "mmlu_eval_accuracy_machine_learning": 0.36363636363636365,
-      "mmlu_eval_accuracy_management": 0.8181818181818182,
-      "mmlu_eval_accuracy_marketing": 0.8,
-      "mmlu_eval_accuracy_medical_genetics": 0.8181818181818182,
-      "mmlu_eval_accuracy_miscellaneous": 0.6046511627906976,
-      "mmlu_eval_accuracy_moral_disputes": 0.42105263157894735,
-      "mmlu_eval_accuracy_moral_scenarios": 0.37,
-      "mmlu_eval_accuracy_nutrition": 0.696969696969697,
-      "mmlu_eval_accuracy_philosophy": 0.5882352941176471,
-      "mmlu_eval_accuracy_prehistory": 0.4,
-      "mmlu_eval_accuracy_professional_accounting": 0.3548387096774194,
-      "mmlu_eval_accuracy_professional_law": 0.3411764705882353,
-      "mmlu_eval_accuracy_professional_medicine": 0.4838709677419355,
-      "mmlu_eval_accuracy_professional_psychology": 0.463768115942029,
-      "mmlu_eval_accuracy_public_relations": 0.4166666666666667,
-      "mmlu_eval_accuracy_security_studies": 0.5925925925925926,
-      "mmlu_eval_accuracy_sociology": 0.8181818181818182,
-      "mmlu_eval_accuracy_us_foreign_policy": 0.7272727272727273,
-      "mmlu_eval_accuracy_virology": 0.5555555555555556,
-      "mmlu_eval_accuracy_world_religions": 0.7894736842105263,
-      "mmlu_loss": 0.7769390310382096,
       "step": 400
     }
   ],
   "max_steps": 5000,
   "num_train_epochs": 1,
-  "total_flos": 7.124647112166605e+16,
   "trial_name": null,
   "trial_params": null
 }

 {
+  "best_metric": 0.36855557560920715,
+  "best_model_checkpoint": "./output_v2/34bCodellama_CodeLlama-34b-Python-hf_unnatural-instructions_standardized/checkpoint-400",
   "epoch": 0.024444274692536856,
   "global_step": 400,
   "is_hyper_param_search": false,
   "log_history": [
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.1006,
       "step": 1
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 1.2792,
       "step": 2
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.3465,
       "step": 3
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.4367,
       "step": 4
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.1706,
       "step": 5
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.632,
       "step": 6
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.1233,
       "step": 7
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.4661,
       "step": 8
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.1672,
       "step": 9
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.0641,
       "step": 10
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.3908,
       "step": 11
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.505,
       "step": 12
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.7672,
       "step": 13
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.2875,
       "step": 14
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.4619,
       "step": 15
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.4586,
       "step": 16
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.7159,
       "step": 17
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.207,
       "step": 18
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.4808,
       "step": 19
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.104,
       "step": 20
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.5561,
       "step": 21
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.4114,
       "step": 22
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.3656,
       "step": 23
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.6222,
       "step": 24
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.502,
       "step": 25
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.3339,
       "step": 26
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.6282,
       "step": 27
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.104,
       "step": 28
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.7241,
       "step": 29
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.7388,
       "step": 30
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.1877,
       "step": 31
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.5733,
       "step": 32
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.6204,
       "step": 33
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.9779,
       "step": 34
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 1.0215,
       "step": 35
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.2895,
       "step": 36
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.3081,
       "step": 37
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.6799,
       "step": 38
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.6704,
       "step": 39
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.6087,
       "step": 40
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.8191,
       "step": 41
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.307,
       "step": 42
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.431,
       "step": 43
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.2427,
       "step": 44
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.8054,
       "step": 45
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 1.0238,
       "step": 46
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.4241,
       "step": 47
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.1145,
       "step": 48
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 1.069,
       "step": 49
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 1.0728,
       "step": 50
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.108,
       "step": 51
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.2927,
       "step": 52
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.2443,
       "step": 53
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.0006,
       "step": 54
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.2178,
       "step": 55
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.2221,
       "step": 56
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.0375,
       "step": 57
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.1756,
       "step": 58
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.4141,
       "step": 59
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.154,
       "step": 60
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.1159,
       "step": 61
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.2163,
       "step": 62
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.3193,
       "step": 63
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.3983,
       "step": 64
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.7675,
       "step": 65
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.395,
       "step": 66
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.4137,
       "step": 67
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.1585,
       "step": 68
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.0744,
       "step": 69
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.2868,
       "step": 70
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.6288,
       "step": 71
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.2539,
       "step": 72
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.9,
       "step": 73
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.5689,
       "step": 74
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.1503,
       "step": 75
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.6418,
       "step": 76
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.2353,
       "step": 77
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.8223,
       "step": 78
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.1297,
       "step": 79
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.6385,
       "step": 80
     },
     {
       "epoch": 0.0,
+      "learning_rate": 0.0004,
+      "loss": 0.1623,
       "step": 81
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3846,
       "step": 82
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3152,
       "step": 83
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1425,
       "step": 84
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.6978,
       "step": 85
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 1.0012,
       "step": 86
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1544,
       "step": 87
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.7167,
       "step": 88
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.5173,
       "step": 89
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.4471,
       "step": 90
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.4159,
       "step": 91
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.697,
       "step": 92
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2301,
       "step": 93
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.9655,
       "step": 94
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2113,
       "step": 95
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 1.5099,
       "step": 96
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.6587,
       "step": 97
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.677,
       "step": 98
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.8563,
       "step": 99
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 1.6579,
       "step": 100
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2976,
       "step": 101
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.4181,
       "step": 102
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3141,
       "step": 103
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1189,
       "step": 104
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.0589,
       "step": 105
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.533,
       "step": 106
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.4562,
       "step": 107
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2835,
       "step": 108
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.5246,
       "step": 109
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2345,
       "step": 110
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1858,
       "step": 111
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.5243,
       "step": 112
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3014,
       "step": 113
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.0783,
       "step": 114
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1369,
       "step": 115
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1517,
       "step": 116
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.4089,
       "step": 117
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.184,
       "step": 118
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.218,
       "step": 119
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2696,
       "step": 120
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.0955,
       "step": 121
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3469,
       "step": 122
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2769,
       "step": 123
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2437,
       "step": 124
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2283,
       "step": 125
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.5484,
       "step": 126
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3495,
       "step": 127
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.7042,
       "step": 128
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3839,
       "step": 129
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3892,
       "step": 130
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2422,
       "step": 131
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3934,
       "step": 132
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.4136,
       "step": 133
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.0939,
       "step": 134
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.508,
       "step": 135
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3331,
       "step": 136
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.377,
       "step": 137
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.8366,
       "step": 138
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2068,
       "step": 139
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.484,
       "step": 140
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.8796,
       "step": 141
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.4984,
       "step": 142
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.5241,
       "step": 143
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.4839,
       "step": 144
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2773,
       "step": 145
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.5004,
       "step": 146
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3029,
       "step": 147
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.9682,
       "step": 148
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3496,
       "step": 149
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.462,
       "step": 150
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1464,
       "step": 151
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1177,
       "step": 152
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3903,
       "step": 153
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2373,
       "step": 154
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1732,
       "step": 155
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.5158,
       "step": 156
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3224,
       "step": 157
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2082,
       "step": 158
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2307,
       "step": 159
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1758,
       "step": 160
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2339,
       "step": 161
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.0613,
       "step": 162
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1142,
       "step": 163
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3177,
       "step": 164
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.4358,
       "step": 165
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 1.3582,
       "step": 166
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.5703,
       "step": 167
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3477,
       "step": 168
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.4394,
       "step": 169
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3481,
       "step": 170
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1735,
       "step": 171
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.0878,
       "step": 172
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.0659,
       "step": 173
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3527,
       "step": 174
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1819,
       "step": 175
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.379,
       "step": 176
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2146,
       "step": 177
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.133,
       "step": 178
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.5217,
       "step": 179
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3077,
       "step": 180
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.0022,
       "step": 181
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1031,
       "step": 182
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.681,
       "step": 183
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.7839,
       "step": 184
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.6465,
       "step": 185
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2607,
       "step": 186
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.7913,
       "step": 187
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.4266,
       "step": 188
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2851,
       "step": 189
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.6628,
       "step": 190
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.8151,
       "step": 191
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3577,
       "step": 192
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.4329,
       "step": 193
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1639,
       "step": 194
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1394,
       "step": 195
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3146,
       "step": 196
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2623,
       "step": 197
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 1.3405,
       "step": 198
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.6208,
       "step": 199
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.7118,
       "step": 200
     },
     {
       "epoch": 0.01,
+      "eval_loss": 0.3938411474227905,
+      "eval_runtime": 219.0899,
+      "eval_samples_per_second": 2.282,
+      "eval_steps_per_second": 1.141,
       "step": 200
     },
     {
       "epoch": 0.01,
+      "mmlu_eval_accuracy": 0.3485764968358423,
+      "mmlu_eval_accuracy_abstract_algebra": 0.36363636363636365,
+      "mmlu_eval_accuracy_anatomy": 0.35714285714285715,
+      "mmlu_eval_accuracy_astronomy": 0.5,
+      "mmlu_eval_accuracy_business_ethics": 0.2727272727272727,
       "mmlu_eval_accuracy_clinical_knowledge": 0.41379310344827586,
+      "mmlu_eval_accuracy_college_biology": 0.4375,
+      "mmlu_eval_accuracy_college_chemistry": 0.25,
+      "mmlu_eval_accuracy_college_computer_science": 0.36363636363636365,
+      "mmlu_eval_accuracy_college_mathematics": 0.36363636363636365,
+      "mmlu_eval_accuracy_college_medicine": 0.4090909090909091,
+      "mmlu_eval_accuracy_college_physics": 0.2727272727272727,
+      "mmlu_eval_accuracy_computer_security": 0.45454545454545453,
+      "mmlu_eval_accuracy_conceptual_physics": 0.34615384615384615,
+      "mmlu_eval_accuracy_econometrics": 0.25,
       "mmlu_eval_accuracy_electrical_engineering": 0.25,
+      "mmlu_eval_accuracy_elementary_mathematics": 0.34146341463414637,
       "mmlu_eval_accuracy_formal_logic": 0.21428571428571427,
       "mmlu_eval_accuracy_global_facts": 0.0,
+      "mmlu_eval_accuracy_high_school_biology": 0.3125,
+      "mmlu_eval_accuracy_high_school_chemistry": 0.18181818181818182,
       "mmlu_eval_accuracy_high_school_computer_science": 0.5555555555555556,
+      "mmlu_eval_accuracy_high_school_european_history": 0.5555555555555556,
+      "mmlu_eval_accuracy_high_school_geography": 0.7272727272727273,
+      "mmlu_eval_accuracy_high_school_government_and_politics": 0.2857142857142857,
+      "mmlu_eval_accuracy_high_school_macroeconomics": 0.5116279069767442,
+      "mmlu_eval_accuracy_high_school_mathematics": 0.20689655172413793,
+      "mmlu_eval_accuracy_high_school_microeconomics": 0.21428571428571427,
+      "mmlu_loss": 0.783768397025764,
       "step": 200
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.9429,
       "step": 201
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1329,
       "step": 202
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1037,
       "step": 203
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1569,
       "step": 204
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1435,
       "step": 205
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1809,
       "step": 206
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3113,
       "step": 207
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.5093,
       "step": 208
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3999,
       "step": 209
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2678,
       "step": 210
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3196,
       "step": 211
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.6502,
       "step": 212
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2296,
       "step": 213
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.5807,
       "step": 214
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1532,
       "step": 215
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.4757,
       "step": 216
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.228,
       "step": 217
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.9191,
       "step": 218
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1239,
       "step": 219
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.6583,
       "step": 220
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1169,
       "step": 221
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.4391,
       "step": 222
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.2499,
       "step": 223
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3765,
       "step": 224
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3311,
       "step": 225
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.4432,
       "step": 226
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.273,
       "step": 227
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.0578,
       "step": 228
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.7053,
       "step": 229
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.724,
       "step": 230
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.0928,
       "step": 231
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.903,
       "step": 232
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.7901,
       "step": 233
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.7745,
       "step": 234
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3911,
       "step": 235
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.1124,
       "step": 236
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.6872,
       "step": 237
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3603,
       "step": 238
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.7547,
       "step": 239
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.5801,
       "step": 240
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.565,
       "step": 241
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.5144,
       "step": 242
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.7707,
       "step": 243
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.3473,
       "step": 244
     },
     {
       "epoch": 0.01,
+      "learning_rate": 0.0004,
+      "loss": 0.7117,
       "step": 245
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 1.2869,
       "step": 246
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.835,
       "step": 247
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 1.023,
       "step": 248
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.3017,
       "step": 249
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 1.5144,
       "step": 250
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.2024,
       "step": 251
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.1079,
       "step": 252
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.2874,
       "step": 253
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.0762,
       "step": 254
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.0513,
       "step": 255
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.6924,
       "step": 256
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.3838,
       "step": 257
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.2467,
       "step": 258
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.3778,
       "step": 259
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.1238,
       "step": 260
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.336,
       "step": 261
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 1.1311,
       "step": 262
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.3756,
       "step": 263
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.2104,
       "step": 264
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.2373,
       "step": 265
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.3603,
       "step": 266
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.1986,
       "step": 267
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.1257,
       "step": 268
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.7065,
       "step": 269
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.148,
       "step": 270
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.0937,
       "step": 271
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.4194,
       "step": 272
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.5164,
       "step": 273
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.1585,
       "step": 274
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.4005,
       "step": 275
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.2115,
       "step": 276
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.0974,
       "step": 277
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.2902,
       "step": 278
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.5665,
       "step": 279
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.4776,
       "step": 280
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.4144,
       "step": 281
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.2455,
       "step": 282
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.1699,
       "step": 283
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.1421,
       "step": 284
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.1625,
       "step": 285
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.1451,
       "step": 286
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.2915,
       "step": 287
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.5279,
       "step": 288
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.3336,
       "step": 289
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.2865,
       "step": 290
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.3335,
       "step": 291
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.5623,
       "step": 292
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.4999,
       "step": 293
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.3863,
       "step": 294
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.8553,
       "step": 295
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.5907,
       "step": 296
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.411,
       "step": 297
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.8062,
       "step": 298
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.6118,
       "step": 299
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.9868,
       "step": 300
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 1.4436,
       "step": 301
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.0785,
       "step": 302
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.0027,
       "step": 303
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.0584,
       "step": 304
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.4422,
       "step": 305
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.4163,
       "step": 306
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.0861,
       "step": 307
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.1849,
       "step": 308
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.2862,
       "step": 309
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.1654,
       "step": 310
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.0498,
       "step": 311
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.2044,
       "step": 312
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.1615,
       "step": 313
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.3443,
       "step": 314
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.1133,
       "step": 315
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.9935,
       "step": 316
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.0738,
       "step": 317
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.7676,
       "step": 318
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.5102,
       "step": 319
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.3776,
       "step": 320
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.6596,
       "step": 321
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.3674,
       "step": 322
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.2252,
       "step": 323
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.2687,
       "step": 324
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.4756,
       "step": 325
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.1923,
       "step": 326
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.4282,
       "step": 327
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.0104,
       "step": 328
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.1326,
       "step": 329
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.9252,
       "step": 330
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.5622,
       "step": 331
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.6532,
       "step": 332
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.1987,
       "step": 333
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.3073,
       "step": 334
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.7015,
       "step": 335
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.4761,
       "step": 336
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.4269,
       "step": 337
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.988,
       "step": 338
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.3558,
       "step": 339
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.1494,
       "step": 340
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 1.1602,
       "step": 341
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.8131,
       "step": 342
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.1298,
       "step": 343
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.3267,
       "step": 344
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.9548,
       "step": 345
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.62,
       "step": 346
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.9897,
       "step": 347
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.546,
       "step": 348
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.8286,
       "step": 349
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 1.0614,
       "step": 350
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.0516,
       "step": 351
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.4044,
       "step": 352
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.1558,
       "step": 353
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.149,
       "step": 354
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.2533,
       "step": 355
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.4241,
       "step": 356
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.0167,
       "step": 357
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.2235,
       "step": 358
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.0712,
       "step": 359
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.4779,
       "step": 360
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.0887,
       "step": 361
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.0534,
       "step": 362
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.1561,
       "step": 363
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.2777,
       "step": 364
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.202,
       "step": 365
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.002,
       "step": 366
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.4045,
       "step": 367
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.6756,
       "step": 368
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.2138,
       "step": 369
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.6403,
       "step": 370
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.0688,
       "step": 371
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.2767,
       "step": 372
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 1.0905,
       "step": 373
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.1871,
       "step": 374
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.2342,
       "step": 375
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.559,
       "step": 376
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.1791,
       "step": 377
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.311,
       "step": 378
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.39,
       "step": 379
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.7051,
       "step": 380
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.2912,
       "step": 381
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.1762,
       "step": 382
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.5241,
       "step": 383
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.5655,
       "step": 384
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.1796,
       "step": 385
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.9497,
       "step": 386
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.5626,
       "step": 387
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.3157,
       "step": 388
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.5506,
       "step": 389
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.7158,
       "step": 390
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.7723,
       "step": 391
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.3411,
       "step": 392
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.3612,
       "step": 393
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.9484,
       "step": 394
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.7988,
       "step": 395
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.6859,
       "step": 396
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.1707,
       "step": 397
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.5727,
       "step": 398
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 0.7488,
       "step": 399
     },
     {
       "epoch": 0.02,
+      "learning_rate": 0.0004,
+      "loss": 1.3428,
       "step": 400
     },
     {
       "epoch": 0.02,
+      "eval_loss": 0.36855557560920715,
+      "eval_runtime": 218.1575,
+      "eval_samples_per_second": 2.292,
+      "eval_steps_per_second": 1.146,
       "step": 400
     },
     {
       "epoch": 0.02,
+      "mmlu_eval_accuracy": 0.37785769008166176,
+      "mmlu_eval_accuracy_abstract_algebra": 0.2727272727272727,
       "mmlu_eval_accuracy_anatomy": 0.5,
       "mmlu_eval_accuracy_astronomy": 0.375,
+      "mmlu_eval_accuracy_business_ethics": 0.45454545454545453,
       "mmlu_eval_accuracy_clinical_knowledge": 0.4827586206896552,
+      "mmlu_eval_accuracy_college_biology": 0.25,
       "mmlu_eval_accuracy_college_chemistry": 0.125,
       "mmlu_eval_accuracy_college_computer_science": 0.2727272727272727,
+      "mmlu_eval_accuracy_college_mathematics": 0.18181818181818182,
+      "mmlu_eval_accuracy_college_medicine": 0.5909090909090909,
+      "mmlu_eval_accuracy_college_physics": 0.5454545454545454,
+      "mmlu_eval_accuracy_computer_security": 0.45454545454545453,
+      "mmlu_eval_accuracy_conceptual_physics": 0.4230769230769231,
+      "mmlu_eval_accuracy_econometrics": 0.25,
+      "mmlu_eval_accuracy_electrical_engineering": 0.1875,
+      "mmlu_eval_accuracy_elementary_mathematics": 0.34146341463414637,
+      "mmlu_eval_accuracy_formal_logic": 0.14285714285714285,
+      "mmlu_eval_accuracy_global_facts": 0.3,
+      "mmlu_eval_accuracy_high_school_biology": 0.4375,
       "mmlu_eval_accuracy_high_school_chemistry": 0.22727272727272727,
+      "mmlu_eval_accuracy_high_school_computer_science": 0.6666666666666666,
+      "mmlu_eval_accuracy_high_school_european_history": 0.5,
+      "mmlu_eval_accuracy_high_school_geography": 0.7727272727272727,
+      "mmlu_eval_accuracy_high_school_government_and_politics": 0.47619047619047616,
+      "mmlu_eval_accuracy_high_school_macroeconomics": 0.4418604651162791,
+      "mmlu_eval_accuracy_high_school_mathematics": 0.1724137931034483,
+      "mmlu_eval_accuracy_high_school_microeconomics": 0.35714285714285715,
+      "mmlu_loss": 0.7700759556740523,
       "step": 400
     }
   ],
   "max_steps": 5000,
   "num_train_epochs": 1,
+  "total_flos": 5.810756599893197e+16,
   "trial_name": null,
   "trial_params": null
 }

checkpoint-400/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd28a065deb906dd6787d5be775d7f7fef1c3352a93f2dc2266d20467a05b48d
 size 6011

 version https://git-lfs.github.com/spec/v1
+oid sha256:6221336348c810e346236bf80a362d1c36330d016829c5789d6e4b72e63969b6
 size 6011

tokenizer_config.json CHANGED Viewed

@@ -23,7 +23,6 @@
   "pad_token": null,
   "padding_side": "right",
   "sp_model_kwargs": {},
-  "spaces_between_special_tokens": false,
   "tokenizer_class": "LlamaTokenizer",
   "unk_token": {
     "__type": "AddedToken",
@@ -32,6 +31,5 @@
     "normalized": true,
     "rstrip": false,
     "single_word": false
-  },
-  "use_default_system_prompt": true
 }

   "pad_token": null,
   "padding_side": "right",
   "sp_model_kwargs": {},
   "tokenizer_class": "LlamaTokenizer",
   "unk_token": {
     "__type": "AddedToken",
     "normalized": true,
     "rstrip": false,
     "single_word": false
+  }
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fd28a065deb906dd6787d5be775d7f7fef1c3352a93f2dc2266d20467a05b48d
 size 6011

 version https://git-lfs.github.com/spec/v1
+oid sha256:6221336348c810e346236bf80a362d1c36330d016829c5789d6e4b72e63969b6
 size 6011