cotysong113 commited on Dec 20, 2024

Commit

f0db936

verified ·

1 Parent(s): 62feee5

Training in progress, step 1590

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

README.md +9 -9
config.json +1 -1
model.safetensors +1 -1
run-1/checkpoint-2862/config.json +1 -1
run-1/checkpoint-2862/model.safetensors +1 -1
run-1/checkpoint-2862/optimizer.pt +2 -2
run-1/checkpoint-2862/rng_state.pth +2 -2
run-1/checkpoint-2862/scheduler.pt +1 -1
run-1/checkpoint-2862/trainer_state.json +60 -60
run-1/checkpoint-2862/training_args.bin +2 -2
run-10/checkpoint-3180/config.json +1 -1
run-10/checkpoint-3180/model.safetensors +1 -1
run-10/checkpoint-3180/optimizer.pt +2 -2
run-10/checkpoint-3180/rng_state.pth +2 -2
run-10/checkpoint-3180/scheduler.pt +1 -1
run-10/checkpoint-3180/trainer_state.json +65 -65
run-10/checkpoint-3180/training_args.bin +2 -2
run-11/checkpoint-3180/config.json +1 -1
run-11/checkpoint-3180/model.safetensors +1 -1
run-11/checkpoint-3180/optimizer.pt +2 -2
run-11/checkpoint-3180/rng_state.pth +2 -2
run-11/checkpoint-3180/scheduler.pt +1 -1
run-11/checkpoint-3180/trainer_state.json +63 -63
run-11/checkpoint-3180/training_args.bin +2 -2
run-12/checkpoint-2862/config.json +1 -1
run-12/checkpoint-2862/model.safetensors +1 -1
run-12/checkpoint-2862/optimizer.pt +2 -2
run-12/checkpoint-2862/rng_state.pth +2 -2
run-12/checkpoint-2862/scheduler.pt +1 -1
run-12/checkpoint-2862/trainer_state.json +58 -58
run-12/checkpoint-2862/training_args.bin +2 -2
run-12/checkpoint-3180/config.json +1 -1
run-12/checkpoint-3180/model.safetensors +1 -1
run-12/checkpoint-3180/optimizer.pt +2 -2
run-12/checkpoint-3180/rng_state.pth +2 -2
run-12/checkpoint-3180/scheduler.pt +1 -1
run-12/checkpoint-3180/trainer_state.json +65 -65
run-12/checkpoint-3180/training_args.bin +2 -2
run-17/checkpoint-2862/config.json +1 -1
run-17/checkpoint-2862/model.safetensors +1 -1
run-17/checkpoint-2862/optimizer.pt +2 -2
run-17/checkpoint-2862/rng_state.pth +2 -2
run-17/checkpoint-2862/scheduler.pt +1 -1
run-17/checkpoint-2862/trainer_state.json +61 -61
run-17/checkpoint-2862/training_args.bin +2 -2
run-2/checkpoint-2544/config.json +1 -1
run-2/checkpoint-2544/model.safetensors +1 -1
run-2/checkpoint-2544/optimizer.pt +2 -2
run-2/checkpoint-2544/rng_state.pth +2 -2
run-2/checkpoint-2544/scheduler.pt +1 -1

README.md CHANGED Viewed

@@ -18,8 +18,8 @@ should probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [distilbert-base-uncased](https://huggingface.co/distilbert-base-uncased) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Loss: 0.7825
-- Accuracy: 0.9152
 ## Model description
@@ -50,16 +50,16 @@ The following hyperparameters were used during training:
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
-| 4.3026        | 1.0   | 318  | 3.2852          | 0.7316   |
-| 2.6284        | 2.0   | 636  | 1.8741          | 0.8510   |
-| 1.5524        | 3.0   | 954  | 1.1640          | 0.8910   |
-| 1.0182        | 4.0   | 1272 | 0.8668          | 0.9106   |
-| 0.8045        | 5.0   | 1590 | 0.7825          | 0.9152   |
 ### Framework versions
-- Transformers 4.47.0
-- Pytorch 2.5.1
 - Datasets 3.2.0
 - Tokenizers 0.21.0

 This model is a fine-tuned version of [distilbert-base-uncased](https://huggingface.co/distilbert-base-uncased) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Loss: 0.8083
+- Accuracy: 0.9161
 ## Model description
 | Training Loss | Epoch | Step | Validation Loss | Accuracy |
 |:-------------:|:-----:|:----:|:---------------:|:--------:|
+| 4.3211        | 1.0   | 318  | 3.3248          | 0.7210   |
+| 2.6732        | 2.0   | 636  | 1.9187          | 0.8406   |
+| 1.5914        | 3.0   | 954  | 1.1971          | 0.8877   |
+| 1.0497        | 4.0   | 1272 | 0.8947          | 0.9090   |
+| 0.8283        | 5.0   | 1590 | 0.8083          | 0.9161   |
 ### Framework versions
+- Transformers 4.47.1
+- Pytorch 2.5.1+cu124
 - Datasets 3.2.0
 - Tokenizers 0.21.0

config.json CHANGED Viewed

@@ -326,6 +326,6 @@
   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.47.0",
   "vocab_size": 30522
 }

   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.47.1",
   "vocab_size": 30522
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6dba1231926faf59ba8e66e75038141c586d1a2ad892362af3b9ae8429919f80
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ae88eff2997cf8baa4f19bc76eed6ee56ba9dca3d564bfe316860bf65c80beb
 size 268290900

run-1/checkpoint-2862/config.json CHANGED Viewed

@@ -326,6 +326,6 @@
   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.47.0",
   "vocab_size": 30522
 }

   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.47.1",
   "vocab_size": 30522
 }

run-1/checkpoint-2862/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9485849fc0f0619157aa7247a4b8c39d8dfc23d577ec0b7a1bea0cf750df421f
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd49d9fed4d63ff70ccf669cdd06027bd63c93903a136a53cb3b5045948a815c
 size 268290900

run-1/checkpoint-2862/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:585c9dc0ed78d00cdde852275b7d2821654d6ad9b4d8ec79438d49ec18d9dfcc
-size 536641018

 version https://git-lfs.github.com/spec/v1
+oid sha256:9070031d06060d90440e64a4923632ac3124825b3b707313668acd353160cdbd
+size 536643898

run-1/checkpoint-2862/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e29353d4954fcf585947caa6a0a3fa59c7379d49f3bc56c6a4bd276fef18ca98
-size 13990

 version https://git-lfs.github.com/spec/v1
+oid sha256:41b5282f1cde964bf5a382eb03f1cdd87f1c8e2f60e43277b3453f63947f5933
+size 14244

run-1/checkpoint-2862/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3c64bfaed33db311081ee0596530a03699ac7659f0cf4f57a488fea34df98816
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a738824491ff8b261b6db2a842e15bf80355d04a07892a16df2c4715b2ee556
 size 1064

run-1/checkpoint-2862/trainer_state.json CHANGED Viewed

@@ -10,137 +10,137 @@
   "log_history": [
     {
       "epoch": 0.9968553459119497,
-      "grad_norm": 0.6216608881950378,
       "learning_rate": 1.7784765897973445e-05,
-      "loss": 0.3805,
       "step": 317
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.5790322580645161,
-      "eval_loss": 0.18826216459274292,
-      "eval_runtime": 2.6452,
-      "eval_samples_per_second": 1171.927,
-      "eval_steps_per_second": 24.573,
       "step": 318
     },
     {
       "epoch": 1.9937106918238994,
-      "grad_norm": 0.5106726288795471,
       "learning_rate": 1.556953179594689e-05,
-      "loss": 0.1584,
       "step": 634
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8203225806451613,
-      "eval_loss": 0.0928473100066185,
-      "eval_runtime": 2.7805,
-      "eval_samples_per_second": 1114.911,
-      "eval_steps_per_second": 23.377,
       "step": 636
     },
     {
       "epoch": 2.990566037735849,
-      "grad_norm": 0.4919030964374542,
       "learning_rate": 1.3354297693920338e-05,
-      "loss": 0.1001,
       "step": 951
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8787096774193548,
-      "eval_loss": 0.06263605505228043,
-      "eval_runtime": 2.6683,
-      "eval_samples_per_second": 1161.795,
-      "eval_steps_per_second": 24.36,
       "step": 954
     },
     {
       "epoch": 3.9874213836477987,
-      "grad_norm": 0.3679712116718292,
       "learning_rate": 1.1139063591893781e-05,
-      "loss": 0.0754,
       "step": 1268
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.8974193548387097,
-      "eval_loss": 0.048369407653808594,
-      "eval_runtime": 2.749,
-      "eval_samples_per_second": 1127.668,
-      "eval_steps_per_second": 23.645,
       "step": 1272
     },
     {
       "epoch": 4.984276729559748,
-      "grad_norm": 0.27457061409950256,
       "learning_rate": 8.923829489867226e-06,
-      "loss": 0.0627,
       "step": 1585
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.9064516129032258,
-      "eval_loss": 0.04010023921728134,
-      "eval_runtime": 2.7621,
-      "eval_samples_per_second": 1122.344,
-      "eval_steps_per_second": 23.533,
       "step": 1590
     },
     {
       "epoch": 5.981132075471698,
-      "grad_norm": 0.29231536388397217,
       "learning_rate": 6.708595387840672e-06,
-      "loss": 0.0551,
       "step": 1902
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.9119354838709678,
-      "eval_loss": 0.035356562584638596,
-      "eval_runtime": 3.1487,
-      "eval_samples_per_second": 984.536,
-      "eval_steps_per_second": 20.643,
       "step": 1908
     },
     {
       "epoch": 6.977987421383648,
-      "grad_norm": 0.30922219157218933,
       "learning_rate": 4.4933612858141165e-06,
-      "loss": 0.0503,
       "step": 2219
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.9180645161290323,
-      "eval_loss": 0.03271542862057686,
-      "eval_runtime": 3.1361,
-      "eval_samples_per_second": 988.49,
-      "eval_steps_per_second": 20.726,
       "step": 2226
     },
     {
       "epoch": 7.9748427672955975,
-      "grad_norm": 0.27570685744285583,
       "learning_rate": 2.2781271837875614e-06,
-      "loss": 0.0474,
       "step": 2536
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.9203225806451613,
-      "eval_loss": 0.031012877821922302,
-      "eval_runtime": 2.9764,
-      "eval_samples_per_second": 1041.529,
-      "eval_steps_per_second": 21.839,
       "step": 2544
     },
     {
       "epoch": 8.971698113207546,
-      "grad_norm": 0.40512949228286743,
       "learning_rate": 6.289308176100629e-08,
-      "loss": 0.046,
       "step": 2853
     }
   ],
@@ -165,8 +165,8 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.006547213182126477,
     "num_train_epochs": 9,
-    "temperature": 20
   }
 }

   "log_history": [
     {
       "epoch": 0.9968553459119497,
+      "grad_norm": 0.6337465047836304,
       "learning_rate": 1.7784765897973445e-05,
+      "loss": 0.3867,
       "step": 317
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.5703225806451613,
+      "eval_loss": 0.19408121705055237,
+      "eval_runtime": 1.3792,
+      "eval_samples_per_second": 2247.653,
+      "eval_steps_per_second": 47.128,
       "step": 318
     },
     {
       "epoch": 1.9937106918238994,
+      "grad_norm": 0.5281593799591064,
       "learning_rate": 1.556953179594689e-05,
+      "loss": 0.1621,
       "step": 634
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8274193548387097,
+      "eval_loss": 0.0953042134642601,
+      "eval_runtime": 1.5805,
+      "eval_samples_per_second": 1961.446,
+      "eval_steps_per_second": 41.127,
       "step": 636
     },
     {
       "epoch": 2.990566037735849,
+      "grad_norm": 0.4498799741268158,
       "learning_rate": 1.3354297693920338e-05,
+      "loss": 0.1018,
       "step": 951
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8806451612903226,
+      "eval_loss": 0.06378939002752304,
+      "eval_runtime": 1.5977,
+      "eval_samples_per_second": 1940.328,
+      "eval_steps_per_second": 40.684,
       "step": 954
     },
     {
       "epoch": 3.9874213836477987,
+      "grad_norm": 0.3946130573749542,
       "learning_rate": 1.1139063591893781e-05,
+      "loss": 0.0769,
       "step": 1268
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.8980645161290323,
+      "eval_loss": 0.04853447526693344,
+      "eval_runtime": 1.6017,
+      "eval_samples_per_second": 1935.5,
+      "eval_steps_per_second": 40.583,
       "step": 1272
     },
     {
       "epoch": 4.984276729559748,
+      "grad_norm": 0.2938636541366577,
       "learning_rate": 8.923829489867226e-06,
+      "loss": 0.0634,
       "step": 1585
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9067741935483871,
+      "eval_loss": 0.04064928740262985,
+      "eval_runtime": 1.4207,
+      "eval_samples_per_second": 2182.039,
+      "eval_steps_per_second": 45.752,
       "step": 1590
     },
     {
       "epoch": 5.981132075471698,
+      "grad_norm": 0.3579629063606262,
       "learning_rate": 6.708595387840672e-06,
+      "loss": 0.0555,
       "step": 1902
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9135483870967742,
+      "eval_loss": 0.03552273288369179,
+      "eval_runtime": 1.617,
+      "eval_samples_per_second": 1917.16,
+      "eval_steps_per_second": 40.199,
       "step": 1908
     },
     {
       "epoch": 6.977987421383648,
+      "grad_norm": 0.2372261881828308,
       "learning_rate": 4.4933612858141165e-06,
+      "loss": 0.0508,
       "step": 2219
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.9193548387096774,
+      "eval_loss": 0.033018212765455246,
+      "eval_runtime": 1.8153,
+      "eval_samples_per_second": 1707.728,
+      "eval_steps_per_second": 35.807,
       "step": 2226
     },
     {
       "epoch": 7.9748427672955975,
+      "grad_norm": 0.26516783237457275,
       "learning_rate": 2.2781271837875614e-06,
+      "loss": 0.0479,
       "step": 2536
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.9219354838709677,
+      "eval_loss": 0.03124028816819191,
+      "eval_runtime": 1.622,
+      "eval_samples_per_second": 1911.172,
+      "eval_steps_per_second": 40.073,
       "step": 2544
     },
     {
       "epoch": 8.971698113207546,
+      "grad_norm": 0.26064929366111755,
       "learning_rate": 6.289308176100629e-08,
+      "loss": 0.0462,
       "step": 2853
     }
   ],
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.26432685644138476,
     "num_train_epochs": 9,
+    "temperature": 15
   }
 }

run-1/checkpoint-2862/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8b47f481f10cd643596d93df6439f6f373ebc1e96283a4fb4c2f3edf61ab3458
-size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a4cd3bd3d7b199838f7cc7ce3902cc5b5197f609f99417e50920c79fb92f710
+size 5368

run-10/checkpoint-3180/config.json CHANGED Viewed

@@ -326,6 +326,6 @@
   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.47.0",
   "vocab_size": 30522
 }

   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.47.1",
   "vocab_size": 30522
 }

run-10/checkpoint-3180/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a1eae9dab05be60513a1795635af24cccfa3fdfdead0509ebf734e5c1958177e
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c11c8d8fd5dab07dc0da9a774d4ac9892b28391145c860a4321a6d78b2468e5
 size 268290900

run-10/checkpoint-3180/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b4b7f84d1c4f025034ce217fd706647c2f0fc4969a47e7cde0547efba8570105
-size 536641018

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf56a6a19086ea10089ac80d4b475b67fd4477ea849dc7ec47b9c3add6cf41d2
+size 536643898

run-10/checkpoint-3180/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2fbdf6070082bd7f064003b0a80093bbcf8031eab17e8484cd03c2f330dae634
-size 13990

 version https://git-lfs.github.com/spec/v1
+oid sha256:4929abc25ddcb4d4986245c01bee45e03155019fd32282d1467b43fbdcdaed02
+size 14244

run-10/checkpoint-3180/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7377b4a081dc59fc9c5a604a8fe62d7aa1f698f549e73e5c90d42a32e2a0d766
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:33fadc11bb5c6bd0a5ea603f5e48cedcd72384fa2714656ecf6f8da629f7ae05
 size 1064

run-10/checkpoint-3180/trainer_state.json CHANGED Viewed

@@ -10,153 +10,153 @@
   "log_history": [
     {
       "epoch": 0.9968553459119497,
-      "grad_norm": 0.8045943975448608,
       "learning_rate": 1.8006289308176103e-05,
-      "loss": 0.8034,
       "step": 317
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6796774193548387,
-      "eval_loss": 0.4008762240409851,
-      "eval_runtime": 2.8369,
-      "eval_samples_per_second": 1092.731,
-      "eval_steps_per_second": 22.912,
       "step": 318
     },
     {
       "epoch": 1.9937106918238994,
-      "grad_norm": 0.7318870425224304,
       "learning_rate": 1.6012578616352204e-05,
-      "loss": 0.3002,
       "step": 634
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8464516129032258,
-      "eval_loss": 0.13422441482543945,
-      "eval_runtime": 2.9793,
-      "eval_samples_per_second": 1040.529,
-      "eval_steps_per_second": 21.818,
       "step": 636
     },
     {
       "epoch": 2.990566037735849,
-      "grad_norm": 0.8440456986427307,
       "learning_rate": 1.4018867924528304e-05,
-      "loss": 0.1385,
       "step": 951
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.9006451612903226,
-      "eval_loss": 0.06945940852165222,
-      "eval_runtime": 3.7653,
-      "eval_samples_per_second": 823.311,
-      "eval_steps_per_second": 17.263,
       "step": 954
     },
     {
       "epoch": 3.9874213836477987,
-      "grad_norm": 0.5139324069023132,
       "learning_rate": 1.2025157232704403e-05,
-      "loss": 0.0883,
       "step": 1268
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9164516129032259,
-      "eval_loss": 0.04914101958274841,
-      "eval_runtime": 3.6075,
-      "eval_samples_per_second": 859.331,
-      "eval_steps_per_second": 18.018,
       "step": 1272
     },
     {
       "epoch": 4.984276729559748,
-      "grad_norm": 0.36288055777549744,
       "learning_rate": 1.0031446540880504e-05,
       "loss": 0.0692,
       "step": 1585
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.925483870967742,
-      "eval_loss": 0.04096318036317825,
-      "eval_runtime": 3.6209,
-      "eval_samples_per_second": 856.144,
-      "eval_steps_per_second": 17.951,
       "step": 1590
     },
     {
       "epoch": 5.981132075471698,
-      "grad_norm": 0.3991723954677582,
       "learning_rate": 8.037735849056606e-06,
-      "loss": 0.0594,
       "step": 1902
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.9274193548387096,
-      "eval_loss": 0.03642675653100014,
-      "eval_runtime": 3.4564,
-      "eval_samples_per_second": 896.887,
-      "eval_steps_per_second": 18.806,
       "step": 1908
     },
     {
       "epoch": 6.977987421383648,
-      "grad_norm": 0.4134936034679413,
       "learning_rate": 6.044025157232704e-06,
-      "loss": 0.0537,
       "step": 2219
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.932258064516129,
-      "eval_loss": 0.03399330750107765,
-      "eval_runtime": 3.4401,
-      "eval_samples_per_second": 901.146,
-      "eval_steps_per_second": 18.895,
       "step": 2226
     },
     {
       "epoch": 7.9748427672955975,
-      "grad_norm": 0.4197172522544861,
       "learning_rate": 4.0503144654088055e-06,
-      "loss": 0.0502,
       "step": 2536
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.9316129032258065,
-      "eval_loss": 0.03201091289520264,
-      "eval_runtime": 3.284,
-      "eval_samples_per_second": 943.982,
-      "eval_steps_per_second": 19.793,
       "step": 2544
     },
     {
       "epoch": 8.971698113207546,
-      "grad_norm": 0.7050578594207764,
       "learning_rate": 2.056603773584906e-06,
       "loss": 0.0479,
       "step": 2853
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.9354838709677419,
-      "eval_loss": 0.030981773510575294,
-      "eval_runtime": 3.2488,
-      "eval_samples_per_second": 954.185,
-      "eval_steps_per_second": 20.007,
       "step": 2862
     },
     {
       "epoch": 9.968553459119496,
-      "grad_norm": 0.3551309406757355,
       "learning_rate": 6.289308176100629e-08,
-      "loss": 0.0469,
       "step": 3170
     }
   ],
@@ -177,11 +177,11 @@
       "attributes": {}
     }
   },
-  "total_flos": 825404033099184.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.8684692121006535,
     "num_train_epochs": 10,
     "temperature": 2
   }

   "log_history": [
     {
       "epoch": 0.9968553459119497,
+      "grad_norm": 0.9062672853469849,
       "learning_rate": 1.8006289308176103e-05,
+      "loss": 0.8042,
       "step": 317
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6709677419354839,
+      "eval_loss": 0.4064599573612213,
+      "eval_runtime": 1.4275,
+      "eval_samples_per_second": 2171.572,
+      "eval_steps_per_second": 45.533,
       "step": 318
     },
     {
       "epoch": 1.9937106918238994,
+      "grad_norm": 0.7205497026443481,
       "learning_rate": 1.6012578616352204e-05,
+      "loss": 0.3038,
       "step": 634
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.847741935483871,
+      "eval_loss": 0.1362968385219574,
+      "eval_runtime": 1.6105,
+      "eval_samples_per_second": 1924.868,
+      "eval_steps_per_second": 40.36,
       "step": 636
     },
     {
       "epoch": 2.990566037735849,
+      "grad_norm": 0.5987477898597717,
       "learning_rate": 1.4018867924528304e-05,
+      "loss": 0.1395,
       "step": 951
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8990322580645161,
+      "eval_loss": 0.07024983316659927,
+      "eval_runtime": 1.6105,
+      "eval_samples_per_second": 1924.879,
+      "eval_steps_per_second": 40.36,
       "step": 954
     },
     {
       "epoch": 3.9874213836477987,
+      "grad_norm": 0.5540674924850464,
       "learning_rate": 1.2025157232704403e-05,
+      "loss": 0.0891,
       "step": 1268
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9187096774193548,
+      "eval_loss": 0.04933710768818855,
+      "eval_runtime": 1.7991,
+      "eval_samples_per_second": 1723.062,
+      "eval_steps_per_second": 36.129,
       "step": 1272
     },
     {
       "epoch": 4.984276729559748,
+      "grad_norm": 0.42864474654197693,
       "learning_rate": 1.0031446540880504e-05,
       "loss": 0.0692,
       "step": 1585
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9241935483870968,
+      "eval_loss": 0.04158218950033188,
+      "eval_runtime": 1.6087,
+      "eval_samples_per_second": 1927.079,
+      "eval_steps_per_second": 40.406,
       "step": 1590
     },
     {
       "epoch": 5.981132075471698,
+      "grad_norm": 0.4545074999332428,
       "learning_rate": 8.037735849056606e-06,
+      "loss": 0.0595,
       "step": 1902
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9270967741935484,
+      "eval_loss": 0.03682653605937958,
+      "eval_runtime": 1.4287,
+      "eval_samples_per_second": 2169.74,
+      "eval_steps_per_second": 45.495,
       "step": 1908
     },
     {
       "epoch": 6.977987421383648,
+      "grad_norm": 0.34796932339668274,
       "learning_rate": 6.044025157232704e-06,
+      "loss": 0.0538,
       "step": 2219
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.9316129032258065,
+      "eval_loss": 0.03404370695352554,
+      "eval_runtime": 1.6077,
+      "eval_samples_per_second": 1928.227,
+      "eval_steps_per_second": 40.431,
       "step": 2226
     },
     {
       "epoch": 7.9748427672955975,
+      "grad_norm": 0.3150351941585541,
       "learning_rate": 4.0503144654088055e-06,
+      "loss": 0.0503,
       "step": 2536
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.9341935483870968,
+      "eval_loss": 0.03234480321407318,
+      "eval_runtime": 1.4217,
+      "eval_samples_per_second": 2180.525,
+      "eval_steps_per_second": 45.721,
       "step": 2544
     },
     {
       "epoch": 8.971698113207546,
+      "grad_norm": 0.3166097104549408,
       "learning_rate": 2.056603773584906e-06,
       "loss": 0.0479,
       "step": 2853
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.9341935483870968,
+      "eval_loss": 0.03134315088391304,
+      "eval_runtime": 1.6077,
+      "eval_samples_per_second": 1928.261,
+      "eval_steps_per_second": 40.431,
       "step": 2862
     },
     {
       "epoch": 9.968553459119496,
+      "grad_norm": 0.27577438950538635,
       "learning_rate": 6.289308176100629e-08,
+      "loss": 0.0467,
       "step": 3170
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 827333546055996.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.5781383032678951,
     "num_train_epochs": 10,
     "temperature": 2
   }

run-10/checkpoint-3180/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31136b152d8bec823af46e8f97f2f8bbe5859cef952eba4c6121a11c30bcfdf6
-size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:d588f08c0e85333fa2a4adcf5ec378e9adea9df69c799ff80677ef0f82a3e48a
+size 5368

run-11/checkpoint-3180/config.json CHANGED Viewed

@@ -326,6 +326,6 @@
   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.47.0",
   "vocab_size": 30522
 }

   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.47.1",
   "vocab_size": 30522
 }

run-11/checkpoint-3180/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7b4592ac0c8c2621aa0bf6cc48358a9a7733b828ad086371bcfd4495a46541b
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c11c8d8fd5dab07dc0da9a774d4ac9892b28391145c860a4321a6d78b2468e5
 size 268290900

run-11/checkpoint-3180/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1bfa0ebb9d3c136bf9e300c370d03a101413666475a585e27fe5bfe859b7caae
-size 536641018

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf56a6a19086ea10089ac80d4b475b67fd4477ea849dc7ec47b9c3add6cf41d2
+size 536643898

run-11/checkpoint-3180/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2fbdf6070082bd7f064003b0a80093bbcf8031eab17e8484cd03c2f330dae634
-size 13990

 version https://git-lfs.github.com/spec/v1
+oid sha256:4929abc25ddcb4d4986245c01bee45e03155019fd32282d1467b43fbdcdaed02
+size 14244

run-11/checkpoint-3180/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7377b4a081dc59fc9c5a604a8fe62d7aa1f698f549e73e5c90d42a32e2a0d766
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:33fadc11bb5c6bd0a5ea603f5e48cedcd72384fa2714656ecf6f8da629f7ae05
 size 1064

run-11/checkpoint-3180/trainer_state.json CHANGED Viewed

@@ -10,153 +10,153 @@
   "log_history": [
     {
       "epoch": 0.9968553459119497,
-      "grad_norm": 0.8055088520050049,
       "learning_rate": 1.8006289308176103e-05,
-      "loss": 0.8034,
       "step": 317
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6793548387096774,
-      "eval_loss": 0.4008634388446808,
-      "eval_runtime": 2.7556,
-      "eval_samples_per_second": 1124.967,
-      "eval_steps_per_second": 23.588,
       "step": 318
     },
     {
       "epoch": 1.9937106918238994,
-      "grad_norm": 0.731418788433075,
       "learning_rate": 1.6012578616352204e-05,
-      "loss": 0.3002,
       "step": 634
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8464516129032258,
-      "eval_loss": 0.1342196762561798,
-      "eval_runtime": 2.8872,
-      "eval_samples_per_second": 1073.695,
-      "eval_steps_per_second": 22.513,
       "step": 636
     },
     {
       "epoch": 2.990566037735849,
-      "grad_norm": 0.8417670726776123,
       "learning_rate": 1.4018867924528304e-05,
-      "loss": 0.1385,
       "step": 951
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.9006451612903226,
-      "eval_loss": 0.06945406645536423,
-      "eval_runtime": 2.7998,
-      "eval_samples_per_second": 1107.216,
-      "eval_steps_per_second": 23.216,
       "step": 954
     },
     {
       "epoch": 3.9874213836477987,
-      "grad_norm": 0.5138720273971558,
       "learning_rate": 1.2025157232704403e-05,
-      "loss": 0.0883,
       "step": 1268
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9167741935483871,
-      "eval_loss": 0.049133624881505966,
-      "eval_runtime": 3.0876,
-      "eval_samples_per_second": 1004.012,
-      "eval_steps_per_second": 21.052,
       "step": 1272
     },
     {
       "epoch": 4.984276729559748,
-      "grad_norm": 0.3620692193508148,
       "learning_rate": 1.0031446540880504e-05,
       "loss": 0.0692,
       "step": 1585
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.925483870967742,
-      "eval_loss": 0.04096338152885437,
-      "eval_runtime": 3.4962,
-      "eval_samples_per_second": 886.683,
-      "eval_steps_per_second": 18.592,
       "step": 1590
     },
     {
       "epoch": 5.981132075471698,
-      "grad_norm": 0.3995964229106903,
       "learning_rate": 8.037735849056606e-06,
-      "loss": 0.0594,
       "step": 1902
     },
     {
       "epoch": 6.0,
       "eval_accuracy": 0.9270967741935484,
-      "eval_loss": 0.03643520548939705,
-      "eval_runtime": 4.6927,
-      "eval_samples_per_second": 660.602,
-      "eval_steps_per_second": 13.851,
       "step": 1908
     },
     {
       "epoch": 6.977987421383648,
-      "grad_norm": 0.4138696789741516,
       "learning_rate": 6.044025157232704e-06,
-      "loss": 0.0537,
       "step": 2219
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.932258064516129,
-      "eval_loss": 0.033999357372522354,
-      "eval_runtime": 3.3936,
-      "eval_samples_per_second": 913.496,
-      "eval_steps_per_second": 19.154,
       "step": 2226
     },
     {
       "epoch": 7.9748427672955975,
-      "grad_norm": 0.4184480905532837,
       "learning_rate": 4.0503144654088055e-06,
-      "loss": 0.0502,
       "step": 2536
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.9316129032258065,
-      "eval_loss": 0.03201307728886604,
-      "eval_runtime": 3.2498,
-      "eval_samples_per_second": 953.913,
-      "eval_steps_per_second": 20.001,
       "step": 2544
     },
     {
       "epoch": 8.971698113207546,
-      "grad_norm": 0.7048718929290771,
       "learning_rate": 2.056603773584906e-06,
       "loss": 0.0479,
       "step": 2853
     },
     {
       "epoch": 9.0,
-      "eval_accuracy": 0.9358064516129032,
-      "eval_loss": 0.030989257618784904,
-      "eval_runtime": 3.1686,
-      "eval_samples_per_second": 978.342,
-      "eval_steps_per_second": 20.514,
       "step": 2862
     },
     {
       "epoch": 9.968553459119496,
-      "grad_norm": 0.35616278648376465,
       "learning_rate": 6.289308176100629e-08,
-      "loss": 0.0469,
       "step": 3170
     }
   ],
@@ -181,7 +181,7 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.8773153648687787,
     "num_train_epochs": 10,
     "temperature": 2
   }

   "log_history": [
     {
       "epoch": 0.9968553459119497,
+      "grad_norm": 0.9062672853469849,
       "learning_rate": 1.8006289308176103e-05,
+      "loss": 0.8042,
       "step": 317
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6709677419354839,
+      "eval_loss": 0.4064599573612213,
+      "eval_runtime": 1.3737,
+      "eval_samples_per_second": 2256.722,
+      "eval_steps_per_second": 47.318,
       "step": 318
     },
     {
       "epoch": 1.9937106918238994,
+      "grad_norm": 0.7205497026443481,
       "learning_rate": 1.6012578616352204e-05,
+      "loss": 0.3038,
       "step": 634
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.847741935483871,
+      "eval_loss": 0.1362968385219574,
+      "eval_runtime": 1.392,
+      "eval_samples_per_second": 2227.027,
+      "eval_steps_per_second": 46.696,
       "step": 636
     },
     {
       "epoch": 2.990566037735849,
+      "grad_norm": 0.5987477898597717,
       "learning_rate": 1.4018867924528304e-05,
+      "loss": 0.1395,
       "step": 951
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8990322580645161,
+      "eval_loss": 0.07024983316659927,
+      "eval_runtime": 1.4088,
+      "eval_samples_per_second": 2200.388,
+      "eval_steps_per_second": 46.137,
       "step": 954
     },
     {
       "epoch": 3.9874213836477987,
+      "grad_norm": 0.5540674924850464,
       "learning_rate": 1.2025157232704403e-05,
+      "loss": 0.0891,
       "step": 1268
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9187096774193548,
+      "eval_loss": 0.04933710768818855,
+      "eval_runtime": 1.6037,
+      "eval_samples_per_second": 1932.992,
+      "eval_steps_per_second": 40.53,
       "step": 1272
     },
     {
       "epoch": 4.984276729559748,
+      "grad_norm": 0.42864474654197693,
       "learning_rate": 1.0031446540880504e-05,
       "loss": 0.0692,
       "step": 1585
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9241935483870968,
+      "eval_loss": 0.04158218950033188,
+      "eval_runtime": 1.4224,
+      "eval_samples_per_second": 2179.482,
+      "eval_steps_per_second": 45.699,
       "step": 1590
     },
     {
       "epoch": 5.981132075471698,
+      "grad_norm": 0.4545074999332428,
       "learning_rate": 8.037735849056606e-06,
+      "loss": 0.0595,
       "step": 1902
     },
     {
       "epoch": 6.0,
       "eval_accuracy": 0.9270967741935484,
+      "eval_loss": 0.03682653605937958,
+      "eval_runtime": 1.4223,
+      "eval_samples_per_second": 2179.524,
+      "eval_steps_per_second": 45.7,
       "step": 1908
     },
     {
       "epoch": 6.977987421383648,
+      "grad_norm": 0.34796932339668274,
       "learning_rate": 6.044025157232704e-06,
+      "loss": 0.0538,
       "step": 2219
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.9316129032258065,
+      "eval_loss": 0.03404370695352554,
+      "eval_runtime": 1.6095,
+      "eval_samples_per_second": 1926.117,
+      "eval_steps_per_second": 40.386,
       "step": 2226
     },
     {
       "epoch": 7.9748427672955975,
+      "grad_norm": 0.3150351941585541,
       "learning_rate": 4.0503144654088055e-06,
+      "loss": 0.0503,
       "step": 2536
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.9341935483870968,
+      "eval_loss": 0.03234480321407318,
+      "eval_runtime": 1.4255,
+      "eval_samples_per_second": 2174.649,
+      "eval_steps_per_second": 45.597,
       "step": 2544
     },
     {
       "epoch": 8.971698113207546,
+      "grad_norm": 0.3166097104549408,
       "learning_rate": 2.056603773584906e-06,
       "loss": 0.0479,
       "step": 2853
     },
     {
       "epoch": 9.0,
+      "eval_accuracy": 0.9341935483870968,
+      "eval_loss": 0.03134315088391304,
+      "eval_runtime": 1.6252,
+      "eval_samples_per_second": 1907.451,
+      "eval_steps_per_second": 39.995,
       "step": 2862
     },
     {
       "epoch": 9.968553459119496,
+      "grad_norm": 0.27577438950538635,
       "learning_rate": 6.289308176100629e-08,
+      "loss": 0.0467,
       "step": 3170
     }
   ],
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.5555856325738124,
     "num_train_epochs": 10,
     "temperature": 2
   }

run-11/checkpoint-3180/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:31136b152d8bec823af46e8f97f2f8bbe5859cef952eba4c6121a11c30bcfdf6
-size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:d588f08c0e85333fa2a4adcf5ec378e9adea9df69c799ff80677ef0f82a3e48a
+size 5368

run-12/checkpoint-2862/config.json CHANGED Viewed

@@ -326,6 +326,6 @@
   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.47.0",
   "vocab_size": 30522
 }

   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.47.1",
   "vocab_size": 30522
 }

run-12/checkpoint-2862/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:82af3ef589f6291c576d8820bf63a25e447969298df3a25793ba2cd28a0924bc
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:c18c4a133656b004cd6c65fc4815e9ef62f1ec3522774d37fb11c5daa779d3e2
 size 268290900

run-12/checkpoint-2862/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e483cfc5c026a865fba1ae6f8e9a6aa2b014022ee836e4170842567b06c878ef
-size 536641018

 version https://git-lfs.github.com/spec/v1
+oid sha256:a81143e1443ee75c0758f59ffc911f4898c4f4e07b40479ce205da7301c876f7
+size 536643898

run-12/checkpoint-2862/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e29353d4954fcf585947caa6a0a3fa59c7379d49f3bc56c6a4bd276fef18ca98
-size 13990

 version https://git-lfs.github.com/spec/v1
+oid sha256:41b5282f1cde964bf5a382eb03f1cdd87f1c8e2f60e43277b3453f63947f5933
+size 14244

run-12/checkpoint-2862/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3c64bfaed33db311081ee0596530a03699ac7659f0cf4f57a488fea34df98816
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a738824491ff8b261b6db2a842e15bf80355d04a07892a16df2c4715b2ee556
 size 1064

run-12/checkpoint-2862/trainer_state.json CHANGED Viewed

@@ -10,135 +10,135 @@
   "log_history": [
     {
       "epoch": 0.9968553459119497,
-      "grad_norm": 0.8072113394737244,
       "learning_rate": 1.7784765897973445e-05,
-      "loss": 0.8045,
       "step": 317
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.677741935483871,
-      "eval_loss": 0.4035729169845581,
-      "eval_runtime": 3.1602,
-      "eval_samples_per_second": 980.961,
-      "eval_steps_per_second": 20.569,
       "step": 318
     },
     {
       "epoch": 1.9937106918238994,
-      "grad_norm": 0.7372269034385681,
       "learning_rate": 1.556953179594689e-05,
-      "loss": 0.3038,
       "step": 634
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8451612903225807,
-      "eval_loss": 0.13743256032466888,
-      "eval_runtime": 2.8178,
-      "eval_samples_per_second": 1100.139,
-      "eval_steps_per_second": 23.067,
       "step": 636
     },
     {
       "epoch": 2.990566037735849,
-      "grad_norm": 0.8540640473365784,
       "learning_rate": 1.3354297693920338e-05,
-      "loss": 0.1417,
       "step": 951
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8974193548387097,
-      "eval_loss": 0.07147924602031708,
-      "eval_runtime": 3.2365,
-      "eval_samples_per_second": 957.827,
-      "eval_steps_per_second": 20.083,
       "step": 954
     },
     {
       "epoch": 3.9874213836477987,
-      "grad_norm": 0.5231291651725769,
       "learning_rate": 1.1139063591893781e-05,
-      "loss": 0.0909,
       "step": 1268
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9158064516129032,
-      "eval_loss": 0.05066521465778351,
-      "eval_runtime": 4.0727,
-      "eval_samples_per_second": 761.171,
-      "eval_steps_per_second": 15.96,
       "step": 1272
     },
     {
       "epoch": 4.984276729559748,
-      "grad_norm": 0.37206166982650757,
       "learning_rate": 8.923829489867226e-06,
-      "loss": 0.0714,
       "step": 1585
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.9238709677419354,
-      "eval_loss": 0.04229098558425903,
-      "eval_runtime": 3.7158,
-      "eval_samples_per_second": 834.269,
-      "eval_steps_per_second": 17.493,
       "step": 1590
     },
     {
       "epoch": 5.981132075471698,
-      "grad_norm": 0.40888988971710205,
       "learning_rate": 6.708595387840672e-06,
-      "loss": 0.0616,
       "step": 1902
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.9264516129032258,
-      "eval_loss": 0.037750471383333206,
-      "eval_runtime": 3.3556,
-      "eval_samples_per_second": 923.839,
-      "eval_steps_per_second": 19.371,
       "step": 1908
     },
     {
       "epoch": 6.977987421383648,
-      "grad_norm": 0.4326569139957428,
       "learning_rate": 4.4933612858141165e-06,
-      "loss": 0.056,
       "step": 2219
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.9293548387096774,
-      "eval_loss": 0.035395026206970215,
-      "eval_runtime": 3.2793,
-      "eval_samples_per_second": 945.317,
-      "eval_steps_per_second": 19.821,
       "step": 2226
     },
     {
       "epoch": 7.9748427672955975,
-      "grad_norm": 0.42392992973327637,
       "learning_rate": 2.2781271837875614e-06,
-      "loss": 0.0528,
       "step": 2536
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.9303225806451613,
-      "eval_loss": 0.0337347649037838,
-      "eval_runtime": 3.2707,
-      "eval_samples_per_second": 947.797,
-      "eval_steps_per_second": 19.873,
       "step": 2544
     },
     {
       "epoch": 8.971698113207546,
-      "grad_norm": 0.7320842742919922,
       "learning_rate": 6.289308176100629e-08,
       "loss": 0.0511,
       "step": 2853
@@ -165,7 +165,7 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.9918433773634413,
     "num_train_epochs": 9,
     "temperature": 2
   }

   "log_history": [
     {
       "epoch": 0.9968553459119497,
+      "grad_norm": 0.9016032814979553,
       "learning_rate": 1.7784765897973445e-05,
+      "loss": 0.8053,
       "step": 317
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6696774193548387,
+      "eval_loss": 0.40919938683509827,
+      "eval_runtime": 1.401,
+      "eval_samples_per_second": 2212.634,
+      "eval_steps_per_second": 46.394,
       "step": 318
     },
     {
       "epoch": 1.9937106918238994,
+      "grad_norm": 0.7222766876220703,
       "learning_rate": 1.556953179594689e-05,
+      "loss": 0.3073,
       "step": 634
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.844516129032258,
+      "eval_loss": 0.13953416049480438,
+      "eval_runtime": 1.4134,
+      "eval_samples_per_second": 2193.232,
+      "eval_steps_per_second": 45.987,
       "step": 636
     },
     {
       "epoch": 2.990566037735849,
+      "grad_norm": 0.6133838891983032,
       "learning_rate": 1.3354297693920338e-05,
+      "loss": 0.1428,
       "step": 951
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8964516129032258,
+      "eval_loss": 0.0722731500864029,
+      "eval_runtime": 1.4182,
+      "eval_samples_per_second": 2185.887,
+      "eval_steps_per_second": 45.833,
       "step": 954
     },
     {
       "epoch": 3.9874213836477987,
+      "grad_norm": 0.5777781009674072,
       "learning_rate": 1.1139063591893781e-05,
+      "loss": 0.0917,
       "step": 1268
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9180645161290323,
+      "eval_loss": 0.050948865711688995,
+      "eval_runtime": 1.447,
+      "eval_samples_per_second": 2142.316,
+      "eval_steps_per_second": 44.92,
       "step": 1272
     },
     {
       "epoch": 4.984276729559748,
+      "grad_norm": 0.4380759596824646,
       "learning_rate": 8.923829489867226e-06,
+      "loss": 0.0715,
       "step": 1585
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9232258064516129,
+      "eval_loss": 0.042863838374614716,
+      "eval_runtime": 1.4275,
+      "eval_samples_per_second": 2171.562,
+      "eval_steps_per_second": 45.533,
       "step": 1590
     },
     {
       "epoch": 5.981132075471698,
+      "grad_norm": 0.46454158425331116,
       "learning_rate": 6.708595387840672e-06,
+      "loss": 0.0617,
       "step": 1902
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9261290322580645,
+      "eval_loss": 0.03817891329526901,
+      "eval_runtime": 1.4469,
+      "eval_samples_per_second": 2142.441,
+      "eval_steps_per_second": 44.922,
       "step": 1908
     },
     {
       "epoch": 6.977987421383648,
+      "grad_norm": 0.34600403904914856,
       "learning_rate": 4.4933612858141165e-06,
+      "loss": 0.0562,
       "step": 2219
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.9303225806451613,
+      "eval_loss": 0.035540465265512466,
+      "eval_runtime": 1.6133,
+      "eval_samples_per_second": 1921.568,
+      "eval_steps_per_second": 40.291,
       "step": 2226
     },
     {
       "epoch": 7.9748427672955975,
+      "grad_norm": 0.32331326603889465,
       "learning_rate": 2.2781271837875614e-06,
+      "loss": 0.053,
       "step": 2536
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.932258064516129,
+      "eval_loss": 0.034126147627830505,
+      "eval_runtime": 1.6193,
+      "eval_samples_per_second": 1914.441,
+      "eval_steps_per_second": 40.142,
       "step": 2544
     },
     {
       "epoch": 8.971698113207546,
+      "grad_norm": 0.3256802558898926,
       "learning_rate": 6.289308176100629e-08,
       "loss": 0.0511,
       "step": 2853
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.5906402738898417,
     "num_train_epochs": 9,
     "temperature": 2
   }

run-12/checkpoint-2862/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3f32cdf1fa208c9f12320f360dbe5c36de2cb881a09479e7736bdfb115e4bb72
-size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:3fc3aa49ba06431aba065e94edc972c0714cf8bbe8237b664cb1781900dce380
+size 5368

run-12/checkpoint-3180/config.json CHANGED Viewed

@@ -326,6 +326,6 @@
   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.47.0",
   "vocab_size": 30522
 }

   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.47.1",
   "vocab_size": 30522
 }

run-12/checkpoint-3180/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cca0793fae2bb07821bf9c3521dd1505cf3de7bae593ae1b13b608a1e2b8f303
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:43a6cedd76d3a1b3e0bb77e4d00c341877299c5525fce1d5e4626930c66c2446
 size 268290900

run-12/checkpoint-3180/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d488d2f32cb307527b74b933e5757bcb7ff1bdafde1955d8b6bda02006e57a23
-size 536641018

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b65b32663111aef62cead559fa75318ca4c1b5ee0fefefc8732da15c1c2e734
+size 536643898

run-12/checkpoint-3180/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2fbdf6070082bd7f064003b0a80093bbcf8031eab17e8484cd03c2f330dae634
-size 13990

 version https://git-lfs.github.com/spec/v1
+oid sha256:4929abc25ddcb4d4986245c01bee45e03155019fd32282d1467b43fbdcdaed02
+size 14244

run-12/checkpoint-3180/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7377b4a081dc59fc9c5a604a8fe62d7aa1f698f549e73e5c90d42a32e2a0d766
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:33fadc11bb5c6bd0a5ea603f5e48cedcd72384fa2714656ecf6f8da629f7ae05
 size 1064

run-12/checkpoint-3180/trainer_state.json CHANGED Viewed

@@ -10,153 +10,153 @@
   "log_history": [
     {
       "epoch": 0.9968553459119497,
-      "grad_norm": 0.6610699892044067,
       "learning_rate": 1.8006289308176103e-05,
-      "loss": 0.4374,
       "step": 317
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6170967741935484,
-      "eval_loss": 0.21603462100028992,
-      "eval_runtime": 2.8338,
-      "eval_samples_per_second": 1093.928,
-      "eval_steps_per_second": 22.937,
       "step": 318
     },
     {
       "epoch": 1.9937106918238994,
-      "grad_norm": 0.5326525568962097,
       "learning_rate": 1.6012578616352204e-05,
-      "loss": 0.1787,
       "step": 634
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8351612903225807,
-      "eval_loss": 0.10006385296583176,
-      "eval_runtime": 2.9113,
-      "eval_samples_per_second": 1064.812,
-      "eval_steps_per_second": 22.327,
       "step": 636
     },
     {
       "epoch": 2.990566037735849,
-      "grad_norm": 0.5324532985687256,
       "learning_rate": 1.4018867924528304e-05,
-      "loss": 0.1078,
       "step": 951
     },
     {
       "epoch": 3.0,
       "eval_accuracy": 0.8874193548387097,
-      "eval_loss": 0.06386292725801468,
-      "eval_runtime": 2.748,
-      "eval_samples_per_second": 1128.087,
-      "eval_steps_per_second": 23.653,
       "step": 954
     },
     {
       "epoch": 3.9874213836477987,
-      "grad_norm": 0.3831179141998291,
       "learning_rate": 1.2025157232704403e-05,
-      "loss": 0.0784,
       "step": 1268
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9006451612903226,
-      "eval_loss": 0.04731517285108566,
-      "eval_runtime": 2.9085,
-      "eval_samples_per_second": 1065.824,
-      "eval_steps_per_second": 22.348,
       "step": 1272
     },
     {
       "epoch": 4.984276729559748,
-      "grad_norm": 0.2874238193035126,
       "learning_rate": 1.0031446540880504e-05,
-      "loss": 0.0637,
       "step": 1585
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.9119354838709678,
-      "eval_loss": 0.038367290049791336,
-      "eval_runtime": 3.1834,
-      "eval_samples_per_second": 973.805,
-      "eval_steps_per_second": 20.418,
       "step": 1590
     },
     {
       "epoch": 5.981132075471698,
-      "grad_norm": 0.30679208040237427,
       "learning_rate": 8.037735849056606e-06,
-      "loss": 0.0551,
       "step": 1902
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.9193548387096774,
-      "eval_loss": 0.033336855471134186,
-      "eval_runtime": 3.3073,
-      "eval_samples_per_second": 937.327,
-      "eval_steps_per_second": 19.654,
       "step": 1908
     },
     {
       "epoch": 6.977987421383648,
-      "grad_norm": 0.3407283425331116,
       "learning_rate": 6.044025157232704e-06,
-      "loss": 0.0496,
       "step": 2219
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.9245161290322581,
-      "eval_loss": 0.030338862910866737,
-      "eval_runtime": 3.2295,
-      "eval_samples_per_second": 959.913,
-      "eval_steps_per_second": 20.127,
       "step": 2226
     },
     {
       "epoch": 7.9748427672955975,
-      "grad_norm": 0.3018116354942322,
       "learning_rate": 4.0503144654088055e-06,
-      "loss": 0.0462,
       "step": 2536
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.9258064516129032,
-      "eval_loss": 0.028306515887379646,
-      "eval_runtime": 3.1561,
-      "eval_samples_per_second": 982.229,
-      "eval_steps_per_second": 20.595,
       "step": 2544
     },
     {
       "epoch": 8.971698113207546,
-      "grad_norm": 0.46791136264801025,
       "learning_rate": 2.056603773584906e-06,
-      "loss": 0.0441,
       "step": 2853
     },
     {
       "epoch": 9.0,
       "eval_accuracy": 0.9303225806451613,
-      "eval_loss": 0.027270827442407608,
-      "eval_runtime": 3.0569,
-      "eval_samples_per_second": 1014.096,
-      "eval_steps_per_second": 21.263,
       "step": 2862
     },
     {
       "epoch": 9.968553459119496,
-      "grad_norm": 0.2770797610282898,
       "learning_rate": 6.289308176100629e-08,
-      "loss": 0.043,
       "step": 3170
     }
   ],
@@ -181,8 +181,8 @@
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.32219587849011416,
     "num_train_epochs": 10,
-    "temperature": 6
   }
 }

   "log_history": [
     {
       "epoch": 0.9968553459119497,
+      "grad_norm": 0.6776733994483948,
       "learning_rate": 1.8006289308176103e-05,
+      "loss": 0.4584,
       "step": 317
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6125806451612903,
+      "eval_loss": 0.229416161775589,
+      "eval_runtime": 1.4059,
+      "eval_samples_per_second": 2205.025,
+      "eval_steps_per_second": 46.234,
       "step": 318
     },
     {
       "epoch": 1.9937106918238994,
+      "grad_norm": 0.5552124977111816,
       "learning_rate": 1.6012578616352204e-05,
+      "loss": 0.1874,
       "step": 634
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.8419354838709677,
+      "eval_loss": 0.10401267558336258,
+      "eval_runtime": 1.4225,
+      "eval_samples_per_second": 2179.306,
+      "eval_steps_per_second": 45.695,
       "step": 636
     },
     {
       "epoch": 2.990566037735849,
+      "grad_norm": 0.4675765037536621,
       "learning_rate": 1.4018867924528304e-05,
+      "loss": 0.1109,
       "step": 951
     },
     {
       "epoch": 3.0,
       "eval_accuracy": 0.8874193548387097,
+      "eval_loss": 0.0649406909942627,
+      "eval_runtime": 1.4308,
+      "eval_samples_per_second": 2166.649,
+      "eval_steps_per_second": 45.43,
       "step": 954
     },
     {
       "epoch": 3.9874213836477987,
+      "grad_norm": 0.41055992245674133,
       "learning_rate": 1.2025157232704403e-05,
+      "loss": 0.0802,
       "step": 1268
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9067741935483871,
+      "eval_loss": 0.04709634184837341,
+      "eval_runtime": 1.6361,
+      "eval_samples_per_second": 1894.729,
+      "eval_steps_per_second": 39.728,
       "step": 1272
     },
     {
       "epoch": 4.984276729559748,
+      "grad_norm": 0.31869634985923767,
       "learning_rate": 1.0031446540880504e-05,
+      "loss": 0.0644,
       "step": 1585
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.915483870967742,
+      "eval_loss": 0.03851104900240898,
+      "eval_runtime": 1.4501,
+      "eval_samples_per_second": 2137.847,
+      "eval_steps_per_second": 44.826,
       "step": 1590
     },
     {
       "epoch": 5.981132075471698,
+      "grad_norm": 0.3909931480884552,
       "learning_rate": 8.037735849056606e-06,
+      "loss": 0.0554,
       "step": 1902
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9212903225806451,
+      "eval_loss": 0.033167432993650436,
+      "eval_runtime": 1.8412,
+      "eval_samples_per_second": 1683.68,
+      "eval_steps_per_second": 35.303,
       "step": 1908
     },
     {
       "epoch": 6.977987421383648,
+      "grad_norm": 0.2565544545650482,
       "learning_rate": 6.044025157232704e-06,
+      "loss": 0.05,
       "step": 2219
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.927741935483871,
+      "eval_loss": 0.03042704612016678,
+      "eval_runtime": 1.4492,
+      "eval_samples_per_second": 2139.078,
+      "eval_steps_per_second": 44.852,
       "step": 2226
     },
     {
       "epoch": 7.9748427672955975,
+      "grad_norm": 0.27845093607902527,
       "learning_rate": 4.0503144654088055e-06,
+      "loss": 0.0467,
       "step": 2536
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.9293548387096774,
+      "eval_loss": 0.028363477438688278,
+      "eval_runtime": 1.6476,
+      "eval_samples_per_second": 1881.537,
+      "eval_steps_per_second": 39.452,
       "step": 2544
     },
     {
       "epoch": 8.971698113207546,
+      "grad_norm": 0.2760983407497406,
       "learning_rate": 2.056603773584906e-06,
+      "loss": 0.0443,
       "step": 2853
     },
     {
       "epoch": 9.0,
       "eval_accuracy": 0.9303225806451613,
+      "eval_loss": 0.027360040694475174,
+      "eval_runtime": 1.4532,
+      "eval_samples_per_second": 2133.234,
+      "eval_steps_per_second": 44.729,
       "step": 2862
     },
     {
       "epoch": 9.968553459119496,
+      "grad_norm": 0.22213682532310486,
       "learning_rate": 6.289308176100629e-08,
+      "loss": 0.0432,
       "step": 3170
     }
   ],
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.7838482405834947,
     "num_train_epochs": 10,
+    "temperature": 5
   }
 }

run-12/checkpoint-3180/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c0121f554575978ba0cbc17b2f3d309476aa4613bc5d4f33897d2e50955c438a
-size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:a44a54d5eb36e142309417d7c1e2047bbc008d9022a6a64a3ca97fdac4d430f2
+size 5368

run-17/checkpoint-2862/config.json CHANGED Viewed

@@ -326,6 +326,6 @@
   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.47.0",
   "vocab_size": 30522
 }

   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.47.1",
   "vocab_size": 30522
 }

run-17/checkpoint-2862/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:653b0e018e72d692bf7628138f5d4a36847a2a672b4dbcdcc6ed9cf77b0428aa
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:c18c4a133656b004cd6c65fc4815e9ef62f1ec3522774d37fb11c5daa779d3e2
 size 268290900

run-17/checkpoint-2862/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c9431bd5195dc5efa71f284143d1f44afc0195adc6d056b4cefa0075f55e7845
-size 536641018

 version https://git-lfs.github.com/spec/v1
+oid sha256:a81143e1443ee75c0758f59ffc911f4898c4f4e07b40479ce205da7301c876f7
+size 536643898

run-17/checkpoint-2862/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e29353d4954fcf585947caa6a0a3fa59c7379d49f3bc56c6a4bd276fef18ca98
-size 13990

 version https://git-lfs.github.com/spec/v1
+oid sha256:41b5282f1cde964bf5a382eb03f1cdd87f1c8e2f60e43277b3453f63947f5933
+size 14244

run-17/checkpoint-2862/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3c64bfaed33db311081ee0596530a03699ac7659f0cf4f57a488fea34df98816
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a738824491ff8b261b6db2a842e15bf80355d04a07892a16df2c4715b2ee556
 size 1064

run-17/checkpoint-2862/trainer_state.json CHANGED Viewed

@@ -10,137 +10,137 @@
   "log_history": [
     {
       "epoch": 0.9968553459119497,
-      "grad_norm": 0.6738103628158569,
       "learning_rate": 1.7784765897973445e-05,
-      "loss": 0.4958,
       "step": 317
     },
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.6290322580645161,
-      "eval_loss": 0.24582983553409576,
-      "eval_runtime": 3.3797,
-      "eval_samples_per_second": 917.252,
-      "eval_steps_per_second": 19.233,
       "step": 318
     },
     {
       "epoch": 1.9937106918238994,
-      "grad_norm": 0.5609093308448792,
       "learning_rate": 1.556953179594689e-05,
-      "loss": 0.2002,
       "step": 634
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.8429032258064516,
-      "eval_loss": 0.10813045501708984,
-      "eval_runtime": 3.0019,
-      "eval_samples_per_second": 1032.674,
-      "eval_steps_per_second": 21.653,
       "step": 636
     },
     {
       "epoch": 2.990566037735849,
-      "grad_norm": 0.587248682975769,
       "learning_rate": 1.3354297693920338e-05,
-      "loss": 0.1161,
       "step": 951
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.8893548387096775,
-      "eval_loss": 0.06641113013029099,
-      "eval_runtime": 3.0082,
-      "eval_samples_per_second": 1030.502,
-      "eval_steps_per_second": 21.607,
       "step": 954
     },
     {
       "epoch": 3.9874213836477987,
-      "grad_norm": 0.4174334406852722,
       "learning_rate": 1.1139063591893781e-05,
-      "loss": 0.0829,
       "step": 1268
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9048387096774193,
-      "eval_loss": 0.04835071042180061,
-      "eval_runtime": 3.0244,
-      "eval_samples_per_second": 1025.01,
-      "eval_steps_per_second": 21.492,
       "step": 1272
     },
     {
       "epoch": 4.984276729559748,
-      "grad_norm": 0.3136546015739441,
       "learning_rate": 8.923829489867226e-06,
-      "loss": 0.0669,
       "step": 1585
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.9148387096774193,
-      "eval_loss": 0.039326973259449005,
-      "eval_runtime": 3.0031,
-      "eval_samples_per_second": 1032.25,
-      "eval_steps_per_second": 21.644,
       "step": 1590
     },
     {
       "epoch": 5.981132075471698,
-      "grad_norm": 0.3310624957084656,
       "learning_rate": 6.708595387840672e-06,
-      "loss": 0.058,
       "step": 1902
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.9212903225806451,
-      "eval_loss": 0.03441833332180977,
-      "eval_runtime": 3.0173,
-      "eval_samples_per_second": 1027.407,
-      "eval_steps_per_second": 21.542,
       "step": 1908
     },
     {
       "epoch": 6.977987421383648,
-      "grad_norm": 0.366222620010376,
       "learning_rate": 4.4933612858141165e-06,
-      "loss": 0.0526,
       "step": 2219
     },
     {
       "epoch": 7.0,
-      "eval_accuracy": 0.9241935483870968,
-      "eval_loss": 0.03173591569066048,
-      "eval_runtime": 3.0023,
-      "eval_samples_per_second": 1032.538,
-      "eval_steps_per_second": 21.65,
       "step": 2226
     },
     {
       "epoch": 7.9748427672955975,
-      "grad_norm": 0.3408018946647644,
       "learning_rate": 2.2781271837875614e-06,
-      "loss": 0.0495,
       "step": 2536
     },
     {
       "epoch": 8.0,
-      "eval_accuracy": 0.9258064516129032,
-      "eval_loss": 0.03004557453095913,
-      "eval_runtime": 3.0017,
-      "eval_samples_per_second": 1032.734,
-      "eval_steps_per_second": 21.654,
       "step": 2544
     },
     {
       "epoch": 8.971698113207546,
-      "grad_norm": 0.5218478441238403,
       "learning_rate": 6.289308176100629e-08,
-      "loss": 0.0479,
       "step": 2853
     }
   ],
@@ -161,12 +161,12 @@
       "attributes": {}
     }
   },
-  "total_flos": 745151547572796.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.8675533183457913,
     "num_train_epochs": 9,
-    "temperature": 4
   }
 }

   "log_history": [
     {
       "epoch": 0.9968553459119497,
+      "grad_norm": 0.9016032814979553,
       "learning_rate": 1.7784765897973445e-05,
+      "loss": 0.8053,
       "step": 317
     },
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.6696774193548387,
+      "eval_loss": 0.40919938683509827,
+      "eval_runtime": 1.6439,
+      "eval_samples_per_second": 1885.749,
+      "eval_steps_per_second": 39.54,
       "step": 318
     },
     {
       "epoch": 1.9937106918238994,
+      "grad_norm": 0.7222766876220703,
       "learning_rate": 1.556953179594689e-05,
+      "loss": 0.3073,
       "step": 634
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.844516129032258,
+      "eval_loss": 0.13953416049480438,
+      "eval_runtime": 1.6434,
+      "eval_samples_per_second": 1886.366,
+      "eval_steps_per_second": 39.553,
       "step": 636
     },
     {
       "epoch": 2.990566037735849,
+      "grad_norm": 0.6133838891983032,
       "learning_rate": 1.3354297693920338e-05,
+      "loss": 0.1428,
       "step": 951
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.8964516129032258,
+      "eval_loss": 0.0722731500864029,
+      "eval_runtime": 1.6496,
+      "eval_samples_per_second": 1879.251,
+      "eval_steps_per_second": 39.404,
       "step": 954
     },
     {
       "epoch": 3.9874213836477987,
+      "grad_norm": 0.5777781009674072,
       "learning_rate": 1.1139063591893781e-05,
+      "loss": 0.0917,
       "step": 1268
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9180645161290323,
+      "eval_loss": 0.050948865711688995,
+      "eval_runtime": 1.4494,
+      "eval_samples_per_second": 2138.806,
+      "eval_steps_per_second": 44.846,
       "step": 1272
     },
     {
       "epoch": 4.984276729559748,
+      "grad_norm": 0.4380759596824646,
       "learning_rate": 8.923829489867226e-06,
+      "loss": 0.0715,
       "step": 1585
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.9232258064516129,
+      "eval_loss": 0.042863838374614716,
+      "eval_runtime": 1.6395,
+      "eval_samples_per_second": 1890.819,
+      "eval_steps_per_second": 39.646,
       "step": 1590
     },
     {
       "epoch": 5.981132075471698,
+      "grad_norm": 0.46454158425331116,
       "learning_rate": 6.708595387840672e-06,
+      "loss": 0.0617,
       "step": 1902
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9261290322580645,
+      "eval_loss": 0.03817891329526901,
+      "eval_runtime": 1.8355,
+      "eval_samples_per_second": 1688.925,
+      "eval_steps_per_second": 35.413,
       "step": 1908
     },
     {
       "epoch": 6.977987421383648,
+      "grad_norm": 0.34600403904914856,
       "learning_rate": 4.4933612858141165e-06,
+      "loss": 0.0562,
       "step": 2219
     },
     {
       "epoch": 7.0,
+      "eval_accuracy": 0.9303225806451613,
+      "eval_loss": 0.035540465265512466,
+      "eval_runtime": 1.8369,
+      "eval_samples_per_second": 1687.632,
+      "eval_steps_per_second": 35.386,
       "step": 2226
     },
     {
       "epoch": 7.9748427672955975,
+      "grad_norm": 0.32331326603889465,
       "learning_rate": 2.2781271837875614e-06,
+      "loss": 0.053,
       "step": 2536
     },
     {
       "epoch": 8.0,
+      "eval_accuracy": 0.932258064516129,
+      "eval_loss": 0.034126147627830505,
+      "eval_runtime": 1.8294,
+      "eval_samples_per_second": 1694.566,
+      "eval_steps_per_second": 35.531,
       "step": 2544
     },
     {
       "epoch": 8.971698113207546,
+      "grad_norm": 0.3256802558898926,
       "learning_rate": 6.289308176100629e-08,
+      "loss": 0.0511,
       "step": 2853
     }
   ],
       "attributes": {}
     }
   },
+  "total_flos": 744918075986196.0,
   "train_batch_size": 48,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.8523684644932737,
     "num_train_epochs": 9,
+    "temperature": 2
   }
 }

run-17/checkpoint-2862/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d55f72d033e4da62205f611e22d64151820ef3799975ce2ff32a7cb5cd94ac1d
-size 5432

 version https://git-lfs.github.com/spec/v1
+oid sha256:2604ed4b06bd9bd0b94d7de27f6549fd8ad42a818c36e531355fafadbef23c48
+size 5368

run-2/checkpoint-2544/config.json CHANGED Viewed

@@ -326,6 +326,6 @@
   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
-  "transformers_version": "4.47.0",
   "vocab_size": 30522
 }

   "sinusoidal_pos_embds": false,
   "tie_weights_": true,
   "torch_dtype": "float32",
+  "transformers_version": "4.47.1",
   "vocab_size": 30522
 }

run-2/checkpoint-2544/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9427d39678336d95e13fdfea952f516d9bf056e71e1bd693f83f616f91335ff
 size 268290900

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd73bf9fd9b9d0345f573706c8fc13e5a050e48878125734642ca11863038952
 size 268290900

run-2/checkpoint-2544/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:108c29621e1212a97dfff6d6c0c1199af3d6396b985ada5243ac291de4e9816b
-size 536641018

 version https://git-lfs.github.com/spec/v1
+oid sha256:1e4afc7f349f20b3ff0fee9612c271bf763a89d659466a6339f2187f36aee8d7
+size 536643898

run-2/checkpoint-2544/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b8d01b59a9b9b5afe359a210e91ba85ed7f8ef7e1040c96bc5a7bb0068433710
-size 13990

 version https://git-lfs.github.com/spec/v1
+oid sha256:940bb167a15c246bdedc32635c80794df47530e35ccbba4b4e50737052f0263e
+size 14244

run-2/checkpoint-2544/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e37a4a51a7ddb49778a03f6fd8e39edcf3619749659cd78720dfb097e7c796b4
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:214eac02be0209c50c951afc980c6dcbdad93d966fbfca385bff547659925bf8
 size 1064