Training in progress epoch 0

Files changed (4) hide show

README.md CHANGED Viewed

@@ -15,8 +15,8 @@ probably proofread and complete it, then remove this comment. -->
 This model is a fine-tuned version of [gpt2](https://huggingface.co/gpt2) on an unknown dataset.
 It achieves the following results on the evaluation set:
-- Train Loss: 4.9297
-- Validation Loss: 4.6493
 - Epoch: 0
 ## Model description
@@ -36,14 +36,14 @@ More information needed
 ### Training hyperparameters
 The following hyperparameters were used during training:
-- optimizer: {'name': 'AdamWeightDecay', 'learning_rate': {'class_name': 'WarmUp', 'config': {'initial_learning_rate': 5e-05, 'decay_schedule_fn': {'class_name': 'PolynomialDecay', 'config': {'initial_learning_rate': 5e-05, 'decay_steps': 525, 'end_learning_rate': 0.0, 'power': 1.0, 'cycle': False, 'name': None}, '__passive_serialization__': True}, 'warmup_steps': 100, 'power': 1.0, 'name': None}}, 'decay': 0.0, 'beta_1': 0.9, 'beta_2': 0.999, 'epsilon': 1e-08, 'amsgrad': False, 'weight_decay_rate': 0.01}
 - training_precision: float32
 ### Training results
 | Train Loss | Validation Loss | Epoch |
 |:----------:|:---------------:|:-----:|
-| 4.9297     | 4.6493          | 0     |
 ### Framework versions

 This model is a fine-tuned version of [gpt2](https://huggingface.co/gpt2) on an unknown dataset.
 It achieves the following results on the evaluation set:
+- Train Loss: 4.1922
+- Validation Loss: 3.7943
 - Epoch: 0
 ## Model description
 ### Training hyperparameters
 The following hyperparameters were used during training:
+- optimizer: {'name': 'AdamWeightDecay', 'learning_rate': {'class_name': 'WarmUp', 'config': {'initial_learning_rate': 5e-05, 'decay_schedule_fn': {'class_name': 'PolynomialDecay', 'config': {'initial_learning_rate': 5e-05, 'decay_steps': 6150, 'end_learning_rate': 0.0, 'power': 1.0, 'cycle': False, 'name': None}, '__passive_serialization__': True}, 'warmup_steps': 100, 'power': 1.0, 'name': None}}, 'decay': 0.0, 'beta_1': 0.9, 'beta_2': 0.999, 'epsilon': 1e-08, 'amsgrad': False, 'weight_decay_rate': 0.01}
 - training_precision: float32
 ### Training results
 | Train Loss | Validation Loss | Epoch |
 |:----------:|:---------------:|:-----:|
+| 4.1922     | 3.7943          | 0     |
 ### Framework versions

config.json CHANGED Viewed

@@ -6,10 +6,12 @@
   ],
   "attn_pdrop": 0.1,
   "bos_token_id": 0,
   "embd_pdrop": 0.1,
   "eos_token_id": 0,
   "initializer_range": 0.02,
   "layer_norm_epsilon": 1e-05,
   "model_type": "gpt2",
   "n_ctx": 128,
   "n_embd": 768,

   ],
   "attn_pdrop": 0.1,
   "bos_token_id": 0,
+  "do_sample": true,
   "embd_pdrop": 0.1,
   "eos_token_id": 0,
   "initializer_range": 0.02,
   "layer_norm_epsilon": 1e-05,
+  "max_length": 50,
   "model_type": "gpt2",
   "n_ctx": 128,
   "n_embd": 768,

generation_config.json CHANGED Viewed

@@ -1,6 +1,8 @@
 {
   "_from_model_config": true,
   "bos_token_id": 0,
   "eos_token_id": 0,
   "transformers_version": "4.31.0"
 }

 {
   "_from_model_config": true,
   "bos_token_id": 0,
+  "do_sample": true,
   "eos_token_id": 0,
+  "max_length": 50,
   "transformers_version": "4.31.0"
 }

tf_model.h5 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fc645266b60643632d041ea89135331d749e5dcb41619f0f7a5a6490c8024820
 size 497145936

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5199b9a14ddf90088e1d36c9d1b6525d8ea085706c231bb01fb8775c399213c
 size 497145936