Upload version with tags in posts shuffled before training

This model was trained on the same dataset but the tags from each post were shuffled before used for training

Files changed (7) hide show

config.json CHANGED Viewed

@@ -40,7 +40,7 @@
     }
   },
   "torch_dtype": "float32",
-  "transformers_version": "4.27.0.dev0",
   "use_cache": true,
   "vocab_size": 50257
 }

     }
   },
   "torch_dtype": "float32",
+  "transformers_version": "4.31.0.dev0",
   "use_cache": true,
   "vocab_size": 50257
 }

merges.txt CHANGED Viewed

@@ -1,4 +1,4 @@
-#version: 0.2 - Trained by `huggingface/tokenizers`
 Ġ t
 Ġ a
 h e

+#version: 0.2
 Ġ t
 Ġ a
 h e

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6353ddc64072be10bc35861e3cc73e639debd29ddfd763ce379bd894004e84de
-size 333970169

 version https://git-lfs.github.com/spec/v1
+oid sha256:99e39f00ff01123155098e7ec9fdc36432ba403c5d4182a59f2affb76d05a828
+size 327674773

runs/Jun08_11-12-20_671aa6aed209/events.out.tfevents.1686222803.671aa6aed209.1153.0 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:7a2d97deabcf9a45ed754f0fcd585686c3b89b48c616d33e9205d00d3dfe9284
+size 6931

runs/Jun08_11-12-20_671aa6aed209/events.out.tfevents.1686232154.671aa6aed209.1153.1 ADDED Viewed

+version https://git-lfs.github.com/spec/v1
+oid sha256:e1a15fd04acb34741f690785349d2fdaa82f9627a84c18ff520b73509541313a
+size 411

tokenizer.json CHANGED Viewed

@@ -39,6 +39,7 @@
     "continuing_subword_prefix": "",
     "end_of_word_suffix": "",
     "fuse_unk": false,
     "vocab": {
       "!": 0,
       "\"": 1,

     "continuing_subword_prefix": "",
     "end_of_word_suffix": "",
     "fuse_unk": false,
+    "byte_fallback": false,
     "vocab": {
       "!": 0,
       "\"": 1,

tokenizer_config.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "add_prefix_space": false,
   "bos_token": "<|endoftext|>",
   "eos_token": "<|endoftext|>",
   "model_max_length": 1024,
-  "special_tokens_map_file": null,
   "tokenizer_class": "GPT2Tokenizer",
   "unk_token": "<|endoftext|>"
 }

 {
   "add_prefix_space": false,
   "bos_token": "<|endoftext|>",
+  "clean_up_tokenization_spaces": true,
   "eos_token": "<|endoftext|>",
   "model_max_length": 1024,
   "tokenizer_class": "GPT2Tokenizer",
   "unk_token": "<|endoftext|>"
 }