Aratako/reward-test-modernbert

Browse files

Files changed (8) hide show

README.md +180 -0
config.json +54 -0
model.safetensors +3 -0
special_tokens_map.json +51 -0
tokenizer.json +0 -0
tokenizer.model +3 -0
tokenizer_config.json +171 -0
training_args.bin +3 -0

README.md ADDED Viewed

	@@ -0,0 +1,180 @@

+---
+library_name: transformers
+license: mit
+base_model: sbintuitions/modernbert-ja-130m
+tags:
+- generated_from_trainer
+metrics:
+- pearsonr
+- spearmanr
+model-index:
+- name: test-clf-modernbert
+  results: []
+---
+<!-- This model card has been generated automatically according to the information the Trainer had access to. You
+should probably proofread and complete it, then remove this comment. -->
+# test-clf-modernbert
+This model is a fine-tuned version of [sbintuitions/modernbert-ja-130m](https://huggingface.co/sbintuitions/modernbert-ja-130m) on an unknown dataset.
+It achieves the following results on the evaluation set:
+- Loss: 1.2451
+- Mae: 0.8403
+- R2: 0.3130
+- Pearsonr: 0.5931
+- Spearmanr: 0.5922
+## Model description
+More information needed
+## Intended uses & limitations
+More information needed
+## Training and evaluation data
+More information needed
+## Training procedure
+### Training hyperparameters
+The following hyperparameters were used during training:
+- learning_rate: 5e-05
+- train_batch_size: 8
+- eval_batch_size: 8
+- seed: 42
+- gradient_accumulation_steps: 2
+- total_train_batch_size: 16
+- optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
+- lr_scheduler_type: cosine_with_min_lr
+- lr_scheduler_warmup_ratio: 0.1
+- num_epochs: 5
+### Training results
+| Training Loss | Epoch  | Step | Validation Loss | Mae    | R2      | Pearsonr | Spearmanr |
+|:-------------:|:------:|:----:|:---------------:|:------:|:-------:|:--------:|:---------:|
+| 9.9933        | 0.0440 | 30   | 6.6719          | 2.0008 | -2.2668 | 0.1397   | 0.1452    |
+| 15.8286       | 0.0880 | 60   | 8.1886          | 2.5934 | -3.0094 | 0.3973   | 0.4013    |
+| 8.4572        | 0.1320 | 90   | 6.8523          | 2.2707 | -2.3551 | 0.4558   | 0.4569    |
+| 5.3474        | 0.1760 | 120  | 6.9153          | 2.3853 | -2.3859 | 0.3748   | 0.3991    |
+| 3.7083        | 0.2199 | 150  | 1.8854          | 1.1120 | 0.0769  | 0.5052   | 0.4925    |
+| 7.227         | 0.2639 | 180  | 9.4957          | 2.8974 | -3.6494 | 0.5055   | 0.4893    |
+| 4.7794        | 0.3079 | 210  | 3.2968          | 1.6055 | -0.6142 | 0.5419   | 0.5234    |
+| 5.8622        | 0.3519 | 240  | 1.6282          | 1.0145 | 0.2028  | 0.4997   | 0.4751    |
+| 29.3694       | 0.3959 | 270  | 3.1598          | 1.2633 | -0.5471 | 0.4217   | 0.4515    |
+| 4.8843        | 0.4399 | 300  | 1.9662          | 0.9848 | 0.0373  | 0.5340   | 0.5243    |
+| 7.2397        | 0.4839 | 330  | 7.8408          | 2.6175 | -2.8391 | 0.5319   | 0.5158    |
+| 6.8313        | 0.5279 | 360  | 8.7982          | 2.7803 | -3.3078 | 0.5732   | 0.5505    |
+| 4.3403        | 0.5718 | 390  | 1.4482          | 0.8975 | 0.2909  | 0.5520   | 0.5218    |
+| 7.2654        | 0.6158 | 420  | 1.5515          | 1.0041 | 0.2403  | 0.5685   | 0.5444    |
+| 9.5751        | 0.6598 | 450  | 5.0151          | 1.9550 | -1.4555 | 0.5610   | 0.5228    |
+| 7.2698        | 0.7038 | 480  | 1.7762          | 1.0876 | 0.1303  | 0.5662   | 0.5323    |
+| 6.6579        | 0.7478 | 510  | 4.4502          | 1.8838 | -1.1790 | 0.5828   | 0.5705    |
+| 7.2724        | 0.7918 | 540  | 1.8251          | 1.0671 | 0.1064  | 0.3696   | 0.4091    |
+| 9.4832        | 0.8358 | 570  | 2.6866          | 1.1866 | -0.3155 | 0.5541   | 0.5260    |
+| 4.5613        | 0.8798 | 600  | 3.3879          | 1.6278 | -0.6588 | 0.5794   | 0.5605    |
+| 12.3981       | 0.9238 | 630  | 3.0805          | 1.3587 | -0.5083 | 0.5904   | 0.5478    |
+| 3.9317        | 0.9677 | 660  | 1.6064          | 0.9136 | 0.2135  | 0.5827   | 0.5508    |
+| 4.8332        | 1.0117 | 690  | 1.5664          | 0.8637 | 0.2330  | 0.5791   | 0.5430    |
+| 6.857         | 1.0557 | 720  | 5.4549          | 2.0870 | -1.6709 | 0.5417   | 0.5282    |
+| 3.9584        | 1.0997 | 750  | 1.3481          | 0.8706 | 0.3399  | 0.5957   | 0.5631    |
+| 8.8648        | 1.1437 | 780  | 1.7614          | 1.1196 | 0.1376  | 0.6047   | 0.5783    |
+| 2.9532        | 1.1877 | 810  | 1.6326          | 0.9802 | 0.2007  | 0.6132   | 0.5764    |
+| 2.388         | 1.2317 | 840  | 1.3209          | 0.8682 | 0.3533  | 0.5980   | 0.5618    |
+| 3.9205        | 1.2757 | 870  | 2.0332          | 1.2101 | 0.0045  | 0.6013   | 0.5713    |
+| 5.0774        | 1.3196 | 900  | 1.9003          | 0.9672 | 0.0696  | 0.5201   | 0.5102    |
+| 11.2205       | 1.3636 | 930  | 6.1741          | 2.3082 | -2.0230 | 0.6104   | 0.5664    |
+| 8.0071        | 1.4076 | 960  | 3.0001          | 1.5480 | -0.4689 | 0.6097   | 0.5837    |
+| 5.4257        | 1.4516 | 990  | 2.4884          | 1.3051 | -0.2184 | 0.6160   | 0.5836    |
+| 4.5131        | 1.4956 | 1020 | 2.6897          | 1.4583 | -0.3169 | 0.6051   | 0.5638    |
+| 4.1723        | 1.5396 | 1050 | 2.0260          | 1.1445 | 0.0080  | 0.6164   | 0.5869    |
+| 3.0571        | 1.5836 | 1080 | 1.5634          | 1.0075 | 0.2345  | 0.6188   | 0.5816    |
+| 9.7371        | 1.6276 | 1110 | 1.4136          | 0.8686 | 0.3078  | 0.6051   | 0.5755    |
+| 5.2573        | 1.6716 | 1140 | 3.5674          | 1.6897 | -0.7467 | 0.6180   | 0.5883    |
+| 3.9977        | 1.7155 | 1170 | 1.3670          | 0.8469 | 0.3307  | 0.5863   | 0.5811    |
+| 2.8537        | 1.7595 | 1200 | 1.9676          | 1.1632 | 0.0366  | 0.5905   | 0.5737    |
+| 3.1709        | 1.8035 | 1230 | 2.9723          | 1.5223 | -0.4553 | 0.5906   | 0.5709    |
+| 1.4803        | 1.8475 | 1260 | 1.3534          | 0.8380 | 0.3373  | 0.6163   | 0.5936    |
+| 2.8163        | 1.8915 | 1290 | 2.0147          | 1.2170 | 0.0136  | 0.6023   | 0.5762    |
+| 2.4021        | 1.9355 | 1320 | 1.7181          | 0.9886 | 0.1588  | 0.6103   | 0.5991    |
+| 3.3673        | 1.9795 | 1350 | 1.3287          | 0.8533 | 0.3494  | 0.6038   | 0.5811    |
+| 5.3784        | 2.0235 | 1380 | 2.5721          | 1.3311 | -0.2594 | 0.5930   | 0.5774    |
+| 1.2611        | 2.0674 | 1410 | 1.4277          | 0.9046 | 0.3010  | 0.6076   | 0.5870    |
+| 3.9501        | 2.1114 | 1440 | 1.9269          | 1.1472 | 0.0565  | 0.5790   | 0.5814    |
+| 2.2798        | 2.1554 | 1470 | 2.5371          | 1.3177 | -0.2422 | 0.5710   | 0.5862    |
+| 3.7578        | 2.1994 | 1500 | 2.5477          | 1.3482 | -0.2474 | 0.5732   | 0.5748    |
+| 1.984         | 2.2434 | 1530 | 1.6790          | 1.0629 | 0.1779  | 0.6074   | 0.5875    |
+| 1.6615        | 2.2874 | 1560 | 1.3589          | 0.8942 | 0.3346  | 0.6133   | 0.5887    |
+| 3.6824        | 2.3314 | 1590 | 1.3974          | 0.8186 | 0.3158  | 0.6202   | 0.5898    |
+| 5.5223        | 2.3754 | 1620 | 1.5382          | 0.9047 | 0.2469  | 0.6262   | 0.5985    |
+| 4.4067        | 2.4194 | 1650 | 1.4642          | 0.8964 | 0.2831  | 0.6047   | 0.5854    |
+| 1.85          | 2.4633 | 1680 | 1.4969          | 0.8974 | 0.2671  | 0.6068   | 0.5953    |
+| 2.2453        | 2.5073 | 1710 | 1.3792          | 0.8889 | 0.3247  | 0.6238   | 0.5967    |
+| 1.222         | 2.5513 | 1740 | 1.4123          | 0.8998 | 0.3085  | 0.5980   | 0.5797    |
+| 3.7706        | 2.5953 | 1770 | 1.8249          | 1.1007 | 0.1065  | 0.6079   | 0.5902    |
+| 3.4938        | 2.6393 | 1800 | 1.5050          | 0.9715 | 0.2631  | 0.6097   | 0.5893    |
+| 2.3874        | 2.6833 | 1830 | 1.3709          | 0.8751 | 0.3288  | 0.6151   | 0.5836    |
+| 4.2677        | 2.7273 | 1860 | 4.1403          | 1.7888 | -1.0272 | 0.5916   | 0.5843    |
+| 1.5007        | 2.7713 | 1890 | 1.3111          | 0.8293 | 0.3580  | 0.6207   | 0.5978    |
+| 3.911         | 2.8152 | 1920 | 1.3087          | 0.8516 | 0.3592  | 0.6119   | 0.6000    |
+| 3.8933        | 2.8592 | 1950 | 2.8415          | 1.4671 | -0.3913 | 0.5876   | 0.5771    |
+| 2.1403        | 2.9032 | 1980 | 1.4062          | 0.8127 | 0.3115  | 0.6227   | 0.5928    |
+| 2.1228        | 2.9472 | 2010 | 1.3771          | 0.8911 | 0.3258  | 0.6016   | 0.5892    |
+| 2.9094        | 2.9912 | 2040 | 1.7354          | 1.0238 | 0.1503  | 0.6079   | 0.5863    |
+| 1.4657        | 3.0352 | 2070 | 1.4149          | 0.8892 | 0.3072  | 0.5983   | 0.5799    |
+| 1.7477        | 3.0792 | 2100 | 1.3193          | 0.8589 | 0.3540  | 0.6004   | 0.5704    |
+| 3.5123        | 3.1232 | 2130 | 1.6118          | 0.9487 | 0.2108  | 0.6201   | 0.5896    |
+| 1.8096        | 3.1672 | 2160 | 1.7808          | 1.0538 | 0.1281  | 0.6019   | 0.5833    |
+| 1.5837        | 3.2111 | 2190 | 1.5396          | 0.9507 | 0.2462  | 0.5828   | 0.5674    |
+| 0.8453        | 3.2551 | 2220 | 1.4974          | 0.9199 | 0.2668  | 0.6007   | 0.5865    |
+| 1.9732        | 3.2991 | 2250 | 1.6253          | 0.9704 | 0.2042  | 0.5843   | 0.5768    |
+| 2.0378        | 3.3431 | 2280 | 1.5907          | 0.9785 | 0.2212  | 0.6044   | 0.5839    |
+| 1.0899        | 3.3871 | 2310 | 1.5984          | 0.9767 | 0.2174  | 0.5932   | 0.5855    |
+| 0.7862        | 3.4311 | 2340 | 1.8230          | 1.0944 | 0.1074  | 0.6046   | 0.5857    |
+| 0.5176        | 3.4751 | 2370 | 1.4034          | 0.8694 | 0.3128  | 0.6024   | 0.5793    |
+| 2.4248        | 3.5191 | 2400 | 1.7378          | 1.0725 | 0.1491  | 0.5870   | 0.5739    |
+| 1.7691        | 3.5630 | 2430 | 1.4056          | 0.8901 | 0.3118  | 0.6017   | 0.5830    |
+| 1.4879        | 3.6070 | 2460 | 1.3290          | 0.8434 | 0.3493  | 0.6151   | 0.5981    |
+| 1.547         | 3.6510 | 2490 | 1.6181          | 1.0174 | 0.2077  | 0.6078   | 0.5895    |
+| 2.0894        | 3.6950 | 2520 | 1.3512          | 0.8452 | 0.3384  | 0.6066   | 0.5894    |
+| 1.5556        | 3.7390 | 2550 | 2.0492          | 1.1739 | -0.0033 | 0.5986   | 0.5850    |
+| 1.3739        | 3.7830 | 2580 | 1.4147          | 0.8854 | 0.3073  | 0.6057   | 0.5929    |
+| 1.2473        | 3.8270 | 2610 | 1.6034          | 0.9910 | 0.2150  | 0.5994   | 0.5934    |
+| 1.9761        | 3.8710 | 2640 | 1.4196          | 0.8876 | 0.3049  | 0.5900   | 0.5857    |
+| 1.8939        | 3.9150 | 2670 | 1.3406          | 0.8412 | 0.3436  | 0.6088   | 0.5962    |
+| 2.0543        | 3.9589 | 2700 | 1.7193          | 1.0429 | 0.1582  | 0.6008   | 0.5919    |
+| 0.7404        | 4.0029 | 2730 | 1.5380          | 0.9383 | 0.2470  | 0.6013   | 0.5890    |
+| 0.5295        | 4.0469 | 2760 | 1.6171          | 0.9787 | 0.2082  | 0.5922   | 0.5839    |
+| 0.7104        | 4.0909 | 2790 | 1.5018          | 0.9479 | 0.2647  | 0.5907   | 0.5843    |
+| 0.7016        | 4.1349 | 2820 | 1.4954          | 0.9353 | 0.2678  | 0.5985   | 0.5878    |
+| 0.3892        | 4.1789 | 2850 | 1.4499          | 0.9028 | 0.2901  | 0.6007   | 0.5888    |
+| 0.884         | 4.2229 | 2880 | 1.5246          | 0.9554 | 0.2535  | 0.5950   | 0.5878    |
+| 0.8623        | 4.2669 | 2910 | 1.3712          | 0.8709 | 0.3286  | 0.6059   | 0.5970    |
+| 0.2444        | 4.3109 | 2940 | 1.6298          | 1.0040 | 0.2020  | 0.6038   | 0.5950    |
+| 0.834         | 4.3548 | 2970 | 1.4498          | 0.9032 | 0.2901  | 0.6063   | 0.5971    |
+| 0.7055        | 4.3988 | 3000 | 1.6280          | 0.9841 | 0.2029  | 0.6037   | 0.5946    |
+| 0.9799        | 4.4428 | 3030 | 1.7397          | 1.0215 | 0.1482  | 0.5993   | 0.5923    |
+| 0.9547        | 4.4868 | 3060 | 1.4419          | 0.9001 | 0.2940  | 0.6049   | 0.5975    |
+| 1.7134        | 4.5308 | 3090 | 1.3458          | 0.8483 | 0.3411  | 0.6074   | 0.5992    |
+| 0.8426        | 4.5748 | 3120 | 1.3720          | 0.8646 | 0.3282  | 0.6031   | 0.5948    |
+| 0.501         | 4.6188 | 3150 | 1.5110          | 0.9412 | 0.2602  | 0.5960   | 0.5916    |
+| 0.8421        | 4.6628 | 3180 | 1.5676          | 0.9520 | 0.2325  | 0.5961   | 0.5908    |
+| 0.7874        | 4.7067 | 3210 | 1.5184          | 0.9517 | 0.2565  | 0.6021   | 0.5939    |
+| 0.7168        | 4.7507 | 3240 | 1.4734          | 0.9022 | 0.2786  | 0.6048   | 0.5968    |
+| 0.5451        | 4.7947 | 3270 | 1.4566          | 0.9136 | 0.2868  | 0.6017   | 0.5959    |
+| 0.3933        | 4.8387 | 3300 | 1.5092          | 0.9213 | 0.2611  | 0.5987   | 0.5912    |
+| 1.5637        | 4.8827 | 3330 | 1.5144          | 0.9262 | 0.2585  | 0.5989   | 0.5902    |
+| 0.6051        | 4.9267 | 3360 | 1.5053          | 0.9501 | 0.2630  | 0.5955   | 0.5861    |
+| 0.0951        | 4.9707 | 3390 | 1.4349          | 0.8909 | 0.2974  | 0.6021   | 0.5913    |
+### Framework versions
+- Transformers 4.49.0
+- Pytorch 2.4.1+cu124
+- Datasets 3.3.2
+- Tokenizers 0.21.0

config.json ADDED Viewed

	@@ -0,0 +1,54 @@

+{
+  "_name_or_path": "sbintuitions/modernbert-ja-130m",
+  "architectures": [
+    "ModernBertForSequenceClassification"
+  ],
+  "attention_bias": false,
+  "attention_dropout": 0.0,
+  "bos_token_id": 1,
+  "classifier_activation": "gelu",
+  "classifier_bias": false,
+  "classifier_dropout": 0.0,
+  "classifier_pooling": "cls",
+  "cls_token_id": 6,
+  "decoder_bias": true,
+  "deterministic_flash_attn": false,
+  "embedding_dropout": 0.0,
+  "eos_token_id": 2,
+  "global_attn_every_n_layers": 3,
+  "global_rope_theta": 160000.0,
+  "gradient_checkpointing": false,
+  "hidden_activation": "gelu",
+  "hidden_size": 512,
+  "id2label": {
+    "0": "LABEL_0"
+  },
+  "initializer_cutoff_factor": 2.0,
+  "initializer_range": 0.02,
+  "intermediate_size": 2048,
+  "label2id": {
+    "LABEL_0": 0
+  },
+  "layer_norm_eps": 1e-05,
+  "local_attention": 128,
+  "local_rope_theta": 10000.0,
+  "max_position_embeddings": 8192,
+  "mlp_bias": false,
+  "mlp_dropout": 0.0,
+  "model_type": "modernbert",
+  "norm_bias": false,
+  "norm_eps": 1e-05,
+  "num_attention_heads": 8,
+  "num_hidden_layers": 19,
+  "pad_token_id": 3,
+  "position_embedding_type": "rope",
+  "problem_type": "regression",
+  "reference_compile": false,
+  "repad_logits_with_grad": false,
+  "sep_token_id": 4,
+  "sparse_pred_ignore_index": -100,
+  "sparse_prediction": false,
+  "torch_dtype": "float32",
+  "transformers_version": "4.49.0",
+  "vocab_size": 102400
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c65486748db028b86abe425ed3ad8960255a02252408f49503e213695767c4f8
+size 529627164

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "bos_token": {
+    "content": "<s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "cls_token": {
+    "content": "<cls>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "eos_token": {
+    "content": "</s>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "<mask>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<pad>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "<sep>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "<unk>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer.model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:008293028e1a9d9a1038d9b63d989a2319797dfeaa03f171093a57b33a3a8277
+size 1831879

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,171 @@

+{
+  "add_bos_token": true,
+  "add_dummy_prefix_space": false,
+  "add_eos_token": true,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "0": {
+      "content": "<unk>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "<s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "</s>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "<pad>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "<sep>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "<mask>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "6": {
+      "content": "<cls>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "7": {
+      "content": "<|system|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "8": {
+      "content": "<|assistant|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "9": {
+      "content": "<|user|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "10": {
+      "content": "<|available_tools|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "11": {
+      "content": "<|tool_calls|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "12": {
+      "content": "<|tool_results|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "13": {
+      "content": "<|code|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "14": {
+      "content": "<|file|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "102397": {
+      "content": "<|prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "102398": {
+      "content": "<|suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "102399": {
+      "content": "<|middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    }
+  },
+  "bos_token": "<s>",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "<cls>",
+  "do_lower_case": false,
+  "eos_token": "</s>",
+  "extra_ids": 0,
+  "extra_special_tokens": {},
+  "keep_accents": true,
+  "legacy": false,
+  "mask_token": "<mask>",
+  "model_max_length": 8192,
+  "pad_token": "<pad>",
+  "padding_side": "right",
+  "sep_token": "<sep>",
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "LlamaTokenizer",
+  "unk_token": "<unk>",
+  "use_default_system_prompt": false
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e10608735154be53b0e8de2fb6433029bdf2fee33e1c61eb481219b63da3c3e2
+size 5368