SentenceTransformer based on sentence-transformers/multi-qa-mpnet-base-dot-v1
This is a sentence-transformers model finetuned from sentence-transformers/multi-qa-mpnet-base-dot-v1. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: sentence-transformers/multi-qa-mpnet-base-dot-v1
- Maximum Sequence Length: 512 tokens
- Output Dimensionality: 768 tokens
- Similarity Function: Dot Product
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: MPNetModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("mustozsarac/finetuned-four-epoch-multi-qa-mpnet-base-dot-v1")
# Run inference
sentences = [
'Arama',
"Zorunlu Çerezler Bu çerez, insanlarla botları ayırt etmek için kullanılır. Bu, web sitelerinin kullanımı hakkında geçerli raporlar hazırlamak için kullanılmakta olup web sitesi için faydalıdır. İşlevsel Çerezler Kullanıcının web sitesinin seçtiği dil sürümünü hatırlar. Performans/Analitik Çerezler Ziyaretçinin web sitesini nasıl kullandığına ilişkin istatistiksel veriler oluşturmak için kullanılan benzersiz bir kimliği kaydeder. Google Analytics tarafından talep oranını kısmak için kullanılır. Kabul et Reddet Reklam/Pazarlama Çerezleri Bu çerez, Alexa Analytics'e gönderilen tüketici davranışları hakkında bilgi toplamak için kullanılır. (Alexa Analytics bir Amazon şirketidir.)",
"Euroleague’de 29. hafta dün oynanan karşılaşmalarla sona erdi. Bu hafta Türk takımları 2’de 1 yaptı. Fenerbahçe evinde karşılaştığı İspanyol takımı Valencia Basket’i 118-88’lik skorla mağlup ederek üst üste 3, toplamda 18. galibiyetini elde etti. Sarı-lacivertliler ayrıca 24 isabetle Euroleague'de üçlük rekoru kırdı. Haberin Devamı Anadolu Efes ise Fransa deplasmanında ASVEL’e 84-80’lik skorla kaybetti ve 17. yenilgisini aldı. Yunan derbisinde de Başantrenör Ergin Ataman’ın takımı Panathinaikos konuk olduğu Olympiakos’a 71-65’lik skorla mağlup oldu. REAL MADRİD LİDERLİĞİNİ SÜRDÜRÜYOR Euroleague'de 29. haftanın ardından Real Madrid 23 galibiyetle liderliğini sürdürdü. Madrid'i 20 galibiyetli Barcelona ile 19 galibiyetli Monaco takip ediyor. Fenerbahçe 18 galibiyetle 6, Efes de 12 galibiyetle 14. sırada bulunuyor. Ligin son sırasında ise 5 galibiyeti olan ALBA Berlin yer aldı. Euroleague’de haftanın toplu sonuçları şöyle: Fenerbahçe Beko: 118 - Valencia Basket: 88 Olympiakos: 71 - Panathinaikos: 65 Kızılyıldız: 80 - Maccabi Tel Aviv: 84 ALBA Berlin: 82 - AS Monaco: 90 Barcelona: 94 - Partizan: 76 Baskonia: 88 - Olimpia Milano: 73 ASVEL: 84 - A. Efes: 80 Bayern Münih: 64 - Zalgiris Kaunas: 58 Virtus Bologna: 74 - Real Madrid: 89",
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
Training Details
Training Dataset
Unnamed Dataset
- Size: 62,964 training samples
- Columns:
sentence_0
,sentence_1
, andlabel
- Approximate statistics based on the first 1000 samples:
sentence_0 sentence_1 label type string string float details - min: 4 tokens
- mean: 26.71 tokens
- max: 78 tokens
- min: 183 tokens
- mean: 439.37 tokens
- max: 512 tokens
- min: 1.0
- mean: 1.0
- max: 1.0
- Samples:
sentence_0 sentence_1 label İlk borsa yatırım fonun işlem görmeye başlamasının ardından Bitcoin tarihi zirvesine yaklaştı
By euronews Amerika Birleşik Devletleri'nde bitcoin tabanlı ilk borsa yatırım fonunun işlem görmeye başlamasının ardından kripto para birimi tarihi rekoruna yakın düzeylerde seyrediyor. REKLAM Amerika Birleşik Devletleri'nde bitcoin tabanlı ilk borsa yatırım fonunun işlem görmeye başlamasının ardından kripto para birimi tarihi rekoruna yakın düzeylerde seyrediyor. Uzmanların kurumsal yatırımcıların dijital varlıklara yönelmesini sağlayacağını belirttiği gelişme sonrası bitcoin çarşamba sabahı itibarıyla 64 bin dolar seviyelerinde bulunuyor. Salı geç saatlerde ise 64 bin 499 dolara kadar çıkan bitcoin 14 Nisan'da ulaştığı 64 bin 895 dolarlık tarihi zirveye çok yaklaştı. Dünyanın ikinci en değerli kripto para birimi Ethereum'un fiyatı ise yüzde 0,39'luk düşüşe rağmen 3 bin 861 dolarla 12 Mayıs'ta gördüğü 4 bin 380 dolarlık rekoruna hala yakın seviyede. Salı günü işlem görmeye başlayan ProShares'in Bitcoin Strategy ETF'si günü yüzde 2,59'luk artışla kapatırken 1 milyar dolarlık işlem hacmine ulaştı. Fakat analistler işlemlerin ağırlıklı olarak küçük yatırımcılar tarafından yüksek frekanslı alım satımlar olduğunu blok satışların henüz gelmemesinin kurumsal yatırımcıların şimdilik kenarda beklediğine işaret ettiğini vurguladı. Kripto para tabanlı borsa yatırım fonları daha önce Kanada ve Avrupa'da onaylanmıştı. VanEck ve Valkyrie Amerika Birleşik Devletleri'nde de yatırım fonu kurmak için çalışan fon yöneticileri arasındaydı.
1.0
Becali, Cioflină şi Babiuc, condamnaţi “la secret”. Înalta Curte nu a motivat sentinţa nici la şapte luni de la pronunţare
Apărătorul latifundiarului Gigi Becali acuză faptul că o serie de judecători ai ICCJ care l-au condamnat la 3 ani de închisoare pe Becali, alături de fostul ministru al Apărării Victor Babiuc şi generalul Dumitru Cioflină – în dosarul schimbului de terenuri de la MApN – nu au avut certificate ORNISS care să le fi permis să studieze un volum secret din dosar, care conţinea documente clasificate. Lumea Justiţiei aduce noi amănunte despre acest caz. Conform unei decizii anterioare a ICCJ, dar şi a unei decizii a Curţii Constituţionale, o hotărâre emisă de un judecător fără certificare ORNISS într-o cauză cu documente clasificate este nulă de drept. Chiar dacă Înalta Curte refuză să spună numele judecătorilor care deţin certificate ORNISS, care să le permită să aibă acces la documente clasificate, obstrucţionând astfel aflarea adevărului despre acest caz, un lucru este cert. A existat în “Dosarul MApN” un volum de documente clasificate, pe care se pare că unii judecători nu l-au văzut din pricina faptului că nu aveau certificat ORNISS. Acest dosar nu a fost prezentat apărării (avocaţilor lui Becali, Babiuc şi Cioflină) întrucât aceştia nu l-au văzut niciodată fizic, şi nici măcar nu a avut ştiinţă despre el, aflând despre acesta la luni de zile după condamnarea definitivă. Motivarea sentinţei nu este nici acum redactată, la peste şase luni de la pronunţare! Existenţa acestui volum secret este confirmată practic de Înalta Curte, care prin adresa 142/CDC din 25.09.2013 semnată de judecătorul Iulian Dragomir care deţine temporar, cu delegaţie, funcţia de şef al Structurii de securitate a ICCJ a ţinut să-l convingă pe avocatul Cătălin Dancu motivând că pentru: “judecătorii Lucia Rog, Ana Maria Dascălu şi Ştefan Pistol pentru dosarul 8300/1/2011, vă comunicăm că au fost întreprinse demersuri de obţinere a certificatului de securitate/autorizaţie de acces la informaţiile clasificate, în conformitate cu dispoziţiile legale, pentru asigurarea respectării actelor normative care reglementează protecţia informaţiilor clasificate”. Este clar că fără un dosar cu documente clasificate nu ar fi fost nevoie de efectuarea de demersuri pentru obţinerea certificatelor ORNISS. Au fost demersurile făcute înainte sau după soluţia de la fond? Ori dacă fondul s-a judecat fără certificate ORNISS, adică fără acces la toate piesele dosarului, este evident că soluţia trebuia casată în recurs, cu trimitere la rejudecare, nu doar pentru acest neajuns, dar şi pentru faptul că apărarea nu a avut acces la volumul de documente clasificate, ceea ce face ca procesul să fie unul inechitabil. Punct de vedere absolut logic susţinut de Lumea Justiţiei. Din informaţiile publicaţiei, în respectivul volum clasificat, s-ar afla o serie de acte emise de Consiliul Suprem de Apărare a Ţării (CSAT) care a aprobat în 1997, sub semnătura fostului preşedinte al României Emil Constantinescu, schimbul de terenuri dintre MApN (care deţinea un teren al unei unităţi din Băneasa) şi Gigi Becali (care deţinea un teren în comuna Ştefăneşti), documente care prezentau schimbul ca fiind de natură strategică, pentru construirea unei baze militare în parteneriat cu forţe NATO. Dacă aceste documente sunt precum ştim (Lumeajustitiei.ro a prezentat în ediţia din 24 mai 2013 un document al CSAT pe această temă) lucrurile sunt foarte grave din punct de vedere judiciar, întrucât asta înseamnă că nu MApN a luat în fapt decizia schimbului de terenuri, ci acest fapt a fost urmarea unei strategii militare naţionale, în care nu importa diferenţele de valoare de pe piaţa imobiliară a terenurilor, cum s-a căznit DNA să demonstreze ca fiind prejudiciu al unor fapte de corupţie, ci valoarea strategică a amplasamentului din punct de vedere militar, chestiune care excede penalului. Extrem de ciudat în acest caz, Înalta Curte refuză cu obstinaţie să comunice ce judecători au certificate ORNISS, în condiţiile în care o atare informaţie nu ar trebui să reprezinte un secret. De acelaşi zid de secretomanie s-a lovit şi avocatul Cătălin Dancu, aşa cum am arătat mai sus. Incredibil, dar adevărat, Gigi Becali stă azi în închisoare prin voinţa a doar trei judecători de la Înalta Curte Livia Stanciu, Francisca Maria Vasile şi Ionuţ Mihai Matei care au considerat că Gigi Becali, Victor Babiuc şi Dumitru Cioflină trebuie să fie condamnaţi! În acest dosar, Gigi Becali a fost achitat la fond, în 2012, de Completul de 3 al ICCJ format din judecătorii Lucia Tatiana Rog, Ana Maria Dascălu şi Ştefan Pistol. Ciudat, la recursul declarat de DNA, Completul de 5 condus de Livia Stanciu l-a condamnat la 3 ani de închisoare la data de 20 mai 2013. Cu scorul de 3 – 2. Livia Stanciu, Francisca Maria Vasile şi Ionuţ Mihai Matei au făcut decizia majoritară în sensul condamnării, în timp ce judecătorii Săndel Macavei şi Rodica Cosma au făcut opinie separată în sensul achitării. Deşi toţi cei opt judecători sunt egali în grad, de la aceeaşi instanţă, rezultă că cinci s-au pronunţat pentru achitare, în vreme ce doar trei pentru condamnare. Amintim că din 20 mai 2013 şi până în prezent, adică de circa şapte luni, Completul de 5 condus de Livia Stanciu, preşedinta ICCJ, nu a motivat decizia de condamnare a lui Gigi Becali.
1.0
İsrail ordusu Batı Şeria'da zihinsel engelli bir Filistinliyi vurdu
İsrail askerleri El Halil'de bir Filistinliyi sıfır mesafeden vurarak yaraladı. Filistin Kızılayından yapılan açıklamaya göre kalçasından yaralanan 34 yaşındaki Filistinliye ilk tıbbi müdahale olay yerinde yapıldı. Yaralı Filistinli daha sonra tedavi için hastaneye kaldırıldı. Görgü tanıkları, gözaltına alınmak istenen Filistinlinin zihinsel engelli olduğunu aktardı. Sosyal medyaya yansıyan görüntülerde, İsrail askerinin gözaltına almak istediği bir Filistinliye sıfır mesafesinden ateş açtığı görülüyor.
1.0
- Loss:
MultipleNegativesRankingLoss
with these parameters:{ "scale": 20.0, "similarity_fct": "cos_sim" }
Training Hyperparameters
Non-Default Hyperparameters
num_train_epochs
: 4multi_dataset_batch_sampler
: round_robin
All Hyperparameters
Click to expand
overwrite_output_dir
: Falsedo_predict
: Falseeval_strategy
: noprediction_loss_only
: Trueper_device_train_batch_size
: 8per_device_eval_batch_size
: 8per_gpu_train_batch_size
: Noneper_gpu_eval_batch_size
: Nonegradient_accumulation_steps
: 1eval_accumulation_steps
: Nonelearning_rate
: 5e-05weight_decay
: 0.0adam_beta1
: 0.9adam_beta2
: 0.999adam_epsilon
: 1e-08max_grad_norm
: 1num_train_epochs
: 4max_steps
: -1lr_scheduler_type
: linearlr_scheduler_kwargs
: {}warmup_ratio
: 0.0warmup_steps
: 0log_level
: passivelog_level_replica
: warninglog_on_each_node
: Truelogging_nan_inf_filter
: Truesave_safetensors
: Truesave_on_each_node
: Falsesave_only_model
: Falserestore_callback_states_from_checkpoint
: Falseno_cuda
: Falseuse_cpu
: Falseuse_mps_device
: Falseseed
: 42data_seed
: Nonejit_mode_eval
: Falseuse_ipex
: Falsebf16
: Falsefp16
: Falsefp16_opt_level
: O1half_precision_backend
: autobf16_full_eval
: Falsefp16_full_eval
: Falsetf32
: Nonelocal_rank
: 0ddp_backend
: Nonetpu_num_cores
: Nonetpu_metrics_debug
: Falsedebug
: []dataloader_drop_last
: Falsedataloader_num_workers
: 0dataloader_prefetch_factor
: Nonepast_index
: -1disable_tqdm
: Falseremove_unused_columns
: Truelabel_names
: Noneload_best_model_at_end
: Falseignore_data_skip
: Falsefsdp
: []fsdp_min_num_params
: 0fsdp_config
: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap
: Noneaccelerator_config
: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed
: Nonelabel_smoothing_factor
: 0.0optim
: adamw_torchoptim_args
: Noneadafactor
: Falsegroup_by_length
: Falselength_column_name
: lengthddp_find_unused_parameters
: Noneddp_bucket_cap_mb
: Noneddp_broadcast_buffers
: Falsedataloader_pin_memory
: Truedataloader_persistent_workers
: Falseskip_memory_metrics
: Trueuse_legacy_prediction_loop
: Falsepush_to_hub
: Falseresume_from_checkpoint
: Nonehub_model_id
: Nonehub_strategy
: every_savehub_private_repo
: Falsehub_always_push
: Falsegradient_checkpointing
: Falsegradient_checkpointing_kwargs
: Noneinclude_inputs_for_metrics
: Falseeval_do_concat_batches
: Truefp16_backend
: autopush_to_hub_model_id
: Nonepush_to_hub_organization
: Nonemp_parameters
:auto_find_batch_size
: Falsefull_determinism
: Falsetorchdynamo
: Noneray_scope
: lastddp_timeout
: 1800torch_compile
: Falsetorch_compile_backend
: Nonetorch_compile_mode
: Nonedispatch_batches
: Nonesplit_batches
: Noneinclude_tokens_per_second
: Falseinclude_num_input_tokens_seen
: Falseneftune_noise_alpha
: Noneoptim_target_modules
: Nonebatch_eval_metrics
: Falsebatch_sampler
: batch_samplermulti_dataset_batch_sampler
: round_robin
Training Logs
Epoch | Step | Training Loss |
---|---|---|
0.0635 | 500 | 0.3266 |
0.1270 | 1000 | 0.2663 |
0.1906 | 1500 | 0.2423 |
0.2541 | 2000 | 0.2311 |
0.3176 | 2500 | 0.2131 |
0.3811 | 3000 | 0.2128 |
0.4447 | 3500 | 0.2126 |
0.5082 | 4000 | 0.1935 |
0.5717 | 4500 | 0.1679 |
0.6352 | 5000 | 0.1628 |
0.6988 | 5500 | 0.1573 |
0.7623 | 6000 | 0.1891 |
0.8258 | 6500 | 0.1733 |
0.8893 | 7000 | 0.1645 |
0.9529 | 7500 | 0.1554 |
1.0164 | 8000 | 0.1501 |
1.0799 | 8500 | 0.1082 |
1.1434 | 9000 | 0.1019 |
1.2070 | 9500 | 0.0878 |
1.2705 | 10000 | 0.0922 |
1.3340 | 10500 | 0.087 |
1.3975 | 11000 | 0.0946 |
1.4611 | 11500 | 0.0957 |
1.5246 | 12000 | 0.0793 |
1.5881 | 12500 | 0.0715 |
1.6516 | 13000 | 0.073 |
1.7152 | 13500 | 0.0745 |
1.7787 | 14000 | 0.0856 |
1.8422 | 14500 | 0.0805 |
1.9057 | 15000 | 0.0764 |
1.9693 | 15500 | 0.0745 |
2.0328 | 16000 | 0.0741 |
2.0963 | 16500 | 0.0487 |
2.1598 | 17000 | 0.0516 |
2.2234 | 17500 | 0.0456 |
2.2869 | 18000 | 0.052 |
2.3504 | 18500 | 0.041 |
2.4139 | 19000 | 0.0514 |
2.4774 | 19500 | 0.047 |
2.5410 | 20000 | 0.0359 |
2.6045 | 20500 | 0.0424 |
2.6680 | 21000 | 0.0408 |
2.7315 | 21500 | 0.04 |
2.7951 | 22000 | 0.0465 |
2.8586 | 22500 | 0.0418 |
2.9221 | 23000 | 0.0447 |
2.9856 | 23500 | 0.0458 |
3.0492 | 24000 | 0.0392 |
3.1127 | 24500 | 0.0281 |
3.1762 | 25000 | 0.0303 |
3.2397 | 25500 | 0.0315 |
3.3033 | 26000 | 0.0328 |
3.3668 | 26500 | 0.0291 |
3.4303 | 27000 | 0.0288 |
3.4938 | 27500 | 0.0319 |
3.5574 | 28000 | 0.026 |
3.6209 | 28500 | 0.0268 |
3.6844 | 29000 | 0.0281 |
3.7479 | 29500 | 0.0313 |
3.8115 | 30000 | 0.033 |
3.8750 | 30500 | 0.0283 |
3.9385 | 31000 | 0.0289 |
Framework Versions
- Python: 3.10.12
- Sentence Transformers: 3.0.1
- Transformers: 4.41.2
- PyTorch: 2.0.1
- Accelerate: 0.31.0
- Datasets: 2.20.0
- Tokenizers: 0.19.1
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
MultipleNegativesRankingLoss
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
- Downloads last month
- 20
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social
visibility and check back later, or deploy to Inference Endpoints (dedicated)
instead.