|
--- |
|
inference: false |
|
language: |
|
- bg |
|
license: mit |
|
datasets: |
|
- oscar |
|
- chitanka |
|
- wikipedia |
|
tags: |
|
- torch |
|
--- |
|
|
|
# PEGASUS BASE |
|
|
|
This model was pretrained on Bulgarian language. It was intorduced in [this paper](https://arxiv.org/pdf/1912.08777.pdf). |
|
|
|
## Model description |
|
|
|
The training data is private Bulgarian text from CNN, DailyMail articles. |
|
|
|
## Intended uses & limitations |
|
|
|
You can use the raw model for summarization. |
|
|
|
### How to use |
|
|
|
Here is how to use this model in PyTorch: |
|
|
|
```python |
|
>>> from transformers import PegasusForConditionalGeneration, AutoTokenizer |
|
>>> |
|
>>> model_id = "rmihaylov/pegasus-base-cnn-dailymail-bg" |
|
>>> model = PegasusForConditionalGeneration.from_pretrained(model_id) |
|
>>> tokenizer = AutoTokenizer.from_pretrained(model_id) |
|
>>> |
|
>>> text = """Лукашенко поиска още полицията "да защити работническите колективи и организации и медии от заплахите на улицата", а който от държавните медии протестира, изобщо да не се връща на работа. На граничните служби бе наредено да засилят охраната на цялата граница, "за да не се допускат в Беларус от други държави бойци, оръжие, боеприпаси, пари за финансиране на безредиците, защото виждаме, че такива пари пристигат". Министерството на отбраната трябва да следи "движението на войски на НАТО на територията на Полша и Литва, тяхното направление и замисли, които в момента виждаме - и някои от тях ни карат да се замислим - и да не се притеснява да изкарва нашите въоръжени сили и техника в направлението на тяхното придвижване". Лукашенко изрично посочи събитията в град Гродно, "защото там има по-голямо желание за дестабилизация на обстановката, отколкото в Минск". Гродно стана вчера първият по-голям град, в който властите се разбраха с протестиращите да протестират на определени места в центъра на града. Той нарече опозицията "черносотници", тласкащи страната към пропаст и унищожение, както и към сблъсък с "исторически братския руски народ". Медиите трябва специално да се активизират срещу това, заръча Лукашенко.""" |
|
>>> |
|
>>> batch = tokenizer( |
|
>>> src_text, |
|
>>> truncation=True, |
|
>>> padding="longest", |
|
>>> return_tensors="pt", |
|
>>> return_token_type_ids=False) |
|
>>> |
|
>>> inputs = { |
|
>>> 'max_length': 150, |
|
>>> 'min_length': 10, |
|
>>> 'do_sample': False, |
|
>>> 'temperature': 1.0, |
|
>>> 'top_k': 50, |
|
>>> 'top_p': 1.0, |
|
>>> 'repetition_penalty': 1.0, |
|
>>> 'no_repeat_ngram_size': 0, |
|
>>> 'use_cache': True, |
|
>>> 'num_beams': 2, |
|
>>> 'length_penalty': 1.0, |
|
>>> 'num_return_sequences': 1, |
|
>>> 'early_stopping': False} |
|
>>> |
|
>>> batch.update(inputs) |
|
>>> |
|
>>> summary = model.generate(**batch) |
|
>>> |
|
>>> tgt_text = tokenizer.batch_decode(summary, skip_special_tokens=True) |
|
>>> print(tgt_text) |
|
|
|
['Лукашенко изрично посочи събитията в Гродно, "защото там има по-голямо желание за дестабилизация на обстановката, отколкото в Минск" Той нарече опозицията "черносотници", тласкащи страната към пропаст и унищожение, както и сблъсък с "исторически братския руски народ"'] |
|
``` |
|
|