rmihaylov commited on
Commit
04c853e
1 Parent(s): e45b676

Create README.md

Browse files
Files changed (1) hide show
  1. README.md +89 -0
README.md ADDED
@@ -0,0 +1,89 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ inference: false
3
+ language:
4
+ - bg
5
+ license: mit
6
+ datasets:
7
+ - oscar
8
+ - chitanka
9
+ - wikipedia
10
+ tags:
11
+ - torch
12
+ ---
13
+
14
+ # PEGASUS BASE
15
+
16
+ This model was pretrained on Bulgarian language. It was intorduced in [this paper](https://arxiv.org/pdf/1912.08777.pdf).
17
+
18
+ ## Model description
19
+
20
+ The training data is private Bulgarian squad data.
21
+
22
+ ## Intended uses & limitations
23
+
24
+ You can use the raw model for generation of question-answer pairs related with given Bulgarian text.
25
+
26
+ ### How to use
27
+
28
+ Here is how to use this model in PyTorch:
29
+
30
+ ```python
31
+ >>> from transformers import PegasusForConditionalGeneration, AlbertTokenizer
32
+ >>>
33
+ >>> model_id = "rmihaylov/pegasus-base-qag-bg"
34
+ >>> model = PegasusForConditionalGeneration.from_pretrained(model_id)
35
+ >>> tokenizer = AlbertTokenizer.from_pretrained(model_id)
36
+ >>>
37
+ >>> text = """Това, че някой може да заяви на най-силен глас исканията си, не означава те да бъдат удовлетворени, заяви Костадин Ангелов.
38
+ Той допълни, че приоритетите на властите са здравето, образование и спорта, давайки знак, че се търси разхлабване на мерките в болничните заведения, връщането на учениците в класните стаи и отварянето на обектите за масов спорт.
39
+ """
40
+ >>>
41
+ >>> inputs = tokenizer.encode_plus(
42
+ >>> text,
43
+ >>> return_tensors='pt',
44
+ >>> truncation=True,
45
+ >>> max_length=512,
46
+ >>> return_token_type_ids=False,
47
+ >>> return_attention_mask=True)
48
+ >>>
49
+ >>> outputs = model.generate(**inputs,
50
+ >>> max_length=150,
51
+ >>> top_p=0.95,
52
+ >>> top_k=20,
53
+ >>> do_sample=True,
54
+ >>> num_return_sequences=10,
55
+ >>> num_beams=1,
56
+ >>> eos_token_id=50259,
57
+ >>> decoder_start_token_id=50257,
58
+ >>> return_dict_in_generate=True,
59
+ >>> output_scores=True)
60
+ >>>
61
+ >>> for g in outputs.sequences:
62
+ >>> text_gen = tokenizer.decode(g, skip_special_tokens=False)
63
+ >>>
64
+ >>> if ('[SEP]' not in text_gen) or ('[MASK]' not in text_gen) or ('[CLS]' not in text_gen):
65
+ >>> continue
66
+ >>>
67
+ >>> question, answer = text_gen.replace('[CLS]', '').strip().split('[SEP]')
68
+ >>> answer = answer.split('[MASK]')[0].strip()
69
+ >>>
70
+ >>> if (not answer) or (answer not in text) or (len(answer) <= 1):
71
+ >>> continue
72
+ >>>
73
+ >>> print(f'{question.strip()}\n{answer.strip()}', '\n\n')
74
+
75
+ Какво трябва да се предприеме, за да се случи?
76
+ разхлабване
77
+
78
+
79
+ Какви са приоритетите на управляващите?
80
+ здравето, образование и спорта,
81
+
82
+
83
+ Какви усилия има правителството за стимулиране на раждаемостта?
84
+ разхлабване на мерките
85
+
86
+
87
+ Какъв е основният проблем, който може да реши?
88
+ образование
89
+ ```