|
--- |
|
language: el |
|
license: gpl-3.0 |
|
tags: |
|
- roberta |
|
- Greek |
|
- news |
|
- transformers |
|
- text-classification |
|
pipeline_tag: text-classification |
|
model-index: |
|
- name: mediawatch-el-topics |
|
results: |
|
- task: |
|
type: text-classification |
|
name: Multi Label Text Classification |
|
metrics: |
|
- type: roc_auc |
|
value: 98.55 |
|
name: ROCAUC |
|
- type: eval_AFFAIRS |
|
value: 98.72 |
|
name: AFFAIRS |
|
- type: eval_AGRICULTURE |
|
value: 97.99 |
|
name: AGRICULTURE |
|
- type: eval_ARTS_AND_CULTURE |
|
value: 98.38 |
|
name: ARTS_AND_CULTURE |
|
- type: eval_BREAKING_NEWS |
|
value: 96.75 |
|
name: BREAKING_NEWS |
|
- type: eval_BUSINESS |
|
value: 98.11 |
|
name: BUSINESS |
|
- type: eval_COVID |
|
value: 96.2 |
|
name: COVID |
|
- type: eval_CRIME |
|
value: 98.85 |
|
name: CRIME |
|
- type: eval_ECONOMY |
|
value: 97.65 |
|
name: ECONOMY |
|
- type: eval_EDUCATION |
|
value: 98.65 |
|
name: EDUCATION |
|
- type: eval_ELECTIONS |
|
value: 99.4 |
|
name: ELECTIONS |
|
- type: eval_ENTERTAINMENT |
|
value: 99.25 |
|
name: ENTERTAINMENT |
|
- type: eval_ENVIRONMENT |
|
value: 98.47 |
|
name: ENVIRONMENT |
|
- type: eval_FOOD |
|
value: 99.34 |
|
name: FOOD |
|
- type: eval_HEALTH |
|
value: 97.23 |
|
name: HEALTH |
|
- type: eval_INTERNATIONAL |
|
value: 96.24 |
|
name: INTERNATIONAL |
|
- type: eval_JUSTICE |
|
value: 98.62 |
|
name: JUSTICE |
|
- type: eval_LAW_AND_ORDER |
|
value: 91.77 |
|
name: LAW_AND_ORDER |
|
- type: eval_MILITARY |
|
value: 98.38 |
|
name: MILITARY |
|
- type: eval_NON_PAPER |
|
value: 95.95 |
|
name: NON_PAPER |
|
- type: eval_OPINION |
|
value: 96.24 |
|
name: OPINION |
|
- type: eval_POLITICS |
|
value: 97.73 |
|
name: POLITICS |
|
- type: eval_REFUGEE |
|
value: 99.49 |
|
name: REFUGEE |
|
- type: eval_REGIONAL |
|
value: 95.2 |
|
name: REGIONAL |
|
- type: eval_RELIGION |
|
value: 99.22 |
|
name: RELIGION |
|
- type: eval_SCIENCE |
|
value: 98.37 |
|
name: SCIENCE |
|
- type: eval_SOCIAL_MEDIA |
|
value: 99.1 |
|
name: SOCIAL_MEDIA |
|
- type: eval_SOCIETY |
|
value: 94.39 |
|
name: SOCIETY |
|
- type: eval_SPORTS |
|
value: 99.39 |
|
name: SPORTS |
|
- type: eval_TECH |
|
value: 99.23 |
|
name: TECH |
|
- type: eval_TOURISM |
|
value: 99.0 |
|
name: TOURISM |
|
- type: eval_TRANSPORT |
|
value: 98.79 |
|
name: TRANSPORT |
|
- type: eval_TRAVEL |
|
value: 98.32 |
|
name: TRAVEL |
|
- type: eval_WEATHER |
|
value: 99.5 |
|
name: WEATHER |
|
widget: |
|
- text: "Παρ’ ολίγον «θερμό» επεισόδιο τουρκικού πολεμικού πλοίου με ελληνικό ωκεανογραφικό στην περιοχή μεταξύ Ρόδου και Καστελόριζου, στο διάστημα 20-23 Σεπτεμβρίου, αποκάλυψε το ΟΡΕΝ. Σύμφωνα με πληροφορίες που μετέδωσε το κεντρικό δελτίο ειδήσεων, όταν το ελληνικό ερευνητικό « ΑΙΓΑΙΟ » που ανήκει στο Ελληνικό Κέντρο Θαλασσίων Ερευνών βγήκε έξω από τα 6 ν.μ, σε διεθνή ύδατα, το προσέγγισε τουρκικό πολεμικό πλοίο, ο κυβερνήτης του οποίου ζήτησε δύο φορές μέσω ασυρμάτου να ενημερωθεί για τα στοιχεία του πλοίου, αλλά και για την αποστολή του. Ο πλοίαρχος του ελληνικού ερευνητικού δεν απάντησε και τελικά το τουρκικό πολεμικό απομακρύνθηκε." |
|
example_title: Topic AFFAIRS |
|
- text: "Η κυβερνητική ανικανότητα οδηγεί την χώρα στο χάος. Η κυβερνηση Μητσοτακη αδυνατεί να διαχειριστεί την πανδημία. Δεν μπορει ούτε να πείσει τον κόσμο να εμβολιαστεί, που ήταν το πιο απλο πράγμα. Σημερα λοιπόν φτάσαμε στο σημείο να μιλάμε για επαναφορά της χρήσης μάσκας σε εξωτερικούς χώρους ακόμη και όπου δεν υπάρχει συγχρωτισμός. Στις συζητήσεις των ειδικών θα βρεθεί επίσης το ενδεχόμενο για τοπικά lockdown σε περιοχές με βαρύ ιικό φορτίο για να μην ξεφύγει η κατάσταση, ενώ θα χρειάζεται κάποιος για τις μετακινήσεις του είτε πιστοποιητικό εμβολιασμού ή νόσησης και οι ανεμβολίαστοι rapid ή μοριακό τεστ." |
|
example_title: Topic COVID |
|
- text: "Η «ωραία Ελένη» επέστρεψε στην τηλεόραση, μέσα από τη συχνότητα του MEGA και άφησε τις καλύτερες εντυπώσεις. Το πλατό από το οποίο εμφανίζεται η Ελένη Μενεγάκη έχει φτιαχτεί από την αρχή για την εκπομπή της. Σήμερα, στο κλείσιμο της εκπομπής η Ελένη πέρασε ανάμεσα από τις κάμερες για να μπει στο καμαρίνι της «Μην τρομοκρατείστε, είμαι η Ελένη Μενεγάκη, τα κάνω αυτά. Με συγχωρείται, έχω ψυχολογικά αν δεν είμαι ελεύθερη» είπε αρχικά η παρουσιάστρια στους συνεργάτες της και πρόσθεσε στη συνέχεια: «Η Ελένη ολοκλήρωσε. Μπορείτε να συνεχίσετε με το υπόλοιπο πρόγραμμα του Mega. Εγώ ανοίγω το καμαρίνι, αν με αφήσουν. Μπαίνω καμαρίνι». Δείτε το απόσπασμα!" |
|
example_title: Topic ENTERTAINMENT |
|
- text: "Ένα εξαιρετικά ενδιαφέρον «κουτσομπολιό» εντόπισαν οι κεραίες της στήλης πέριξ του Μεγάρου Μαξίμου : το κατά πόσον, δηλαδή, ο «εξ απορρήτων» του Κυριάκου Μητσοτάκη , Γιώργος Γεραπετρίτης μετέχει στη διαχείριση της πανδημίας και στην διαδικασία λήψης αποφάσεων. Το εν λόγω «κουτσομπολιό» πυροδότησε το γεγονός ότι σε σαββατιάτικη εφημερίδα δημοσιεύθηκαν προχθές δηλώσεις του υπουργού Επικρατείας με τις οποίες απέκλειε κάθε σενάριο νέων οριζόντιων μέτρων και την ίδια ώρα, το Μαξίμου ανήγγελλε… καραντίνα στη Μύκονο. «Είναι αυτονόητο ότι η κοινωνία και η οικονομία δεν αντέχουν οριζόντιους περιορισμούς», έλεγε χαρακτηριστικά ο Γεραπετρίτης, την ώρα που η κυβέρνηση ανακοίνωνε… αυτούς τους οριζόντιους περιορισμούς. Ως εκ τούτων, δύο τινά μπορεί να συμβαίνουν: είτε ο υπουργός Επικρατείας δεν μετέχει πλέον στη λήψη των αποφάσεων, είτε η απόφαση για οριζόντια μέτρα ελήφθη υπό το κράτος πανικού το πρωί του Σαββάτου, όταν έφτασε στο Μαξίμου η τελευταία «φουρνιά» των επιδημιολογικών δεδομένων για το νησί των ανέμων…" |
|
example_title: Topic NON_PAPER |
|
- text: "Είναι ξεκάθαρο ότι μετά το πλήγμα που δέχθηκε η κυβέρνησή του από τις αδυναμίες στην αντιμετώπιση των καταστροφικών πυρκαγιών το μεγάλο στοίχημα για τον Κυριάκο Μητσοτάκη είναι να προχωρήσει συντεταγμένα και χωρίς παρατράγουδα ο σχεδιασμός για την αποκατάσταση των ζημιών. Ο Πρωθυπουργός έχει ήδη φτιάξει μια ομάδα κρούσης την οποία αποτελούν 9 υπουργοί. Τα μέλη που απαρτίζουν την ομάδα κρούσης και τα οποία βρίσκονται σε συνεχή, καθημερινή επαφή με τον Κυριάκο Μητσοτάκη είναι, όπως μας πληροφορεί η στήλη «Θεωρείο» της «Καθημερινής» είναι οι: Γ. Γεραπετρίτης, Α. Σκέρτσος, Χρ. Τριαντόπουλος, Κ. Καραμανλής, Κ. Σκρέκας, Στ. Πέτσας, Σπ. Λιβανός και φυσικά οι Χρ. Σταικούρας και Θ. Σκυλακάκης." |
|
example_title: Topic OPINION |
|
--- |
|
|
|
**Disclaimer**: *This model is still under testing and may change in the future, we will try to keep backwards compatibility. For any questions reach us at [email protected]* |
|
|
|
# MediaWatch News Topics (Greek) |
|
|
|
Fine-tuned model for multi-label text-classification (SequenceClassification), based on [roberta-el-news](https://huggingface.co./cvcio/roberta-el-news), using [Hugging Face's](https://huggingface.co./) [Transformers](https://github.com/huggingface/transformers) library. This model is to classify news in real-time on upto 33 topics including: *AFFAIRS*, *AGRICULTURE*, *ARTS_AND_CULTURE*, *BREAKING_NEWS*, *BUSINESS*, *COVID*, *ECONOMY*, *EDUCATION*, *ELECTIONS*, *ENTERTAINMENT*, *ENVIRONMENT*, *FOOD*, *HEALTH*, *INTERNATIONAL*, *LAW_AND_ORDER*, *MILITARY*, *NON_PAPER*, *OPINION*, *POLITICS*, *REFUGEE*, *REGIONAL*, *RELIGION*, *SCIENCE*, *SOCIAL_MEDIA*, *SOCIETY*, *SPORTS*, *TECH*, *TOURISM*, *TRANSPORT*, *TRAVEL*, *WEATHER*, *CRIME*, *JUSTICE*. |
|
|
|
## How to use |
|
|
|
You can use this model directly with a pipeline for text-classification: |
|
|
|
```python |
|
from transformers import pipeline |
|
|
|
pipe = pipeline( |
|
task="text-classification", |
|
model="cvcio/mediawatch-el-topics", |
|
tokenizer="cvcio/roberta-el-news" # or cvcio/mediawatch-el-topics |
|
) |
|
|
|
topics = pipe( |
|
"Η βιασύνη αρκετών χωρών να άρουν τους περιορισμούς κατά του κορονοϊού, "+ |
|
"αν όχι να κηρύξουν το τέλος της πανδημίας, με το σκεπτικό ότι έφτασε "+ |
|
"πλέον η ώρα να συμβιώσουμε με την Covid-19, έχει κάνει μερικούς πιο "+ |
|
"επιφυλακτικούς επιστήμονες να προειδοποιούν ότι πρόκειται μάλλον "+ |
|
"για «ενδημική αυταπάτη» και ότι είναι πρόωρη τέτοια υπερβολική "+ |
|
"χαλάρωση. Καθώς τα κρούσματα της Covid-19, μετά το αιφνιδιαστικό "+ |
|
"μαζικό κύμα της παραλλαγής Όμικρον, εμφανίζουν τάση υποχώρησης σε "+ |
|
"Ευρώπη και Βόρεια Αμερική, όπου περισσεύει η κόπωση μεταξύ των "+ |
|
"πολιτών μετά από δύο χρόνια πανδημίας, ειδικοί και μη αδημονούν να "+ |
|
"«ξεμπερδέψουν» με τον κορονοϊό.", |
|
padding=True, |
|
truncation=True, |
|
max_length=512, |
|
return_all_scores=True |
|
) |
|
|
|
print(topics) |
|
|
|
# outputs |
|
[ |
|
[ |
|
{'label': 'AFFAIRS', 'score': 0.0018806682201102376}, |
|
{'label': 'AGRICULTURE', 'score': 0.00014653144171461463}, |
|
{'label': 'ARTS_AND_CULTURE', 'score': 0.0012948638759553432}, |
|
{'label': 'BREAKING_NEWS', 'score': 0.0001729220530251041}, |
|
{'label': 'BUSINESS', 'score': 0.0028276608791202307}, |
|
{'label': 'COVID', 'score': 0.4407998025417328}, |
|
{'label': 'ECONOMY', 'score': 0.039826102554798126}, |
|
{'label': 'EDUCATION', 'score': 0.0019098613411188126}, |
|
{'label': 'ELECTIONS', 'score': 0.0003333651984576136}, |
|
{'label': 'ENTERTAINMENT', 'score': 0.004249618388712406}, |
|
{'label': 'ENVIRONMENT', 'score': 0.0015828514005988836}, |
|
{'label': 'FOOD', 'score': 0.0018390495097264647}, |
|
{'label': 'HEALTH', 'score': 0.1204477995634079}, |
|
{'label': 'INTERNATIONAL', 'score': 0.25892165303230286}, |
|
{'label': 'LAW_AND_ORDER', 'score': 0.07646272331476212}, |
|
{'label': 'MILITARY', 'score': 0.00033025629818439484}, |
|
{'label': 'NON_PAPER', 'score': 0.011991199105978012}, |
|
{'label': 'OPINION', 'score': 0.16166265308856964}, |
|
{'label': 'POLITICS', 'score': 0.0008890336030162871}, |
|
{'label': 'REFUGEE', 'score': 0.0011504743015393615}, |
|
{'label': 'REGIONAL', 'score': 0.0008734092116355896}, |
|
{'label': 'RELIGION', 'score': 0.0009001944563351572}, |
|
{'label': 'SCIENCE', 'score': 0.05075162276625633}, |
|
{'label': 'SOCIAL_MEDIA', 'score': 0.00039615994319319725}, |
|
{'label': 'SOCIETY', 'score': 0.0043518817983567715}, |
|
{'label': 'SPORTS', 'score': 0.002416545059531927}, |
|
{'label': 'TECH', 'score': 0.0007818648009561002}, |
|
{'label': 'TOURISM', 'score': 0.011870541609823704}, |
|
{'label': 'TRANSPORT', 'score': 0.0009422845905646682}, |
|
{'label': 'TRAVEL', 'score': 0.03004464879631996}, |
|
{'label': 'WEATHER', 'score': 0.00040286066359840333}, |
|
{'label': 'CRIME', 'score': 0.0005416403291746974}, |
|
{'label': 'JUSTICE', 'score': 0.000990519649349153} |
|
] |
|
] |
|
``` |
|
|
|
## Labels |
|
|
|
All labels, except *NON_PAPER*, retrieved by source articles during the data collection step, without any preprocessing, assuming that journalists and newsrooms assign correct tags to the articles. We disregarded all articles with more than 6 tags to reduce bias and tag manipulation. |
|
|
|
| label | roc_auc | samples | |
|
|-------:|--------:|--------:| |
|
| AFFAIRS | 0.9872 | 6,314 | |
|
| AGRICULTURE | 0.9799 | 1,254 | |
|
| ARTS_AND_CULTURE | 0.9838 | 15,968 | |
|
| BREAKING_NEWS | 0.9675 | 827 | |
|
| BUSINESS | 0.9811 | 6,507 | |
|
| COVID | 0.9620 | 50,000 | |
|
| CRIME | 0.9885 | 34,421 | |
|
| ECONOMY | 0.9765 | 45,474 | |
|
| EDUCATION | 0.9865 | 10,111 | |
|
| ELECTIONS | 0.9940 | 7,571 | |
|
| ENTERTAINMENT | 0.9925 | 23,323 | |
|
| ENVIRONMENT | 0.9847 | 23,060 | |
|
| FOOD | 0.9934 | 3,712 | |
|
| HEALTH | 0.9723 | 16,852 | |
|
| INTERNATIONAL | 0.9624 | 50,000 | |
|
| JUSTICE | 0.9862 | 4,860 | |
|
| LAW_AND_ORDER | 0.9177 | 50,000 | |
|
| MILITARY | 0.9838 | 6,536 | |
|
| NON_PAPER | 0.9595 | 4,589 | |
|
| OPINION | 0.9624 | 6,296 | |
|
| POLITICS | 0.9773 | 50,000 | |
|
| REFUGEE | 0.9949 | 4,536 | |
|
| REGIONAL | 0.9520 | 50,000 | |
|
| RELIGION | 0.9922 | 11,533 | |
|
| SCIENCE | 0.9837 | 1,998 | |
|
| SOCIAL_MEDIA | 0.991 | 6,212 | |
|
| SOCIETY | 0.9439 | 50,000 | |
|
| SPORTS | 0.9939 | 31,396 | |
|
| TECH | 0.9923 | 8,225 | |
|
| TOURISM | 0.9900 | 8,081 | |
|
| TRANSPORT | 0.9879 | 3,211 | |
|
| TRAVEL | 0.9832 | 4,638 | |
|
| WEATHER | 0.9950 | 19,931 | |
|
| loss | 0.0533 | - | |
|
| roc_auc | 0.9855 | - | |
|
|
|
## Pretraining |
|
|
|
The model was pretrained using an NVIDIA A10 GPU for 15 epochs (~ approx 59K steps, 8 hours training) with a batch size of 128. The optimizer used is Adam with a learning rate of 1e-5, and weight decay 0.01. We used roc_auc_micro to evaluate the results. |
|
|
|
### Framework versions |
|
|
|
- Transformers 4.13.0 |
|
- Pytorch 1.9.0+cu111 |
|
- Datasets 1.16.1 |
|
- Tokenizers 0.10.3 |
|
|
|
## Authors |
|
|
|
Dimitris Papaevagelou - [@andefined](https://github.com/andefined) |
|
|
|
## About Us |
|
|
|
[Civic Information Office](https://cvcio.org/) is a Non Profit Organization based in Athens, Greece focusing on creating technology and research products for the public interest. |