Portuguese T5 for Abstractive Summarization (PTT5 Summ)

Introduction

PTT5 Summ is a fine-tuned PTT5 model to perform Abstractive Summarization in Brazilian Portuguese texts. This model was fine-tuned on the datasets: RecognaSumm, WikiLingua, XL-Sum, TeMário and CSTNews.

For further information, please go to PTT5 Summ repository.

Available models

Model Dataset used in fine-tuning
recogna-nlp/ptt5-base-summ RecognaSumm
recogna-nlp/ptt5-base-summ-wikilingua WikiLingua
recogna-nlp/ptt5-base-summ-xlsum XL-Sum
recogna-nlp/ptt5-base-summ-temario 1st phase: WikiLingua. 2nd phase: TeMario
recogna-nlp/ptt5-base-summ-cstnews 1st phase: WikiLingua. 2nd phase: CSTNews

Usage example

# Tokenizer 
from transformers import T5Tokenizer

# PyTorch model 
from transformers import T5Model, T5ForConditionalGeneration

token_name = 'unicamp-dl/ptt5-base-portuguese-vocab'
model_name = 'recogna-nlp/ptt5-base-summ'

tokenizer = T5Tokenizer.from_pretrained(token_name )
model_pt = T5ForConditionalGeneration.from_pretrained(model_name)

text = '''
“A tendência de queda da taxa de juros no Brasil é real, é visível”, disse Meirelles, que participou na capital americana de uma série de reuniões e encontros com banqueiros e investidores que aconteceram paralelamente às reuniões do Fundo Monetário Internacional (FMI) e do Banco Mundial (Bird) no fim de semana.
Para o presidente do BC, a atual política econômica do governo e a manutenção da taxa de inflação dentro da meta são fatores que garantem queda na taxa de juros a longo prazo.
“Mas é importante que nós não olhemos para isso apenas no curto prazo. Temos que olhar no médio e longo prazos”, disse Meirelles.
Para ele, o trabalho que o Banco Central tem feito para conter a inflação dentro da meta vai gerar queda gradual da taxa de juros.
BC do ano
Neste domingo, Meirelles participou da cerimônia de entrega do prêmio “Banco Central do ano”, oferecido pela revista The Banker à instituição que preside.
“Este é um sinal importante de reconhecimento do nosso trabalho, de que o Brasil está indo na direção correta”, disse ele.
Segundo Meirelles, o Banco Central do Brasil está sendo percebido como uma instituição comprometida com a meta de inflação.
“Isso tem um ganho importante, na medida em que os agentes formadores de preços começam a apostar que a inflação vai estar na meta, que isso é levado a sério no Brasil”, completou.
O presidente do Banco Central disse ainda que a crise política brasileira não foi um assunto de interesse prioritário dos investidores que encontrou no fim de semana.
'''

inputs = tokenizer.encode(text, max_length=512, truncation=True, return_tensors='pt')
summary_ids = model_pt.generate(inputs, max_length=256, min_length=32, num_beams=5, no_repeat_ngram_size=3, early_stopping=True)
summary = tokenizer.decode(summary_ids[0])
print(summary)
#<pad> Meirelles diz que tendência de queda da taxa de juros no Brasil é real e é visível. Presidente do Banco Central do Brasil participou de cerimônia de entrega do prêmio ‘Banco Central do ano’ à instituição que preside.</s>

Citation

Deep Learning-Based Abstractive Summarization for Brazilian Portuguese Texts (PROPOR 2022)

@aInProceedings{ptt5summ_bracis,
  author="Paiola, Pedro H.
    and de Rosa, Gustavo H.
    and Papa, Jo{\~a}o P.",
  editor="Xavier-Junior, Jo{\~a}o Carlos
    and Rios, Ricardo Ara{\'u}jo",
  title="Deep Learning-Based Abstractive Summarization for Brazilian Portuguese Texts",
  booktitle="BRACIS 2022: Intelligent Systems",
  year="2022",
  publisher="Springer International Publishing",
  address="Cham",
  pages="479--493",
  isbn="978-3-031-21689-3"}

RecognaSumm: A Novel Brazilian Summarization Dataset (PROPOR 2024)

@inproceedings{paiola-etal-2024-recognasumm,
    title = "{R}ecogna{S}umm: A Novel {B}razilian Summarization Dataset",
    author = "Paiola, Pedro Henrique  and
      Garcia, Gabriel Lino  and
      Jodas, Danilo Samuel  and
      Correia, Jo{\~a}o Vitor Mariano  and
      Sugi, Luis Afonso  and
      Papa, Jo{\~a}o Paulo",
    editor = "Gamallo, Pablo  and
      Claro, Daniela  and
      Teixeira, Ant{\'o}nio  and
      Real, Livy  and
      Garcia, Marcos  and
      Oliveira, Hugo Gon{\c{c}}alo  and
      Amaro, Raquel",
    booktitle = "Proceedings of the 16th International Conference on Computational Processing of Portuguese - Vol. 1",
    month = mar,
    year = "2024",
    address = "Santiago de Compostela, Galicia/Spain",
    publisher = "Association for Computational Lingustics",
    url = "https://aclanthology.org/2024.propor-1.63",
    pages = "575--579",
}
Downloads last month
32
Safetensors
Model size
223M params
Tensor type
F32
·
Inference Examples
This model does not have enough activity to be deployed to Inference API (serverless) yet. Increase its social visibility and check back later, or deploy to Inference Endpoints (dedicated) instead.

Dataset used to train recogna-nlp/ptt5-base-summ

Collection including recogna-nlp/ptt5-base-summ