metadata

language:
  - ru
tags:
  - summarization
  - token-classification
  - t5
datasets:
  - IlyaGusev/gazeta
license: apache-2.0
inference: false
widget:
  - text: >-
      С 1 сентября в России вступают в силу поправки в закон «О банкротстве» —
      теперь должники смогут освобождаться от непосильных обязательств во
      внесудебном порядке, если сумма задолженности составляет не менее 50 тыс.
      рублей и не превышает 500 тыс. рублей без учета штрафов, пени, процентов
      за просрочку платежа и прочих имущественных или финансовых санкций.[SEP]У
      физлиц и индивидуальных предпринимателей появилась возможность пройти
      процедуру банкротства без участия суда и финансового управляющего —
      достаточно подать соответствующее заявление через МФЦ.[SEP]Сумму
      задолженности и список всех известных заявителю кредиторов нужно
      предоставить самостоятельно.[SEP]Если все условия соблюдены, сведения
      внесут в Единый федеральный реестр в течение трех рабочих дней.[SEP]При
      этом на момент подачи заявления в отношении заявителя должно быть окончено
      исполнительное производство с возвращением исполнительного документа
      взыскателю.[SEP]Это значит, что у потенциального банкрота не должно быть
      имущества, которое можно взыскать.[SEP]Кроме того, в отношении гражданина
      не должно быть возбуждено другое исполнительное производство.[SEP]В период
      всей процедуры заявитель не сможет брать займы, кредиты, выдавать
      поручительства, совершать иные обеспечительные сделки.[SEP]Внесудебное
      банкротство будет длиться шесть месяцев, в течение которых также будет
      действовать мораторий на удовлетворение требований кредиторов, отмеченных
      в заявлении должника, и мораторий об уплате обязательных
      платежей.[SEP]Кроме того, прекращается начисление неустоек и иных
      финансовых санкций; имущественные взыскания (кроме алиментов) также будут
      приостановлены.[SEP]По завершению процедуры заявителя освободят от
      дальнейшего выполнения требований кредиторов, указанных в заявлении о
      признании его банкротом, а эта задолженность признается безнадежной.[SEP]В
      прошлом месяце стало известно, что за первое полугодие 2020 года
      российские суды признали банкротами 42,7 тыс. граждан (в том числе
      индивидуальных предпринимателей) — по данным единого реестра «Федресурс»,
      это на 47,2% больше показателя аналогичного периода 2019 года.[SEP]Рост
      числа обанкротившихся граждан во втором квартале по сравнению с первым
      замедлился — такая динамика обусловлена тем, что в период ограничений с 19
      марта по 11 мая суды редко рассматривали банкротные дела компаний и
      меньше, чем обычно, в отношении граждан, объяснял руководитель проекта
      «Федресурс» Алексей Юхнин.[SEP]
    example_title: Новости

RuBERTExtSumGazeta

Model description

Model for extractive summarization based on rubert-base-cased

Intended uses & limitations

How to use

Colab: link

import razdel
from transformers import AutoTokenizer, BertForTokenClassification

model_name = "IlyaGusev/rubert_ext_sum_gazeta"

tokenizer = AutoTokenizer.from_pretrained(model_name)
sep_token = tokenizer.sep_token
sep_token_id = tokenizer.sep_token_id

model = BertForTokenClassification.from_pretrained(model_name)

article_text = "..."
sentences = [s.text for s in razdel.sentenize(article_text)]
article_text = sep_token.join(sentences)

inputs = tokenizer(
    [article_text],
    max_length=500,
    padding="max_length",
    truncation=True,
    return_tensors="pt",
)
sep_mask = inputs["input_ids"][0] == sep_token_id

# Fix token_type_ids
current_token_type_id = 0 
for pos, input_id in enumerate(inputs["input_ids"][0]):
    inputs["token_type_ids"][0][pos] = current_token_type_id
    if input_id == sep_token_id:
        current_token_type_id = 1 - current_token_type_id

# Infer model
with torch.no_grad(): 
    outputs = model(**inputs) 
logits = outputs.logits[0, :, 1]

# Choose sentences 
logits = logits[sep_mask]
logits, indices = logits.sort(descending=True)
logits, indices = logits.cpu().tolist(), indices.cpu().tolist()
pairs = list(zip(logits, indices))
pairs = pairs[:3]
indices = list(sorted([idx for _, idx in pairs]))
summary = " ".join([sentences[idx] for idx in indices])
print(summary)

Limitations and bias

The model should work well with Gazeta.ru articles, but for any other agencies it can suffer from domain shift

Training data

Dataset: Gazeta

Training procedure

TBD

Eval results

TBD

Evaluation: https://github.com/IlyaGusev/summarus/blob/master/evaluate.py

Flags: --language ru --tokenize-after --lower