d0rj's picture
Update README.md
fd14579
metadata
license: apache-2.0
language:
  - ru
tags:
  - instruct
datasets:
  - d0rj/OpenOrca-ru
  - d0rj/dolphin-ru
  - d0rj/gsm8k-ru
  - d0rj/alpaca-cleaned-ru
  - dwarf2/databricks-dolly-15k-ru
  - AlexWortega/flan_translated_300k
base_model: ai-forever/FRED-T5-large
library_name: transformers
pipeline_tag: text2text-generation
inference:
  parameters:
    top_k: 3
    repetition_penalty: 1.2
    temperature: 1.07
    max_new_tokens: 250
widget:
  - text: >-
      <SC6>Ты - помощник ИИ. Тебе дадут задание. Ты должен дать подробный и
      длинный ответ. Придумай сказку про красную лягушку<extra_id_0>
    example_title: Сочинить
  - text: <SC6>Как у тебя дела?<extra_id_0>
    example_title: Chit-chat
  - text: >-
      <SC6>Ты - помощник ИИ. Тебе дадут задание. Ты должен дать подробный и
      длинный ответ. Как зовут первого президента Российской
      Федерации?<extra_id_0>
    example_title: Фактология

FRED-T5-large-instruct

🚧 WIP, still training...

Модель ai-forever/FRED-T5-large, обучаемая на инструктивном датасете. Пока что инструкциям следует не очень.

Веса лежат вместе с состоянием оптимизатора, шедулера и Trainer'а. Можно почти спокойно "продолжать" обучение на своих данных.

Usage

Basic

from transformers import pipeline


pipe = pipeline('text2text-generation', model='d0rj/FRED-T5-large-instruct')
pipe('<SC6>Придумай сказку про красную лягушку<extra_id_0>')

Training

Пока что можно следить за обучением здесь на WandB.

Учится в fp32.

Data

Сконкатенировано из разных переведённых инструктивных датасетов.

Всего 1.1B токенов (1133146852) в обучающем сете, 7506075 примеров system_prompt-question-answer. По Chinchilla статье это ~ в 15 раз меньше, чем нужно (но Chinchilla про претрейн).

Resources

Учится в Kaggle на одной P100. Медленно, но верно (лосс падает, а большего мне и не надо).