Модель: Essays Generation (GPT-2 Medium)

Описание

Модель основана на GPT-2 Medium и предназначена для генерации эссе с использованием настроек обучения, описанных ниже. Используются текстовые данные, загруженные из кастомной конфигурации.

Параметры модели

Модель: GPT-2 Medium
Размер слоя: 24
Контекстная длина: 1024 токенов
Размер скрытого слоя: 1024
Голов на слой: 16
Объем словаря: 50257 токенов
Функция активации: gelu_new

Параметры обучения и оптимизации

Оптимизатор: AdamW (β1=0.9, β2=0.999, ε=1e-8)
Обучение на устройстве: cuda:0
Количество эпох: 30
Шагов на прогрев: 500
Обучение с использованием fp16: Да
Объем мини-батча на устройство (тренировка/оценка): 8
Градиентная аккумуляция: 8 шагов
Чекпоинты сохранения: каждые 1000 шагов (максимум 3 чекпоинта)
Стратегия сохранения: по шагам (steps)
Скорость обучения: 3e-05
Контроль переполнений: включен (nan_inf_filter=True)

Логирование и отчетность

Шаги логирования: каждые 100
Отчеты: TensorBoard, WandB
Директория логов: models/essays/runs/Feb14_18-50-17_4cf0e8a4721b

Данные

Источник данных: Кастомная конфигурация default-b280a7a97da73b33
Формат данных: текст

Метрики обучения (Train Metrics)

Эпоха: 30.0
Общее число FLOPs: 1037903GF
Средняя потеря (train_loss): 2.3499
Время тренировки (train_runtime): 0:03:48.80
Количество тренировочных примеров (train_samples): 20
Тренировочные примеры в секунду (train_samples_per_second): 2.622
Тренировочные шаги в секунду (train_steps_per_second): 0.131

Метрики оценки (Eval Metrics)

Эпоха: 30.0
Точность (eval_accuracy): 0.4092
Потери (eval_loss): 1.9714
Время оценки (eval_runtime): 0:00:00.71
Количество оценочных примеров (eval_samples): 7
Оценочные примеры в секунду (eval_samples_per_second): 9.854
Оценочные шаги в секунду (eval_steps_per_second): 1.408
Перплексия (perplexity): 7.1805

Дополнительные настройки

Использование градиентного чекпоинтинга: Да
Детерминизм обучения: Выключен
Стратегия планирования LR: линейная
Распределенное обучение: False
Точность вычислений: 16-битное представление (fp16)

Примечания

При запуске могут возникать предупреждения, связанные с регистрацией CUDA-библиотек (cuFFT, cuDNN, cuBLAS). Эти предупреждения не влияют на корректность работы модели.

essays

This model is a fine-tuned version of gpt2-medium on an unknown dataset. It achieves the following results on the evaluation set:

Loss: 1.9714
Accuracy: 0.4092

Training hyperparameters

The following hyperparameters were used during training:

learning_rate: 3e-05
train_batch_size: 8
eval_batch_size: 8
seed: 42
gradient_accumulation_steps: 8
total_train_batch_size: 64
optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
lr_scheduler_type: linear
lr_scheduler_warmup_steps: 500
num_epochs: 30.0
mixed_precision_training: Native AMP

Training results

Framework versions

Transformers 4.49.0.dev0
Pytorch 2.5.1+cu124
Datasets 3.3.0
Tokenizers 0.21.0

from transformers import GPT2LMHeadModel, GPT2Tokenizer

tokenizer = GPT2Tokenizer.from_pretrained("path_to_your_model") model = GPT2LMHeadModel.from_pretrained("path_to_your_model")

input_text = "The importance of philosophy in daily life" inputs = tokenizer(input_text, return_tensors="pt") outputs = model.generate(**inputs, max_length=200)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

DmitryYarov
/

aristotle_full