Модель: Essays Generation (GPT-2 Medium)

Описание

Модель основана на GPT-2 Medium и предназначена для генерации эссе с использованием настроек обучения, описанных ниже. Используются текстовые данные, загруженные из кастомной конфигурации.

Параметры модели

  • Модель: GPT-2 Medium
  • Размер слоя: 24
  • Контекстная длина: 1024 токенов
  • Размер скрытого слоя: 1024
  • Голов на слой: 16
  • Объем словаря: 50257 токенов
  • Функция активации: gelu_new

Параметры обучения и оптимизации

  • Оптимизатор: AdamW (β1=0.9, β2=0.999, ε=1e-8)
  • Обучение на устройстве: cuda:0
  • Количество эпох: 30
  • Шагов на прогрев: 500
  • Обучение с использованием fp16: Да
  • Объем мини-батча на устройство (тренировка/оценка): 8
  • Градиентная аккумуляция: 8 шагов
  • Чекпоинты сохранения: каждые 1000 шагов (максимум 3 чекпоинта)
  • Стратегия сохранения: по шагам (steps)
  • Скорость обучения: 3e-05
  • Контроль переполнений: включен (nan_inf_filter=True)

Логирование и отчетность

  • Шаги логирования: каждые 100
  • Отчеты: TensorBoard, WandB
  • Директория логов: models/essays/runs/Feb14_18-50-17_4cf0e8a4721b

Данные

  • Источник данных: Кастомная конфигурация default-b280a7a97da73b33
  • Формат данных: текст

Метрики обучения (Train Metrics)

  • Эпоха: 30.0
  • Общее число FLOPs: 1037903GF
  • Средняя потеря (train_loss): 2.3499
  • Время тренировки (train_runtime): 0:03:48.80
  • Количество тренировочных примеров (train_samples): 20
  • Тренировочные примеры в секунду (train_samples_per_second): 2.622
  • Тренировочные шаги в секунду (train_steps_per_second): 0.131

Метрики оценки (Eval Metrics)

  • Эпоха: 30.0
  • Точность (eval_accuracy): 0.4092
  • Потери (eval_loss): 1.9714
  • Время оценки (eval_runtime): 0:00:00.71
  • Количество оценочных примеров (eval_samples): 7
  • Оценочные примеры в секунду (eval_samples_per_second): 9.854
  • Оценочные шаги в секунду (eval_steps_per_second): 1.408
  • Перплексия (perplexity): 7.1805

Дополнительные настройки

  • Использование градиентного чекпоинтинга: Да
  • Детерминизм обучения: Выключен
  • Стратегия планирования LR: линейная
  • Распределенное обучение: False
  • Точность вычислений: 16-битное представление (fp16)

Примечания

При запуске могут возникать предупреждения, связанные с регистрацией CUDA-библиотек (cuFFT, cuDNN, cuBLAS). Эти предупреждения не влияют на корректность работы модели.

essays

This model is a fine-tuned version of gpt2-medium on an unknown dataset. It achieves the following results on the evaluation set:

  • Loss: 1.9714
  • Accuracy: 0.4092

Training hyperparameters

The following hyperparameters were used during training:

  • learning_rate: 3e-05
  • train_batch_size: 8
  • eval_batch_size: 8
  • seed: 42
  • gradient_accumulation_steps: 8
  • total_train_batch_size: 64
  • optimizer: Use OptimizerNames.ADAMW_TORCH with betas=(0.9,0.999) and epsilon=1e-08 and optimizer_args=No additional optimizer arguments
  • lr_scheduler_type: linear
  • lr_scheduler_warmup_steps: 500
  • num_epochs: 30.0
  • mixed_precision_training: Native AMP

Training results

Framework versions

  • Transformers 4.49.0.dev0
  • Pytorch 2.5.1+cu124
  • Datasets 3.3.0
  • Tokenizers 0.21.0

from transformers import GPT2LMHeadModel, GPT2Tokenizer

tokenizer = GPT2Tokenizer.from_pretrained("path_to_your_model") model = GPT2LMHeadModel.from_pretrained("path_to_your_model")

input_text = "The importance of philosophy in daily life" inputs = tokenizer(input_text, return_tensors="pt") outputs = model.generate(**inputs, max_length=200)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Downloads last month
25
Safetensors
Model size
355M params
Tensor type
F32
·
Inference Providers NEW
This model is not currently available via any of the supported Inference Providers.

Model tree for DmitryYarov/aristotle_full

Finetuned
(113)
this model