Transformers documentation

DeiT

Transformers

Join the Hugging Face community

and get access to the augmented documentation experience

Collaborate on models, datasets and Spaces

Faster examples with accelerated inference

Switch between documentation themes

to get started

DeiT

Overview

DeiT モデルは、Hugo Touvron、Matthieu Cord、Matthijs Douze、Francisco Massa、Alexandre Sablayrolles, Hervé Jégou.によって Training data-efficient image Transformers & distillation through attention で提案されました。サブレイロール、エルヴェ・ジェグー。 Dosovitskiy et al., 2020 で紹介された Vision Transformer (ViT) は、既存の畳み込みニューラルと同等、またはそれを上回るパフォーマンスを発揮できることを示しました。 Transformer エンコーダ (BERT のような) を使用したネットワーク。ただし、その論文で紹介された ViT モデルには、次のトレーニングが必要でした。外部データを使用して、数週間にわたる高価なインフラストラクチャ。 DeiT (データ効率の高い画像変換器) はさらに優れています画像分類用に効率的にトレーニングされたトランスフォーマーにより、必要なデータとコンピューティングリソースがはるかに少なくなります。オリジナルの ViT モデルとの比較。

論文の要約は次のとおりです。

最近、純粋に注意に基づくニューラルネットワークが、画像などの画像理解タスクに対処できることが示されました。分類。ただし、これらのビジュアルトランスフォーマーは、インフラストラクチャが高価であるため、その採用が制限されています。この作業では、コンボリューションフリーの競争力のあるゲームを作成します。 Imagenet のみでトレーニングしてトランスフォーマーを作成します。 1 台のコンピューターで 3 日以内にトレーニングを行います。私たちの基準となるビジョントランス (86M パラメータ) は、外部なしで ImageNet 上で 83.1% (単一クロップ評価) のトップ 1 の精度を達成します。データ。さらに重要なのは、トランスフォーマーに特有の教師と生徒の戦略を導入することです。蒸留に依存している学生が注意を払って教師から学ぶことを保証するトークン。私たちはこのトークンベースに興味を示します特に convnet を教師として使用する場合。これにより、convnet と競合する結果を報告できるようになります。 Imagenet (最大 85.2% の精度が得られます) と他のタスクに転送するときの両方で。私たちはコードを共有し、モデル。

このモデルは、nielsr によって提供されました。このモデルの TensorFlow バージョンは、amyeroberts によって追加されました。

Usage tips

ViT と比較して、DeiT モデルはいわゆる蒸留トークンを使用して教師から効果的に学習します (これは、 DeiT 論文は、ResNet のようなモデルです)。蒸留トークンは、バックプロパゲーションを通じて、と対話することによって学習されます。セルフアテンション層を介したクラス ([CLS]) とパッチトークン。
抽出されたモデルを微調整するには 2 つの方法があります。(1) 上部に予測ヘッドを配置するだけの古典的な方法。クラストークンの最終的な非表示状態を抽出し、蒸留シグナルを使用しない、または (2) 両方の予測ヘッドはクラストークンの上と蒸留トークンの上にあります。その場合、[CLS] 予測は head は、head の予測とグラウンドトゥルースラベル間の通常のクロスエントロピーを使用してトレーニングされます。蒸留予測ヘッドは、硬蒸留 (予測と予測の間のクロスエントロピー) を使用してトレーニングされます。蒸留ヘッドと教師が予測したラベル）。推論時に、平均予測を取得します。最終的な予測として両頭の間で。 (2) は「蒸留による微調整」とも呼ばれます。下流のデータセットですでに微調整されている教師。モデル的には (1) に相当します。 DeiTForImageClassification と (2) に対応します。 DeiTForImageClassificationWithTeacher。
著者らは (2) についてもソフト蒸留を試みたことに注意してください (この場合、蒸留予測ヘッドは教師のソフトマックス出力に一致するように KL ダイバージェンスを使用してトレーニングしました）が、ハード蒸留が最良の結果をもたらしました。
リリースされたすべてのチェックポイントは、ImageNet-1k のみで事前トレーニングおよび微調整されました。外部データは使用されませんでした。これは JFT-300M データセット/Imagenet-21k などの外部データを使用した元の ViT モデルとは対照的です。事前トレーニング。
DeiT の作者は、より効率的にトレーニングされた ViT モデルもリリースしました。これは、直接プラグインできます。 ViTModel または ViTForImageClassification。データなどのテクニックはるかに大規模なデータセットでのトレーニングをシミュレートするために、拡張、最適化、正則化が使用されました。 (ただし、事前トレーニングには ImageNet-1k のみを使用します)。 4 つのバリエーション (3 つの異なるサイズ) が利用可能です。 facebook/deit-tiny-patch16-224、facebook/deit-small-patch16-224、facebook/deit-base-patch16-224 および facebook/deit-base-patch16-384。以下を行うには DeiTImageProcessor を使用する必要があることに注意してください。モデル用の画像を準備します。

Resources

DeiT を始めるのに役立つ公式 Hugging Face およびコミュニティ (🌎 で示されている) リソースのリスト。

Image Classification

DeiTForImageClassification は、このサンプルスクリプトおよびノートブック。
参照: 画像分類タスクガイド

それに加えて:

DeiTForMaskedImageModeling は、このサンプルスクリプトでサポートされています。

ここに含めるリソースの送信に興味がある場合は、お気軽にプルリクエストを開いてください。審査させていただきます。リソースは、既存のリソースを複製するのではなく、何か新しいものを示すことが理想的です。

Transformers

DeiT

Overview

Usage tips

Resources

DeiTConfig

class transformers.DeiTConfig

DeiTFeatureExtractor

class transformers.DeiTFeatureExtractor

__call__

DeiTImageProcessor

class transformers.DeiTImageProcessor

preprocess

DeiTModel

class transformers.DeiTModel

forward

DeiTForMaskedImageModeling

class transformers.DeiTForMaskedImageModeling

forward

DeiTForImageClassification

class transformers.DeiTForImageClassification

forward

DeiTForImageClassificationWithTeacher

class transformers.DeiTForImageClassificationWithTeacher

forward

TFDeiTModel

class transformers.TFDeiTModel

call

TFDeiTForMaskedImageModeling

class transformers.TFDeiTForMaskedImageModeling

call

TFDeiTForImageClassification

class transformers.TFDeiTForImageClassification

call

TFDeiTForImageClassificationWithTeacher

class transformers.TFDeiTForImageClassificationWithTeacher

call

call