Skip to content

AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

TL;DR

Les Transformers appliqués directement sur des patchs d'images atteignent des performances SOTA en classification, sans avoir besoin de biais inductifs CNN, quand pré-entraînés sur de larges datasets.

Contexte

Les CNNs dominent la vision par ordinateur grâce à leurs biais inductifs (localité, translation equivariance), mais les Transformers ont révolutionné le NLP.

Idées clés

Diviser les images en patchs 16x16, les traiter comme des tokens, et utiliser un Transformer pur sans convolutions permet d'atteindre SOTA avec moins de coût computationnel au pré-entraînement.

Méthode

Images découpées en patchs linéarisés + position embeddings, passés dans un Transformer encoder standard, avec un token [CLS] pour la classification.

Résultats

ViT-H/14 atteint 88.55% sur ImageNet (pré-entraîné sur JFT-300M), surpassant les CNNs SOTA tout en nécessitant substantiellement moins de ressources pour l'entraînement.

Limites

Performances inférieures aux CNNs sur datasets de taille moyenne sans pré-entraînement massif ; manque de biais inductifs nécessite énormément de données pour généraliser.

Liens utiles

Notes perso

La vidéo de Yannic Kilcher explique le papier, tandis que la vidéo de Samuel Albanie explique en plus les concepts généraux (transformers, bias factor, ...)