AN IMAGE IS WORTH 16X16 WORDS: TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE

TL;DR¶

Les Transformers appliqués directement sur des patchs d'images atteignent des performances SOTA en classification, sans avoir besoin de biais inductifs CNN, quand pré-entraînés sur de larges datasets.

Contexte¶

Les CNNs dominent la vision par ordinateur grâce à leurs biais inductifs (localité, translation equivariance), mais les Transformers ont révolutionné le NLP.

Idées clés¶

Diviser les images en patchs 16x16, les traiter comme des tokens, et utiliser un Transformer pur sans convolutions permet d'atteindre SOTA avec moins de coût computationnel au pré-entraînement.

Méthode¶

Images découpées en patchs linéarisés + position embeddings, passés dans un Transformer encoder standard, avec un token [CLS] pour la classification.

Résultats¶

ViT-H/14 atteint 88.55% sur ImageNet (pré-entraîné sur JFT-300M), surpassant les CNNs SOTA tout en nécessitant substantiellement moins de ressources pour l'entraînement.

Limites¶

Performances inférieures aux CNNs sur datasets de taille moyenne sans pré-entraînement massif ; manque de biais inductifs nécessite énormément de données pour généraliser.

Liens utiles¶

Article: An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale (PDF)
ArXiv: https://arxiv.org/abs/2010.11929
Paper explained: Samuel Albanie
Paper explained: Yannic Kilcher

Notes perso¶

La vidéo de Yannic Kilcher explique le papier, tandis que la vidéo de Samuel Albanie explique en plus les concepts généraux (transformers, bias factor, ...)