Skip to content

🏛️ 🖼️ Computer Vision Foundations

Les papiers fondateurs qui ont révolutionné la vision par ordinateur, de l'ère des CNNs jusqu'aux Transformers

Parcours de lecture

Cette playlist contient 13 papiers sélectionnés pour leur impact sur le domaine.


1. LeNet-5 (1998)

Auteurs: Yann LeCun, Léon Bottou, Yoshua Bengio, Patrick Haffner

READ: ✅

Pourquoi ce papier ?

Premier CNN moderne appliqué avec succès à la reconnaissance de chiffres manuscrits. Architecture fondatrice du deep learning.

Liens:


2. AlexNet (2012)

Auteurs: Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton

READ: ✅

Pourquoi ce papier ?

Le papier qui a lancé la révolution deep learning en vision. Première victoire écrasante des CNNs sur ImageNet.

Liens:


3. VGG (2014)

Auteurs: Karen Simonyan, Andrew Zisserman

READ: ✅

Pourquoi ce papier ?

A démontré que la profondeur des réseaux est cruciale. Architecture simple et élégante avec filtres 3x3 uniformes.

Liens:


4. GoogLeNet/Inception (2014)

Auteurs: Christian Szegedy et al.

READ: ✅

Pourquoi ce papier ?

Introduction des modules Inception permettant d'extraire des features à différentes échelles simultanément.

Liens:


5. ResNet (2015)

Auteurs: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

READ: ✅

Pourquoi ce papier ?

Les connexions résiduelles ont permis d'entraîner des réseaux ultra-profonds (152 couches). Révolution architecturale.

Liens:


6. Batch Normalization (2015)

Auteurs: Sergey Ioffe, Christian Szegedy

READ: ✅

Pourquoi ce papier ?

Normaliser les activations par mini-batch accélère l'entraînement et régularise le modèle, permettant des learning rates plus élevés.

Liens:


7. DenseNet (2016)

Auteurs: Gao Huang, Zhuang Liu, Laurens van der Maaten, Kilian Q. Weinberger

READ: ✅

Pourquoi ce papier ?

Chaque couche est connectée à toutes les couches précédentes, favorisant la réutilisation des features et réduisant les paramètres.

Liens:


8. ResNeXt (2017)

Auteurs: Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, Kaiming He

READ: ✅

Pourquoi ce papier ?

Étend ResNet avec des transformations agrégées (cardinality), améliorant les performances sans complexité additionnelle.

Liens:


9. SENet (2017)

Auteurs: Jie Hu, Li Shen, Gang Sun

READ: ✅

Pourquoi ce papier ?

Mécanisme d'attention sur les canaux (Squeeze-and-Excitation) qui recalibre dynamiquement les features channels.

Liens:


10. EfficientNet (2019)

Auteurs: Mingxing Tan, Quoc V. Le

READ: ✅

Pourquoi ce papier ?

Scaling uniforme et optimal de la profondeur, largeur et résolution pour maximiser l'efficacité computationnelle.

Liens:


11. Vision Transformer (ViT) (2020)

Auteurs: Alexey Dosovitskiy et al.

READ: ✅

Pourquoi ce papier ?

Abandon des convolutions au profit des Transformers. Nouveau paradigme pour la vision avec patches d'images.

Liens:


12. Swin Transformer (2021)

Auteurs: Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo

READ: ✅

Pourquoi ce papier ?

Transformer hiérarchique avec fenêtres décalées (shifted windows) pour une complexité linéaire et des features multi-échelles.

Liens:


13. ConvNeXt (2022)

Auteurs: Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, Saining Xie

READ: ✅

Pourquoi ce papier ?

Modernisation des CNNs avec des designs inspirés des Transformers, prouvant que les convolutions restent compétitives.

Liens: