🏛️ 🖼️ Computer Vision Foundations¶

Les papiers fondateurs qui ont révolutionné la vision par ordinateur, de l'ère des CNNs jusqu'aux Transformers

Parcours de lecture

Cette playlist contient 13 papiers sélectionnés pour leur impact sur le domaine.

1. LeNet-5 (1998)¶

Auteurs: Yann LeCun, Léon Bottou, Yoshua Bengio, Patrick Haffner

READ: ✅

Pourquoi ce papier ?

Premier CNN moderne appliqué avec succès à la reconnaissance de chiffres manuscrits. Architecture fondatrice du deep learning.

Liens:

📝 Mes notes
🔗 Article

2. AlexNet (2012)¶

Auteurs: Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton

READ: ✅

Pourquoi ce papier ?

Le papier qui a lancé la révolution deep learning en vision. Première victoire écrasante des CNNs sur ImageNet.

Liens:

📝 Mes notes
🔗 Article
💻 Code

3. VGG (2014)¶

Auteurs: Karen Simonyan, Andrew Zisserman

READ: ✅

Pourquoi ce papier ?

A démontré que la profondeur des réseaux est cruciale. Architecture simple et élégante avec filtres 3x3 uniformes.

Liens:

📝 Mes notes
🔗 Article

4. GoogLeNet/Inception (2014)¶

Auteurs: Christian Szegedy et al.

READ: ✅

Pourquoi ce papier ?

Introduction des modules Inception permettant d'extraire des features à différentes échelles simultanément.

Liens:

📝 Mes notes
🔗 Article

5. ResNet (2015)¶

Auteurs: Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun

READ: ✅

Pourquoi ce papier ?

Les connexions résiduelles ont permis d'entraîner des réseaux ultra-profonds (152 couches). Révolution architecturale.

Liens:

📝 Mes notes
🔗 Article

6. Batch Normalization (2015)¶

Auteurs: Sergey Ioffe, Christian Szegedy

READ: ✅

Pourquoi ce papier ?

Normaliser les activations par mini-batch accélère l'entraînement et régularise le modèle, permettant des learning rates plus élevés.

Liens:

📝 Mes notes
🔗 Article

7. DenseNet (2016)¶

Auteurs: Gao Huang, Zhuang Liu, Laurens van der Maaten, Kilian Q. Weinberger

READ: ✅

Pourquoi ce papier ?

Chaque couche est connectée à toutes les couches précédentes, favorisant la réutilisation des features et réduisant les paramètres.

Liens:

📝 Mes notes
🔗 Article
💻 Code

8. ResNeXt (2017)¶

Auteurs: Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, Kaiming He

READ: ✅

Pourquoi ce papier ?

Étend ResNet avec des transformations agrégées (cardinality), améliorant les performances sans complexité additionnelle.

Liens:

📝 Mes notes
🔗 Article
💻 Code

9. SENet (2017)¶

Auteurs: Jie Hu, Li Shen, Gang Sun

READ: ✅

Pourquoi ce papier ?

Mécanisme d'attention sur les canaux (Squeeze-and-Excitation) qui recalibre dynamiquement les features channels.

Liens:

📝 Mes notes
🔗 Article

10. EfficientNet (2019)¶

Auteurs: Mingxing Tan, Quoc V. Le

READ: ✅

Pourquoi ce papier ?

Scaling uniforme et optimal de la profondeur, largeur et résolution pour maximiser l'efficacité computationnelle.

Liens:

📝 Mes notes
🔗 Article

11. Vision Transformer (ViT) (2020)¶

Auteurs: Alexey Dosovitskiy et al.

READ: ✅

Pourquoi ce papier ?

Abandon des convolutions au profit des Transformers. Nouveau paradigme pour la vision avec patches d'images.

Liens:

📝 Mes notes
🔗 Article
💻 Code

12. Swin Transformer (2021)¶

Auteurs: Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo

READ: ✅

Pourquoi ce papier ?

Transformer hiérarchique avec fenêtres décalées (shifted windows) pour une complexité linéaire et des features multi-échelles.

Liens:

📝 Mes notes
🔗 Article

13. ConvNeXt (2022)¶

Auteurs: Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, Christoph Feichtenhofer, Trevor Darrell, Saining Xie

READ: ✅

Pourquoi ce papier ?

Modernisation des CNNs avec des designs inspirés des Transformers, prouvant que les convolutions restent compétitives.

Liens:

📝 Mes notes
🔗 Article