⚙️ 🔧 Architectures & Optimization¶

Techniques d'optimisation et composants architecturaux qui ont transformé l'entraînement des réseaux de neurones

Parcours de lecture

Cette playlist contient 9 papiers sélectionnés pour leur impact sur le domaine.

1. Dropout (2014)¶

Auteurs: Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, Ruslan Salakhutdinov

READ: ✅

Pourquoi ce papier ?

A Simple Way to Prevent Neural Networks from Overfitting - désactivation aléatoire de neurones empêchant la co-adaptation.

Liens:

📝 Mes notes
🔗 Article

2. Adam Optimizer (2014)¶

Auteurs: Diederik P. Kingma, Jimmy Ba

READ: ✅

Pourquoi ce papier ?

A Method for Stochastic Optimization - optimiseur adaptatif combinant momentum et RMSProp, devenu l'optimiseur par défaut.

Liens:

📝 Mes notes
🔗 Article

3. Batch Normalization (2015)¶

Auteurs: Sergey Ioffe, Christian Szegedy

READ: ✅

Pourquoi ce papier ?

Normalisation par mini-batch accélérant l'entraînement et permettant des learning rates plus élevés.

Liens:

📝 Mes notes
🔗 Article

4. Weight Normalization (2016)¶

Auteurs: Tim Salimans, Diederik P. Kingma

READ: ✅

Pourquoi ce papier ?

Reparamétrisation des poids en magnitude et direction pour accélérer la convergence sans dépendance au batch.

Liens:

📝 Mes notes
🔗 Article

5. Layer Normalization (2016)¶

Auteurs: Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton

READ: ✅

Pourquoi ce papier ?

Normalisation par couche indépendante du batch, cruciale pour les RNNs et Transformers.

Liens:

📝 Mes notes
🔗 Article

6. Mixed Precision Training (2017)¶

Auteurs: Paulius Micikevicius, Sharan Narang, Jonah Alben, Gregory Diamos, Erich Elsen, David Garcia, Boris Ginsburg, Michael Houston, Oleksii Kuchaiev, Ganesh Venkatesh, et al.

READ: ✅

Pourquoi ce papier ?

Entraînement en précision mixte (FP16/FP32) pour accélération 2-3x avec efficacité mémoire sans perte de précision.

Liens:

📝 Mes notes
🔗 Article

7. Group Normalization (2018)¶

Auteurs: Yuxin Wu, Kaiming He

READ: ✅

Pourquoi ce papier ?

Normalisation par groupes de canaux, alternative à Batch Norm stable avec petits batchs.

Liens:

📝 Mes notes
🔗 Article

8. Spectral Normalization for GANs (2018)¶

Auteurs: Takeru Miyato, Toshiki Kataoka, Masanori Koyama, Yuichi Yoshida

READ: ⬜

Pourquoi ce papier ?

Normalisation spectrale stabilisant l'entraînement des GANs en contraignant les constantes de Lipschitz.

Liens:

🔗 Article

9. LoRA (2021)¶

Auteurs: Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen

READ: ✅

Pourquoi ce papier ?

Low-Rank Adaptation - fine-tuning efficace des LLMs en apprenant des matrices low-rank, réduisant drastiquement les paramètres entraînables.

Liens:

📝 Mes notes
🔗 Article