Skip to content

⚙️ 🔧 Architectures & Optimization

Techniques d'optimisation et composants architecturaux qui ont transformé l'entraînement des réseaux de neurones

Parcours de lecture

Cette playlist contient 9 papiers sélectionnés pour leur impact sur le domaine.


1. Dropout (2014)

Auteurs: Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, Ruslan Salakhutdinov

READ: ✅

Pourquoi ce papier ?

A Simple Way to Prevent Neural Networks from Overfitting - désactivation aléatoire de neurones empêchant la co-adaptation.

Liens:


2. Adam Optimizer (2014)

Auteurs: Diederik P. Kingma, Jimmy Ba

READ: ✅

Pourquoi ce papier ?

A Method for Stochastic Optimization - optimiseur adaptatif combinant momentum et RMSProp, devenu l'optimiseur par défaut.

Liens:


3. Batch Normalization (2015)

Auteurs: Sergey Ioffe, Christian Szegedy

READ: ✅

Pourquoi ce papier ?

Normalisation par mini-batch accélérant l'entraînement et permettant des learning rates plus élevés.

Liens:


4. Weight Normalization (2016)

Auteurs: Tim Salimans, Diederik P. Kingma

READ: ✅

Pourquoi ce papier ?

Reparamétrisation des poids en magnitude et direction pour accélérer la convergence sans dépendance au batch.

Liens:


5. Layer Normalization (2016)

Auteurs: Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton

READ: ✅

Pourquoi ce papier ?

Normalisation par couche indépendante du batch, cruciale pour les RNNs et Transformers.

Liens:


6. Mixed Precision Training (2017)

Auteurs: Paulius Micikevicius, Sharan Narang, Jonah Alben, Gregory Diamos, Erich Elsen, David Garcia, Boris Ginsburg, Michael Houston, Oleksii Kuchaiev, Ganesh Venkatesh, et al.

READ: ✅

Pourquoi ce papier ?

Entraînement en précision mixte (FP16/FP32) pour accélération 2-3x avec efficacité mémoire sans perte de précision.

Liens:


7. Group Normalization (2018)

Auteurs: Yuxin Wu, Kaiming He

READ: ✅

Pourquoi ce papier ?

Normalisation par groupes de canaux, alternative à Batch Norm stable avec petits batchs.

Liens:


8. Spectral Normalization for GANs (2018)

Auteurs: Takeru Miyato, Toshiki Kataoka, Masanori Koyama, Yuichi Yoshida

READ: ⬜

Pourquoi ce papier ?

Normalisation spectrale stabilisant l'entraînement des GANs en contraignant les constantes de Lipschitz.

Liens:


9. LoRA (2021)

Auteurs: Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen

READ: ✅

Pourquoi ce papier ?

Low-Rank Adaptation - fine-tuning efficace des LLMs en apprenant des matrices low-rank, réduisant drastiquement les paramètres entraînables.

Liens: