⚙️ 🔧 Architectures & Optimization¶
Techniques d'optimisation et composants architecturaux qui ont transformé l'entraînement des réseaux de neurones
Parcours de lecture
Cette playlist contient 9 papiers sélectionnés pour leur impact sur le domaine.
1. Dropout (2014)¶
Auteurs: Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever, Ruslan Salakhutdinov
READ: ✅
Pourquoi ce papier ?
A Simple Way to Prevent Neural Networks from Overfitting - désactivation aléatoire de neurones empêchant la co-adaptation.
Liens:
2. Adam Optimizer (2014)¶
Auteurs: Diederik P. Kingma, Jimmy Ba
READ: ✅
Pourquoi ce papier ?
A Method for Stochastic Optimization - optimiseur adaptatif combinant momentum et RMSProp, devenu l'optimiseur par défaut.
Liens:
3. Batch Normalization (2015)¶
Auteurs: Sergey Ioffe, Christian Szegedy
READ: ✅
Pourquoi ce papier ?
Normalisation par mini-batch accélérant l'entraînement et permettant des learning rates plus élevés.
Liens:
4. Weight Normalization (2016)¶
Auteurs: Tim Salimans, Diederik P. Kingma
READ: ✅
Pourquoi ce papier ?
Reparamétrisation des poids en magnitude et direction pour accélérer la convergence sans dépendance au batch.
Liens:
5. Layer Normalization (2016)¶
Auteurs: Jimmy Lei Ba, Jamie Ryan Kiros, Geoffrey E. Hinton
READ: ✅
Pourquoi ce papier ?
Normalisation par couche indépendante du batch, cruciale pour les RNNs et Transformers.
Liens:
6. Mixed Precision Training (2017)¶
Auteurs: Paulius Micikevicius, Sharan Narang, Jonah Alben, Gregory Diamos, Erich Elsen, David Garcia, Boris Ginsburg, Michael Houston, Oleksii Kuchaiev, Ganesh Venkatesh, et al.
READ: ✅
Pourquoi ce papier ?
Entraînement en précision mixte (FP16/FP32) pour accélération 2-3x avec efficacité mémoire sans perte de précision.
Liens:
7. Group Normalization (2018)¶
Auteurs: Yuxin Wu, Kaiming He
READ: ✅
Pourquoi ce papier ?
Normalisation par groupes de canaux, alternative à Batch Norm stable avec petits batchs.
Liens:
8. Spectral Normalization for GANs (2018)¶
Auteurs: Takeru Miyato, Toshiki Kataoka, Masanori Koyama, Yuichi Yoshida
READ: ⬜
Pourquoi ce papier ?
Normalisation spectrale stabilisant l'entraînement des GANs en contraignant les constantes de Lipschitz.
Liens:
- 🔗 Article
9. LoRA (2021)¶
Auteurs: Edward J. Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, Weizhu Chen
READ: ✅
Pourquoi ce papier ?
Low-Rank Adaptation - fine-tuning efficace des LLMs en apprenant des matrices low-rank, réduisant drastiquement les paramètres entraînables.
Liens: