Deep Residual Learning for Image Recognition
TL;DR¶
Les connexions résiduelles (skip connections) permettent d'entraîner des réseaux extrêmement profonds (152 couches) en résolvant le problème de dégradation et en facilitant l'optimisation.
Contexte¶
Les réseaux profonds souffrent de dégradation : au-delà d'une certaine profondeur, l'accuracy se dégrade même sur le training set, limitant les bénéfices de la profondeur.
Idées clés¶
Apprendre des fonctions résiduelles F(x) = H(x) - x au lieu de H(x) directement facilite l'optimisation ; les skip connections permettent aux gradients de circuler directement.
Méthode¶
Blocs résiduels : y = F(x, {Wi}) + x où F est une pile de 2-3 convolutions ; utilisation de bottleneck designs (1x1, 3x3, 1x1) pour les réseaux très profonds.
Résultats¶
ResNet-152 remporte ILSVRC 2015 avec 3.57% top-5 error sur ImageNet ; gains significatifs sur COCO detection/segmentation ; le réseau à 1202 couches s'entraîne sans difficulté.
Limites¶
Les gains diminuent pour des réseaux extrêmement profonds (1000+ couches) ; potentielle redondance dans les features apprises par certains blocs résiduels.
Liens utiles¶
- Article: Deep Residual Learning for Image Recognition (PDF)
-
Paper explained: Yannic Kilcher