Skip to content

Deep Residual Learning for Image Recognition

TL;DR

Les connexions résiduelles (skip connections) permettent d'entraîner des réseaux extrêmement profonds (152 couches) en résolvant le problème de dégradation et en facilitant l'optimisation.

Contexte

Les réseaux profonds souffrent de dégradation : au-delà d'une certaine profondeur, l'accuracy se dégrade même sur le training set, limitant les bénéfices de la profondeur.

Idées clés

Apprendre des fonctions résiduelles F(x) = H(x) - x au lieu de H(x) directement facilite l'optimisation ; les skip connections permettent aux gradients de circuler directement.

Méthode

Blocs résiduels : y = F(x, {Wi}) + x où F est une pile de 2-3 convolutions ; utilisation de bottleneck designs (1x1, 3x3, 1x1) pour les réseaux très profonds.

Résultats

ResNet-152 remporte ILSVRC 2015 avec 3.57% top-5 error sur ImageNet ; gains significatifs sur COCO detection/segmentation ; le réseau à 1202 couches s'entraîne sans difficulté.

Limites

Les gains diminuent pour des réseaux extrêmement profonds (1000+ couches) ; potentielle redondance dans les features apprises par certains blocs résiduels.

Liens utiles

Notes perso