Skip to content

MIXED PRECISION TRAINING

TL;DR

Contexte

Idées clés

Méthode

Résultats

Limites

Liens utiles

Notes perso

Guide pytorch pour utiliser mixed precision training: https://docs.pytorch.org/tutorials/recipes/recipes/amp_recipe.html

L'entraînement en précision mixte réduit de moitié l'usage mémoire et accélère les calculs en utilisant le format FP16 pour les poids, activations et gradients. Trois techniques garantissent le maintien de la précision : l'usage d'une copie maître des poids en FP32 pour les mises à jour , une mise à l'échelle de la perte (loss scaling) pour éviter que les petits gradients ne deviennent nuls , et l'accumulation des produits FP16 dans des sorties FP32. Cette approche égale les performances du FP32 sur diverses architectures (classification, détection, parole, traduction) sans ajustement des hyperparamètres.