Skip to content

Denoising Diffusion Probabilistic Models

TL;DR

Les modèles de diffusion probabiliste génèrent des images de haute qualité en apprenant à inverser progressivement un processus de diffusion qui ajoute du bruit gaussien, surpassant les GANs en qualité d'échantillons.

Contexte

Les modèles génératifs profonds (GANs, VAEs, flow models) dominent la génération d'images, mais les GANs souffrent d'instabilité d'entraînement et de mode collapse, tandis que les VAEs produisent des images floues.

Idées clés

Un processus de diffusion forward ajoute progressivement du bruit gaussien sur T étapes jusqu'à détruire complètement l'image ; le modèle apprend le processus reverse pour débruiter progressivement du bruit pur en une image cohérente ; formulation équivalente à un score matching denoising avec un objectif simplifié.

Méthode

Forward process : q(x_t|x_{t-1}) = N(√(1-β_t) x_{t-1}, β_t I) avec schedule de variance β_t fixe ; reverse process : p_θ(x_{t-1}|x_t) paramétré par un U-Net qui prédit le bruit ε ; objectif d'entraînement simplifié L_simple = E[||ε - ε_θ(x_t, t)||²] ; échantillonnage itératif sur T~1000 étapes.

Résultats

FID de 3.17 sur CIFAR-10 (256x256 conditionnelles), surpassant les GANs state-of-the-art ; qualité perceptuelle exceptionnelle sur CelebA-HQ et LSUN ; diversité d'échantillons supérieure aux GANs sans mode collapse ; inception score compétitif.

Limites

Échantillonnage très lent (~1000 forward passes vs 1 pour GAN) ; coût computationnel élevé en inférence ; nécessite beaucoup de mémoire pour l'entraînement ; difficulté à générer des images haute résolution directement.

Liens utiles

Notes perso