Au cours de la dernière décennie, trois grandes familles de modèles génératifs se sont
imposées comme références en génération d'images : les réseaux antagonistes génératifs (GANs),
les autoencodeurs variationnels (VAEs), et plus récemment les modèles de diffusion, aussi appelés
Score-Based Generative Models (SGMs). Ces derniers ont récemment surpassé les GANs sur
plusieurs aspects clés, notamment la qualité et la diversité des échantillons générés ainsi que la
stabilité de l'entraînement.
Fondés sur une interprétation rigoureuse via les équations différentielles stochastiques, les
SGMs disposent d'une base théorique solide, offrant une approche puissante pour la génération
probabiliste.
Mon travail porte sur l'exploration des SGMs appliqués à la génération de données issues de
lois multivariées à queues lourdes. Ce type de distributions est fréquent dans des contextes où les
événements extrêmes jouent un rôle crucial : phénomènes climatiques violents, risques financiers,
ou anomalies rares dans des systèmes complexes. Le défi est double : modéliser précisément la
structure des queues extrêmes tout en conservant des dépendances multivariées réalistes.
Mon approche consiste à identifier les composantes de la distribution présentant des queues
lourdes. À ces composantes, une transformation logarithmique est appliquée, puis un Denoiser est
entraîné sur les données transformées. Cette méthode de traitement permet de transformer des
distributions à queues lourdes en distributions cohérentes avec la théorie et les pratiques usuelles
des SGMs.
Empiriquement, cette approche s'avère très efficace, tant pour la reconstruction des queues
que pour l'apprentissage des dépendances entre les composantes. De plus, l'utilisation des SGMs
garantit une excellente capacité à reconstruire les modes dans le cas de distributions complexes et
multimodales.
En termes de théorie, deux résultats peuvent être obtenus pour établir une borne sur la
capacité générative de notre SGM : un théorème sur la divergence KL entre l