4-5 Sep 2025 Fontainebleau (France)
Modélisation des liens statistiques entre les pressions des produits phytopharmaceutiques à différentes échelles et les impacts observés dans la chimie des eaux souterraines, par apprentissage automatique
Lynh Hoang-Vy-Thuy  1@  , Marc Laurencelle  1  , Chrystelle Auterives  1  
1 : Bureau de Recherches Géologiques et Minières
Bureau de Recherches Géologiques et Minières (BRGM)

Le projet MELASSES, lancé par l'Anses et le BRGM, vise à renforcer la compréhension des contaminations des eaux souterraines par les produits phytopharmaceutiques (PPP). Les approches actuelles, souvent nationales et non contextualisées, limitent la détection des signaux faibles et la compréhension des transferts de pollution. MELASSES cherche à relier de façon robuste les pressions théoriques d'usage des PPP et leur impact observé dans les nappes, en intégrant les dimensions spatiale, chimique et hydrogéologique, à l'aide de méthodes d'apprentissage automatique.

L'indicateur de « pression potentielle » est fondé sur le croisement entre les cultures déclarées par parcelle (RPG) et les autorisations d'usage des substances (E-Phy), calculé sur un maillage 250x250m (raster) par pesticide. Ce raster peut ensuite être agrégé selon des échelles spatiales (ES) : polygones d'entité hydrogéologique, buffers autour des points, etc. L'indicateur d'impact est basé sur la qualité chimique des eaux souterraines (ADES), en évaluant la présence d'une molécule par rapport à une valeur seuil experte. Un point d'eau est dit impacté si une ou plusieurs analyses indiquent une présence significative. L'analyse mobilise plus de 2,6 millions de données sur 17983 points, couvrant 81 molécules : substances actives (SA) et métabolites.

Les corrélations simples entre pression, contexte et impact s'avèrent faibles, ce qui rend difficile toute interprétation linéaire classique. Face à cette complexité, une approche de modélisation prédictive a été privilégiée pour mieux capturer les effets combinés et non-linéaires. Le modèle XGBoost retenu intègre à la fois les variables de pression et les variables contextuelles (lithologie, état de la nappe, etc) pour prédire la présence des SA. Son interprétation s'appuie sur les valeurs SHAP. Afin de gérer le déséquilibre entre Présences- Absences (~99%), la fonction de perte a été ajustée. Quatre types de modèles ont été construits pour analyser les liens pression–impact sous différents angles et permettre une comparaison complète : par couple SA+ES, par ES, global avec pressions seules, ou global enrichi avec le contexte. L'échelle « buffer de 4 km de rayon » apparaît comme la plus pertinente pour capter les effets de pression.

Ce travail met en place une méthode automatisée et flexible pour identifier les facteurs influents et évaluer différentes ES. Il ouvre la voie à des modèles adaptables par molécule, intégrant d'autres variables telle l'épaisseur de la Zone Non Saturée (ZNS), la pression agrégée dans les périmètres de protection, etc. Des ajustements futurs visent à améliorer la prédiction locale et à valoriser la pertinence des modèles globaux incluant plusieurs échelles.



  • Poster
Loading... Loading...