Population synthétique

modéliser la population sous forme d'agents munis d'attributes

Afin de mieux gérer les systèmes de mobilités[1], un système de santé[2] les situations d'urgence[3], la gestion d'une épidémie[4], etc. Il est important d'avoir une modélisation du territoire avec sa population.

Pour des raisons de protections des droits individuels, la population d'un territoire et ses activités ne sont pas connues. En revanche, il est possible de modéliser cette population sous la forme d'agents munis d'attributs, avec des chaînes d'activités, et des fonctions d'utilité qui leurs permettent d'interagir entres eux. Cette population est générée à partir de données sur le territoire, elle est appelée population synthétique, elle est constituée d'agents.

Par extension, cette population synthétique peut aussi contenir des véhicules, des bâtiments, etc.

La population synthétique générée permet de faire directement des analyses sur un territoire. Elle peut aussi être utilisée comme données d'entrée de simulation multi-agents.

Génération d'une population synthétique modifier

Dans la génération d'une population synthétique, il est distingué différentes étapes[5]:

  1. La génération d'une population synthétique avec des attributs provenant d'une source primaire de données, par exemple à partir des données de recensement ;
  2. L'enrichissement de cette population avec d'autres attributs provenant d'une source secondaire de données, par exemple, ajouter l'attribut niveaux de vie à la population à partir des bases de données fiscales.
  3. La spatialisation de cette population sur le territoire, par exemple à partir de base de données sur les bâtiments.
  4. L'ajout d'activités aux agents à partir d'enquêtes comme les enquêtes ménage déplacement et sur leurs localisations grâce à des bases de données sur les établissements publics et privés. Avec ces ajouts, ces populations synthétiques sont appelés population synthétique à base d'activités. Ces activités se déroulent dans le temps ce qui donne un caractère dynamique au territoire modélisé. Par exemple, la population d'un territoire n'est pas la même en journée et la nuit.
  5. L'ajout de fonctions d'utilité qui permettent, par exemple, de déterminer les choix modaux de chacun des agents.

Ces différentes étapes sont conventionnelles car la spatialisation, les activités et les fonctions d'utilités peuvent aussi être considérés comme des attributs, au sens large, des agents. C'est pourquoi la génération de la population synthétique désigne aussi bien la première étape que l'ensemble du processus.

Algorithmes mis en œuvre modifier

Dans les cas les plus usuels, des données de recensements sont disponibles sur un territoire donnée sous la forme d'un échantillons de ménages anonymisés enquêtés sur le territoire, comme les fichiers de recensement de l'Insee, et de données agrégées externes comme par exemple, le nombre de ménages du territoire. Ces données agrégées sont aussi appelées données marginales.

A partir de ces données, il faut générer une population synthétique de ménages, comprenant des individus, la plus proche possible de la population réelle. De nombreux algorithmes peuvent être mis en œuvre. Il est proposé dans l'article[6] un classement des algorithmes selon la typologie suivante.

Reconstruction Synthétique modifier

Les algorithmes de ce type consistent à modifier les poids des ménages afin de coller aux données agrégées externes. Les algorithmes les plus connus consistent à adapter l'IPF (Iterative Proportional Fitting) (en) aux cas d'individus dans des ménages : Iterative Proportional Update, Hierarchical Iterative Proportional Fitting (HIPF), entropy maximization (ent) and Generalized Ranking (GR).

Optimisation combinatoire (combinatorial optimization) modifier

Les algorithmes, classés dans cette catégorie, ont comme entrées deux populations synthétiques générées à partir de l'échantillon. Ces populations synthétiques sont modifiés de manière itérative : deux ménages des deux populations sont échangées si ceci améliore la qualité (goodness of fit) des populations ainsi modifiées, ces échanges sont effectués jusqu'à obtenir une population dont les attributs agrégées correspondent aux données agrégées externes.

Apprentissage statistique (statistical learning) modifier

Ces algorithmes se base sur une modélisation probabiliste du problème. Une loi de probabilité conjointe compatible avec l'échantillon est exhibée selon différents algorithmes possibles : réseau bayésien, Méthode de Monte-Carlo par chaînes de Markov hiérarchique, Auto-encodeur variationnel[7]. Un tirage d'une population est alors effectué à partir de cette loi de probabilité puis un des algorithme de reconstruction synthétique est appliqué pour rendre cette population compatible avec les données agrégées externes.

Références modifier

  1. (en) Sebastian Hörl et Milos Balac, « Introducing the eqasim pipeline: From raw data to agent-based transport simulation », Procedia Computer Science, vol. 184,‎ , p. 712–719 (DOI 10.1016/j.procs.2021.03.089, lire en ligne, consulté le )
  2. Dumont, M, Carletti, T & Cornelis, É 2017, Population synthétique: un outil pour une analyse spatiale fine des besoins futurs en soins de santé. Dans S Carbonnelle, T Eggerickx, V Flohimont, S Perelman & A Vandenhooft (eds), Vieillissement et entraide: Quelles méthodes pour décrire et mesurer les enjeux ?. VOL. 6, Presses Universitaires de Namur (PUN), Namur, p. 55-74.
  3. Olivier Gillet, Eric Daudé, Arnaud Saval, Clément Caron, Sébastien Rey-Coyrehourcq, et al.. ESCAPE - Simulation à base d'agents pour l'évacuation de populations lors des situations d'urgence. JFSMA- - Journées Francophones sur les Systèmes Multi-Agents, Jul 2023, Strasbourg, France. pp.128-131. ⟨halshs-04199760⟩
  4. SynthPops: a generative model of human contact networks. Mistry D, Kerr CC, Abeysuriya R, Wu M, Fisher M, Thompson A, Skrip L, Cohen JA, Althouse BM, Klein DJ (2021). (in preparation).
  5. Boyam Fabrice Yameogo, Méthodologie de calibration d’un modèle multimodal des déplacements pour l’évaluation des externalités environnementales à partir de données ouvertes (open data) : le cas de l'aire urbaine de Nantes, Université de Nantes, (lire en ligne)
  6. (en) Boyam Fabrice Yaméogo, Pascal Gastineau, Pierre Hankach et Pierre-Olivier Vandanjon, « Comparing Methods for Generating a Two-Layered Synthetic Population », Transportation Research Record: Journal of the Transportation Research Board, vol. 2675, no 1,‎ , p. 136–147 (ISSN 0361-1981 et 2169-4052, DOI 10.1177/0361198120964734, lire en ligne, consulté le )
  7. Stanislav S. Borysov, Jeppe Rich et Francisco C. Pereira, « How to generate micro-agents? A deep generative modeling approach to population synthesis », Transportation Research Part C: Emerging Technologies, vol. 106,‎ , p. 73–97 (ISSN 0968-090X, DOI 10.1016/j.trc.2019.07.006, lire en ligne, consulté le )

Articles connexes modifier

Liens externes modifier