Processus de Galton-Watson

Le processus de Galton-Watson (ou processus de Bienaymé-Galton-Watson) est un processus stochastique permettant de décrire des dynamiques de populations. C'est un cas particulier de processus de branchements.

Historique

modifier
 
graphique représentant le processus de Galton-Watson

À l'origine, ce modèle a été introduit par Bienaymé en 1845 et indépendamment par Galton en 1873 en vue d'étudier la disparition des patronymes[1].

Supposons que chaque adulte mâle transmette son patronyme à chacun de ses enfants. Supposons également que le nombre d'enfants de chaque homme soit une variable aléatoire entière (et que la distribution de probabilité soit la même pour tous les hommes dans une lignée). Alors, un patronyme dont les porteurs ont un nombre d'enfant strictement inférieur à 1 en moyenne est amené à disparaître. Inversement, si le nombre moyen d'enfants est supérieur à 1, alors la probabilité de survie de ce nom est non nulle et en cas de survie, le nombre de porteurs du patronyme connaît une croissance exponentielle.

Formulation générale

modifier

On suppose l'existence d'une population d'individus qui se reproduisent de manière indépendante. Chaque individu i donne naissance à   individus et meurt. On suppose que les   sont des variables aléatoires indépendantes à valeurs entières suivant la distribution   Par exemple,

  • si, avec probabilité     alors l'individu i meurt sans se reproduire ;
  • si, avec probabilité     alors il y a un remplacement un-pour-un de l'individu i ;
  • etc.

Notation — La fonction génératrice   associée à la distribution de probabilité   définie par :

 

est d'une importance particulière dans la discussion des résultats essentiels sur les processus de Galton-Watson.

Paramètre critique et classification des processus de Galton-Watson

modifier

Notons   la taille de la population à la n-ème génération. On suppose souvent que la population possède un seul ancêtre, ce qui se traduit par

 

Le nombre

 

désigne le nombre moyen d'enfants d'un individu typique de la population considérée. L'évolution de la taille moyenne de la population est gouvernée par la formule de récurrence suivante, conséquence de la formule de Wald :

 

d'où il résulte que

 

Définition — Si, à partir d'un certain rang, tous les termes de la suite   sont nuls, on dit qu'il y a extinction de la population.

Classification des processus de Galton-Watson — Il existe deux régimes séparés par une valeur critique du paramètre  :

  • Si m < 1, le processus de Galton-Watson est dit sous-critique. L'extinction de la population se produit avec probabilité 1  ;
  • Si m > 1, le processus de Galton-Watson est dit sur-critique. Alors la probabilité de survie de ce nom est non nulle (la probabilité d'extinction est inférieure strictement à 1). En cas de survie, le nombre de porteurs du patronyme connaît une croissance exponentielle.
  • Si m = 1, alors le processus de Galton-Watson est dit critique. Son comportement est plus complexe et sera discuté dans la suite.

Notation de Neveu

modifier

La notation de Neveu[2] permet de décrire rigoureusement l'évolution de la population à l'aide d'un arbre planaire enraciné, qui est en fait l'arbre généalogique de cette population. Cet arbre planaire enraciné peut être décrit de manière non ambigüe par la liste de ses sommets, chacun désigné par une suite finie d'entiers, qui sont les positions, au sein de leur fratrie, des ancêtres (ou ascendants) de ce sommet : le sommet 2|4|3 désigne le 3e fils du 4e fils du 2e fils de l'ancêtre (l'ancêtre étant lui-même désigné par la suite vide, notée  ). Par convention, l'ancêtre est le sommet initial de l'arête racine, et le sommet final de l'arête racine est le fils ainé de l'ancêtre : en tant que tel, il est donc noté 1. La longueur de la suite associée à un sommet est la hauteur (ou la profondeur) du sommet, i.e. la distance entre ce sommet et le début de la racine, qui représente l'ancêtre : en filant la métaphore, un sommet de hauteur n représente un individu appartenant à la n-ème génération de la population fondée par l'ancêtre. Les 5 arbres à 3 arêtes :

 



sont ainsi décrits par les 5 ensembles de mots

 

Avec cette notation, un arbre planaire encode commodément une réalisation de processus de Galton-Watson avec extinction : cet arbre est alors appelé arbre de Galton-Watson. Rien ne s'oppose à définir un arbre planaire infini à l'aide de la notation de Neveu, ce qui permet d'encoder les réalisations de processus de Galton-Watson où la population ne s'éteint pas.

 
Notation de Neveu pour les sommets d'un arbre planaire.
Exemple :

L'arbre de la figure ci-contre correspond à une suite de variables aléatoires   ainsi définies :

 


Ainsi, un processus de Galton-Watson peut-être vu comme une fonctionnelle déterministe d'une famille   de variables aléatoires indépendantes et de même loi   la variable   désignant la progéniture de l'individu i (le nombre d'enfants auxquels il donne naissance en mourant). Ici   désigne l'ensemble (dénombrable) des suites d'entiers de longueurs finies (éventuellement de longueur nulle dans le cas de  ) :

 


Exemple :

Certaines variables aléatoires de la suite   n'ont pas d'influence sur le processus de Galton-Watson : dans l'exemple ci-contre,   ou   n'ont pas d'importance car l'ancêtre a strictement moins de 4 enfants ( ) et l'individu 12 a strictement moins de 6 enfants ( ). De même les progénitures des individus de la 5e génération (les   correspondant aux suites i de longueur 5) n'influencent pas cette réalisation du processus de Galton-Watson, car la population s'éteint à la 4e génération ( ).

Étude fine de la taille des générations

modifier

Notons   la fonction génératrice de la variable aléatoire   définie par

 

Posons

 

où les Xi sont des variables aléatoires indépendantes, toutes de loi   ;   est la k ème puissance de convolution de la loi  

En vertu de la propriété de composition des fonctions génératrices, on a la relation suivante :

Relation de récurrence fondamentale — 
 
Remarques :
  • La relation de récurrence sur l'espérance de  
 
découle alors de la formule de dérivation des fonctions composées.
  • À l'aide de la relation de récurrence fondamentale, on trouve aussi, le cas échéant, une formule de récurrence pour la variance de  
  • La démonstration de la formule de récurrence fondamentale montre aussi (modulo quelques modifications) que la suite   est une chaine de Markov dont la matrice de transition   est définie par  

Cas sur-critique

modifier

Dans le cas sur-critique, la taille de la population croît à vitesse exponentielle sur un ensemble assez large.

Théorème — Si la loi de la progéniture est intégrable, de moyenne m>1, alors il existe une variable aléatoire M telle que, presque sûrement,

 

Si, de plus, la loi de la progéniture est de carré intégrable, alors   Par ailleurs,   converge vers M dans L2.

Des résultats plus précis peuvent être obtenus grâce au théorème de Kesten-Stigum[3],[4].

Ainsi, presque sûrement,   est une bonne approximation, au premier ordre, du nombre   d'individus de la génération   du moins sur l'ensemble   ensemble qui a une probabilité non nulle.

Un calcul explicite

modifier

Il y a assez peu d'exemples où la formule de récurrence fondamentale conduit à un calcul explicite de   L'exemple le plus connu est celui où la loi de reproduction est un mélange de masse de Dirac en 0 et de loi géométrique,

 

d'espérance

 

Cela correspond exactement aux fonctions génératrices   qui sont des homographies :

 

D'après la classification des homographies en fonction du nombre de points fixes, l'homographie   est conjuguée à des applications dont les itérées se calculent simplement, à savoir à   dans les cas non critiques (deux points fixes, 1 et  ) et à   dans le cas critique (un point fixe double, 1).

Cas non critique

modifier

Dès que   on trouve, par diagonalisation d'une application linéaire associée à l'homographie  

 

ce qui entraine

 

et conduit à un calcul explicite de  

Cas critique

modifier

Le cas   est le cas critique   On trouve, toujours en raisonnant sur une application linéaire (non diagonalisable) associée à l'homographie  

 

donc

 

Finalement   est une homographie :

 

ce qui correspond au choix de paramètres   suivant :

 

Ici T désigne la date d'extinction, i.e. le numéro de la première génération vide.

Probabilité d'extinction

modifier

Théorème — La probabilité d'extinction   d'un processus de Galton-Watson dont la distribution de la progéniture est   est la plus petite solution, dans l'intervalle [0,1], de l'équation :

 

Comme   est une série entière de rayon de convergence au moins égal à 1, à coefficients positifs ou nuls,   est convexe (et même strictement convexe si p0+p1<1), et indéfiniment dérivable sur l'intervalle ]0,1[, et possède donc au plus 2 points fixes dans l'intervalle [0;1], sauf si   Un théorème analogue concernant les cartes planaires aléatoires (une généralisation naturelle des arbres aléatoires) a été démontré en 2007[5].

 
Probabilité d'extinction (respectivement 0.25, 1 et 1) pour   successivement égal à 0,2 (cas surcritique), 0,5 (cas critique), 0,7 (cas sous-critique).
Exemple :
  • si   le théorème dit que la probabilité d'extinction   est nulle. Cela peut être vu directement sans difficulté, car   équivaut à   ce qui entraine immédiatement que chaque génération est constituée d'exactement un individu ;
  • plus généralement, si   0 est point fixe, donc, d'après le théorème,   est nulle (on pouvait le voir directement, puisque, en ce cas, chaque individu de la population a au moins un enfant)  ;
  • si   les deux points fixes sont 1 et   donc, comme on pouvait s'y attendre, la probabilité d'extinction vaut 1 si   et vaut moins que 1 (en fait  ) si   Ici, la valeur de   est difficile à calculer directement, sans utiliser le théorème. La figure ci-contre montre plusieurs valeurs de   et la probabilité d'extinction correspondante.

Plus généralement

Théorème —  On distingue 3 cas :

  • Cas souscritique (m<1). La probabilité d'extinction   vaut 1.
  • Cas critique (m =1). La probabilité d'extinction   vaut 1, sauf si   et, dans ce dernier cas, la probabilité d'extinction est nulle.
  • Cas surcritique (m>1). La probabilité d'extinction   est strictement inférieure à 1 (et est le plus petit point fixe de φ dans l'intervalle [0;1]).

Le comportement du processus de Galton-Watson dans les cas sous-critique et surcritique correspond à l'intuition. Par contre, le comportement du processus de Galton-Watson dans le cas critique aléatoire (l'extinction est certaine) est radicalement différent du comportement du processus de Galton-Watson dans le cas critique déterministe (chaque individu a exactement un enfant et l'extinction est impossible).

À voir aussi

modifier
  1. « Three papers on the history of branching processes », sur stat.washington.edu (consulté le )
  2. Jacques Neveu, « Arbres et processus de Galton-Watson », Ann. de l'IHP, vol. 22, no 2,‎ (lire en ligne) (section 2)
  3. (en) H. Kesten et B. P. Stigum, « A Limit Theorem for Multidimensional Galton-Watson Processes », The Annals of Mathematical Statistics, vol. 37, no 5,‎ , p. 1211-1223 (lire en ligne)
  4. (en) Krishna B. Athreya, « A Simple Proof of a Result of Kesten and Stigum on Supercritical Multitype Galton-Watson Branching Process », The Annals of Mathematical Statistics, vol. 41, no 1,‎ , p. 195-202 (lire en ligne)
  5. (en) Jean-François Marckert et Grégory Miermont, « Invariance principles for random bipartite planar maps », Ann. Probab., vol. 35, no 5,‎ , p. 1642-1705 (DOI 10.1214/009117906000000908, lire en ligne), Proposition 1.

Bibliographie

modifier

Liens utiles

modifier