Régression de Poisson

En statistique, la régression de Poisson est un modèle linéaire généralisé utilisé pour les données de comptage et les tableaux de contingence^[1]. Cette régression suppose que la variable réponse Y suit une loi de Poisson et que le logarithme de son espérance peut être modélisé par une combinaison linéaire de paramètre inconnus.

Si ce bandeau n'est plus pertinent, retirez-le. Cliquez ici pour en savoir plus.

Cet article ne cite pas suffisamment ses sources (février 2019).

Si vous disposez d'ouvrages ou d'articles de référence ou si vous connaissez des sites web de qualité traitant du thème abordé ici, merci de compléter l'article en donnant les références utiles à sa vérifiabilité et en les liant à la section « Notes et références ».

En pratique : Quelles sources sont attendues ? Comment ajouter mes sources ?

Modèle de régression

Soit $\mathbf {x} \in \mathbb {R} ^{n}$ un vecteur de variables indépendantes, et $y\in \mathbb {N}$ la variable que l'on cherche à prédire. Réaliser une régression de Poisson revient à supposer que $Y\vert \mathbb {x}$ suit une loi de Poisson de paramètre $\lambda :=\operatorname {E} (Y\mid \mathbf {x} )=\exp(\alpha +\mathbf {\beta } '\mathbf {x} )$ , avec $\alpha \in \mathbb {R}$ et $\mathbf {\beta } \in \mathbb {R} ^{n}$ les paramètres de la régression à estimer, et $\beta '\mathbf {x}$ le produit scalaire standard de $\mathbb {R} ^{n}$ .

On peut ré-écrire le modèle ci-dessus

\log(\operatorname {E} (Y\mid \mathbf {x} ))=\alpha +\mathbf {\beta } '\mathbf {x} ,

ou de manière plus compacte

\log(\operatorname {E} (Y\mid \mathbf {x} ))={\boldsymbol {\theta }}'\mathbf {x} ,\,

avec un $\mathbf {x} \in \mathbb {R} ^{n+1}$ correspondant au précédent avec un élément supplémentaire valant 1. De même, ${\boldsymbol {\theta }}=[\alpha ,\beta ']'\in \mathbb {R} ^{n+1}$ .

L'objectif de la régression de Poisson est d'estimer ${\boldsymbol {\theta }}$ . Une fois ce vecteur estimé, il est possible de prédire $Y$ pour un nouveau $\mathbf {x}$ avec

\operatorname {E} (Y\mid \mathbf {x} )=\exp({\boldsymbol {\theta }}'\mathbf {x} ).\,

Si l'on a accès à une collection de $m$ couples indépendants : $(\mathbf {x} _{i},y_{i})_{1\leq i\leq m}$ , alors ${\boldsymbol {\theta }}$ peut être estimé par maximum de vraisemblance.

Estimation des paramètres par maximum de vraisemblance

Comme indiqué plus haut, à partir d'un paramètre ${\boldsymbol {\theta }}$ et d'un vecteur d'entrée $\mathbf {x} \in \mathbb {R} ^{n+1}$ , la variable de sortie $y$ suit une loi de Poisson de paramètre

\lambda :=\operatorname {E} (Y\mid \mathbf {x} )=\exp({\boldsymbol {\theta }}'\mathbf {x} ),\,

La fonction de masse de cette loi de Poisson est alors

p(y|\mathbf {x} ;{\boldsymbol {\theta }})={\frac {\lambda ^{y}}{y!}}\mathrm {e} ^{-\lambda }={\frac {\exp(y{\boldsymbol {\theta }}'\mathbf {x} -\mathrm {e} ^{{\boldsymbol {\theta }}'\mathbf {x} })}{y!}}

Supposons que l'on ait accès à une collection de $m$ couples indépendants : $(\mathbf {x} _{i},y_{i})_{1\leq i\leq m}$ . Alors, pour un vecteur ${\boldsymbol {\theta }}$ donné, la fonction de vraisemblance (c'est-à-dire la probabilité d'obtenir cet ensemble de données particulier) s'écrit

L({\boldsymbol {\theta }}|X,Y):=p(y_{1},\ldots ,y_{m}\mid \mathbf {x} _{1},\ldots ,\mathbf {x} _{m};\theta )=\prod _{i=1}^{m}{\frac {\exp(y_{i}{\boldsymbol {\theta }}'\mathbf {x} _{i}-\mathrm {e} ^{{\boldsymbol {\theta }}'\mathbf {x} _{i}})}{y_{i}!}}.

L'estimateur du maximum de vraisemblance, comme son nom l'indique, renvoie la valeur de ${\boldsymbol {\theta }}$ qui maximise la vraisemblance des données. Pour ce faire, puisqu'il est difficile d'optimiser une fonction écrite comme un produit dont tous les termes sont positifs, on minimise la négative log-vraisemblance

\ell ({\boldsymbol {\theta }}\mid X,Y):=-\log L({\boldsymbol {\theta }}\mid X,Y)=\sum _{i=1}^{m}\left(-y_{i}{\boldsymbol {\theta }}'\mathbf {x} _{i}+\mathrm {e} ^{{\boldsymbol {\theta }}'\mathbf {x} _{i}}+\log(y_{i}!)\right).

On peut remarquer que le terme $\log(y_{i}!)$ ne dépend pas de ${\boldsymbol {\theta }}$ . Puisque l'on cherche à trouver le ${\boldsymbol {\theta }}$ qui minimise cette négative log-vraisemblance, on peut la simplifier à une constante additive près. Par abus de langage, on identifie la véritable log-vraisemblance négative et la version à une constante additive près :

\ell ({\boldsymbol {\theta }}\mid X,Y)=\sum _{i=1}^{m}\left(-y_{i}{\boldsymbol {\theta }}'\mathbf {x} _{i}+\mathrm {e} ^{{\boldsymbol {\theta }}'\mathbf {x} _{i}}\right).

Pour trouver le minimum de cette log-vraisemblance négative, on résout l'équation ${\frac {\partial \ell ({\boldsymbol {\theta }}\mid X,Y)}{\partial {\boldsymbol {\theta }}}}=0$ , qui n'a pas de solution explicite. Cependant, puisque cette fonction est convexe, on peut utiliser des algorithmes efficace d'optimisation convexe comme la méthode de Newton pour obtenir rapidement la valeur optimale de ${\boldsymbol {\theta }}$ .

Références

↑ Cornillon, Pierre-André., Régression Avec R - 2e édition, EDP Sciences, 2019 (ISBN 978-2-7598-2183-9 et 2-7598-2183-8, OCLC 1127219494, lire en ligne)

Voir aussi

Portail des probabilités et de la statistique

[1] Cornillon, Pierre-André., Régression Avec R - 2e édition, EDP Sciences, 2019 (ISBN 978-2-7598-2183-9 et 2-7598-2183-8, OCLC 1127219494, lire en ligne)

[1]