Fonction d'influence

La fonction d'influence, ou courbe d'influence, est un outil statistique qui caractérise la sensibilité aux données aberrantes d'une statistique. Introduit par le statisticien Frank Hampel en 1968^[1]^,^[2], il s'agit d'une notion centrale des statistiques robustes.

Définition

Soit $T$ une statistique définie en tant que fonctionnelle. Une fonctionnelle est une application qui prend comme argument une distribution de probabilité et donne en image une valeur numérique ou vectorielle. Par exemple, la moyenne peut être définie par la fonctionnelle $T:F\mapsto T(F)=\mathbb {E} _{X\sim F}[X]$ . La fonction d'influence de la statistique $T$ quantifie sa sensibilité asymptotique lorsqu'une proportion infinitésimale des données est corrompue^[3].

Définition — Soit $F_{0}$ une distribution de probabilité, identifiée à sa fonction de répartition, sur un ensemble $E$ et $x$ un point de $E$ . Pour tout $\varepsilon \in [0,1]$ , notons $F_{\varepsilon }$ la distribution de probabilité sur $E$ définie par $F_{\varepsilon }=(1-\varepsilon )F_{0}+\varepsilon \Delta _{x}$ où $\Delta _{x}$ est une distribution de Dirac en $x$ . $F_{\varepsilon }$ est ainsi la distribution d'une variable aléatoire ayant une probabilité $\varepsilon$ d'être égale à $x$ et une probabilité $1-\varepsilon$ d'être distribuée selon $F_{0}$ .

La fonction d'influence de $T$ en $F_{0}$ évaluée en $x$ est définie comme $FI(T,F_{0},x)=\lim _{\varepsilon \to 0}{\frac {T(F_{\varepsilon })-T(F_{0})}{\varepsilon }}$ , lorsque cette limite existe.

Si $T$ est un estimateur consistant, la fonction d'influence $FI(T,F_{0},x)$ indique le biais asymptotique qu'induit une contamination infinitésimale par une valeur $x$ , standardisé par le taux de contamination. Il s'agit donc d'une mesure de la robustesse de la fonctionnelle $T$ . Une fonction d'influence bornée par rapport à $x$ avec des valeurs proches de $0$ indique une fonctionnelle robuste, faiblement influencée par des valeurs aberrantes, tandis qu'une fonction d'influence non bornée, ou avec de grandes valeurs, indique une fonctionnelle non robuste.

Exemples

Fonctions d'influence de la moyenne, estimateur de Huber et médiane pour une distribution normale centrée réduite évaluées entre -5 et 5.

Moyenne arithmétique

La fonctionnelle associée à la moyenne arithmétique est $T_{moy}:F\mapsto \mathbb {E} _{X\sim F}[X]$ .

Il est aisé de montrer que sa fonction d'influence est :

FI(T_{moy},F,x)=x-\mu

où $\mu$ est l'espérance de la distribution $F$ . Cette fonction n'est pas bornée, la moyenne arithmétique n'est donc pas robuste vis-à-vis des valeurs aberrantes : une seule observation ayant une valeur extrême peut induire un biais arbitrairement grand sur la moyenne.

Médiane

La fonctionnelle définissant la médiane est $T_{med}:F\mapsto F^{-1}(1/2)$ . Elle a pour fonction d'influence^[4] :

FI(T_{med},F,x)={\frac {1}{2f(m)}}\chi _{\mathbb {R} ^{+}}(x-m)-\chi _{\mathbb {R} ^{-}}(x-m)

où $f$ désigne la densité de la distribution $F$ , $m$ la médiane de $F$ et $\chi _{I}$ la fonction indicatrice de l'intervalle $I$ .

Cette fonction est bornée, et constante par morceaux. Toute contamination par une donnée supérieure (resp. inférieure) à la médiane a le même impact positif (resp.négatif) sur la médiane, quelle que soit sa valeur. Il s'agit donc d'un estimateur robuste. Par comparaison, une contamination de la moyenne par une valeur extrême a un impact plus important que par une donnée proche de la médiane.

Estimateur de Huber

L'estimateur de Huber du centre de $n$ observations $x_{1},...,x_{n}$ est défini comme la solution en $\mu$ de l'équation $\sum _{i=1}^{n}\psi _{c}(x_{i}-\mu )=0$ , où $\psi _{c}(t)=\left\{{\begin{array}{ccc}-c&\mathrm {si} &t<-c\\t&\mathrm {si} &-c\leq t\leq c\\c&\mathrm {si} &t>c\end{array}}\right.$ et $c$ est une constante à fixer par le statisticien. La fonctionnelle associée est donc $T_{c}:F\mapsto \mu :\mathbb {E} _{X\sim F}\left(\psi _{c}(X-\mu )\right)=0$ . La fonction d'influence de cette estimateur est :

FI(T_{c},F,x)=a(F)\cdot \psi _{c}(x-\mu )

où $a(F)=1/P_{F}(|X-T_{c}(F)|<c)$ .

Cette fonction d'influence est bornée. Elle présente un compromis entre la robustesse de la médiane (sur laquelle tous les points ont la même influence) et la moyenne (sur laquelle un point à une influence proportionnelle à son écart à l'espérance de la distribution). Un point à une influence proportionnelle à son écart à $T_{c}(F)$ tant que cet écart reste inférieur à $c$ , au-delà tous les points ont une influence valant $\pm a(F)\times c$ .

Régression linéaire par les moindres carrés

Considérons un modèle linéaire $Y=X^{T}\beta +\varepsilon$ où $Y$ est un variable aléatoire réelle, $\beta \in \mathbb {R} ^{p}$ le vecteur des paramètres, $X$ une variable aléatoire à valeurs dans $\mathbb {R} ^{p}$ dont la première coordonnée vaut $1$ (de sorte que $\beta$ comprend une ordonnée à l'origine) et $\varepsilon$ est une variable aléatoire réelle d'espérance nulle.

Étant donné $n$ observations $(x_{i},y_{i})_{i=1,...,n}$ , l'estimateur des moindres carrés de $\beta$ est donné par ${\hat {\beta }}=(\sum _{i=1}^{n}x_{i}x_{i}^{T})^{-1}\sum _{i=1}^{n}y_{i}x_{i}$ . La fonctionnelle associée à cet estimateur est

T_{mc}(F_{X,Y})=\mathbb {E} _{(X,Y)\sim F_{X,Y}}(XX^{T})^{-1}\mathbb {E} _{(X,Y)\sim F_{X,Y}}(YX)

où $F_{X,Y}$ désigne la distribution jointe de $X$ et $Y$ .

La fonction d'influence de cette fonctionnelle est:

FI(T_{mc},F_{X,Y},(x,y))=\mathbb {E} (XX^{T})^{-1}(x^{t}\beta -y)x

.

Cette fonction d'influence n'est pas bornée. L'estimateur des moindres carrés n'est donc pas robuste contre des données aberrantes. La fonction d'influence est le produit d'une matrice $\mathbb {E} (XX^{T})$ qui ne dépend pas de la contamination $(x,y)$ , du résidu de la contamination $x^{T}\beta -y$ , et de la variable explicative de la contamination $x$ . Une donnée a donc un fort impact sur l'estimation si son résidu est élevé ou si sa variable explicative a une valeur extrême ^[5].

Interprétation en tant que dérivée

La fonction d'influence peut être vue comme une dérivée. Une fonctionnelle est une fonction de l'espace des distributions dans un espace vectoriel généralement réel de dimension fini. Il est souvent possible de développer une fonctionnelle autour d'une distribution donnée $F_{0}$ en :

T(F_{0}+G)\approx T(F_{0})+\int FI(T,F_{0},x)dG(x)

.

Le second terme de l'égalité étant linéaire en $G$ , ce développement approxime $T(F_{0}+G)$ par une fonction linéaire en $G$ de manière analogue à un développement limité d'ordre 1.

Plus formellement, lorsqu'une fonctionnelle $T$ est différentiable au sens de Fréchet, la dérivée fonctionnelle de $T$ est donnée par $DT_{F_{0}}:G\mapsto \int FI(T,F_{0},x)dG(x)$ .

La fonction d'influence donne aussi le développement de Von Mises d'ordre 1 de la statistique $T$ .

Fonction d'influence comme limite de la courbe de sensibilité

La fonction d'influence peut également être introduite comme la limite de la courbe de sensibilité, parfois appelée fonction de sensibilité ou fonction d'influence empirique^[6]. Soit un échantillon aléatoire $X_{1},...,X_{n}$ et $T(X_{1},...,X_{n})$ une statistique. La courbe de sensibilité de la statistique $T(X)$ en l'échantillon $X$ est définie par :

CS(T,(X_{1},...,X_{n}),z)=(n+1)\times \left(T(x_{1},...,x_{n},z)-T(x_{1},...,x_{n})\right).

Cette courbe (lorsque les données sont unidimensionnelles) est généralement représentée en fonction de $z$ . Elle mesure l'effet d'une observation additionnelle ayant la valeur $z$ sur la statistique $T$ .

Le facteur $n+1$ permet d'éviter que la courbe ne tende vers $0$ lorsque $n$ augmente. En effet, on s'attend à ce que l'effet d'une donnée additionnelle au $n$ existantes soit de l'ordre de $1/(n+1)$ . On divise donc la différence par $1/(n+1)$ ce qui revient à multiplier par $n+1$ .

Supposons les $X_{i}$ indépendants et identiquement distribués selon une distribution $F$ . Si la courbe de sensibilité tend vers une limite simple, presque sûrement, alors cette limite est la fonction d'influence de $T$ en $F$ :

\forall z,CS(T,(X_{1},...,X_{n}),z){\overset {P}{\to }}FI(T,F,z)

Cependant, il existe des statistiques dont les courbes de sensibilité n'ont pas de limite. C'est le cas par exemple de la médiane. La fonction d'influence peut quand même exister (la fonction d'influence de la médiane est bien définie), mais elle ne correspond plus à la limite de la courbe de sensibilité.

Notions associées

Sensibilité aux erreurs aberrantes

La sensibilité aux erreurs aberrantes (gross error sensitivity en anglais) d'une statistique $T$ en une distribution $F$ est définie comme la borne supérieure (éventuellement infinie) de la norme de sa fonction d'influence. Dans le cas univarié, cette sensibilité s'écrit

\gamma (T,F)=\sup _{z}|FI(T,F,z)|

.

Dans le cas multivarié, le choix de la norme utilisée à la place de la valeur absolue donne différentes définitions:

La sensibilité non standardisée, $\gamma _{u}(T,F)=\sup _{z}\lVert FI(T,F,z)\rVert _{2}$ ,
La sensibilité auto-standardisée, $\gamma _{s}(T,F)=\sup _{z}{\left\{FI(T,F,z)^{T}\cdot V_{T,F}^{-1}\cdot FI(T,F,z)\right\}}^{1/2}$ où $V_{T,F}$ désigne la variance asymptotique de la statistique $T$ ,
La sensibilité standardisée par l'information de Fisher $\gamma _{i}(T,F)=\sup _{z}{\left\{FI(T,F,z)^{T}\cdot J\cdot FI(T,F,z)\right\}}^{1/2}$ où $J$ désigne l'information de Fisher associée au paramètre $T(F)$ , si celle-ci est disponible.

Il s'agit d'un indicateur de la robustesse d'une statistique $T$ : plus cette sensibilité est faible, plus la statistique est robuste.

B-robustesse

On dit qu'une statistique ou qu'un estimateur est B-robuste (B est l'initiale de bounded, signifiant borné en anglais) lorsque sa fonction d'influence est bornée, c'est-à-dire lorsque sa sensibilité aux erreurs aberrantes est finie. Intuitivement, cela signifie que cette statistique ne peut pas être "cassée" par une seule observation mal placée. Généralement, les estimateurs classiques ne sont pas B-robustes: moyennes, écart-type, estimateur des moindres carrés, la plupart des estimateurs par maximum de vraisemblance ou par méthode des moments. Plusieurs méthodes introduites par les statistiques robustes existent pour obtenir des estimateurs B-robustes.

Sensibilité aux variations locales

La sensibilité aux variations locales (local shift sensitivity en anglais) donne une indication des variations de la fonction d'influence :

\lambda =\sup _{x\neq y}{\frac {\lVert FI(T,F,x)-FI(T,F,y)\rVert }{\lVert x-y\rVert }}

>.

Une fonction d'influence peut être bornée mais avoir une sensibilité aux variations locales finie et vice-versa.

Point de rejet

Le point de rejet d'une statistique $T$ en $F$ est défini comme le rayon au delà duquel une observation n'a plus aucune influence sur la statistique, $\rho (T,F)=\inf _{r}\{r>0:\forall x:|x|>r,FI(T,F,x)=0\}.$ Une point de rejet fini signifie que la statistique $T$ n'est plus du tout influencée par des observations trop extrêmes. Ce peut être une propriété recherchée de certains estimateurs si l'on suspecte par exemple que des données aberrantes sont issues d'un processus différent des autres et n'apportent aucune information.

Point de rupture

Le point de rupture (breakdown point en anglais) désigne la proportion de contamination suffisant à donner une valeur aberrante à un estimateur. Plus formellement, c'est la proportion minimale de contamination pouvant induire un biais asymptotique arbitrairement grand :

\rho (T,F)=\inf \left\{\varepsilon :\sup _{z}\left\{\lVert T(F)-T\left((1-\varepsilon )F+\varepsilon \Delta _{z}\right)\rVert =+\infty \right\}\right\}

.

Le point de rupture de la médiane est par exemple de $0.5$ car il faut nécessairement changer la moitié des données pour pouvoir faire prendre à la médiane n'importe quelle valeur aberrante. Le point de rupture de la moyenne en revanche est de $0$ car une seule donnée, placée suffisamment loin des autres, permet de donner à la moyenne n'importe quelle valeur.

Le point de rupture n'est pas défini à partir de la fonction d'influence mais il y est lié. En effet, un estimateur ayant un point de rupture non nul est nécessairement B-robuste. La réciproque n'est cependant pas vraie en général, il existe des estimateurs B-robustes ayant un point de rupture nul, même si ceux-ci sont rares.

Propriétés

Espérance de la fonction d'influence

La fonction d'influence est d'espérance nulle lorsque la contamination suit la même loi que les données :

\mathbb {E} _{X\sim F}\left[FI(T,F,X)\right]=0

.

Cette propriété, combinée à l'utilisation de la fonction d'influence comme développement limité permet une approximation intéressante. Considérons un échantillon $X_{1},...X_{n}$ de variables aléatoires indépendantes et identiquement distribuées suivant une distribution $F$ et notons ${\hat {F}}_{n}$ la fonction de répartition empirique de cet échantillon. Alors :

{\begin{array}{rcl}T(X_{1},\cdots ,X_{n})&=&T({\hat {F}}_{n})\\&\approx &T(F)+\int FI(T,F,x)d({\hat {F}}_{n}-F)(x)\\&=&T(F)+\int FI(T,F,x)d{\hat {F}}_{n}(x)-\int FI(T,F,x)dF(x)\\&=&T(F)+\mathbb {E} _{X\sim {\hat {F}}_{n}}FI(T,F,X)-\mathbb {E} _{X\sim F}FI(T,F,X)\\&=&T(F)+{\frac {1}{n}}\sum _{i=1}^{n}FI(T,F,X_{i})-0.\end{array}}

Ce qui permet d'approximer $T(F)$ par $T(X_{1},\cdots ,X_{n})-{\frac {1}{n}}\sum _{i=1}^{n}FI(T,F,X_{i})$ .

Cela peut être utile pour corriger un éventuel biais de $T(X_{1},...,X_{n})$ dû à la taille finie de l'échantillon. Cette correction est très proche de celle réalisée par la méthode du jackknife. Pour rendre ce lien plus explicite, on peut remplacer dans l'expression précédente $FI(T,F,X_{i})$ par $n\times \left(T(X_{1},...,X_{n})-T(X_{1},\cdots ,X_{i-1},X_{i+1},\cdots ,X_{n})\right)$ , ce qui revient à approximer la fonction d'influence par la courbe de sensibilité.

Variance asymptotique

La variance asymptotique d'une statistique $T$ est définie comme la limite de $n\cdot \mathrm {var} \left(T(X_{1},...,X_{n})\right)$ lorsque $n$ tend vers l'infini. Elle peut être calculée à partir de la fonction d'influence.

Notons $X=(X_{1},...,X_{n})$ un échantillon aléatoire où les $X_{i}$ sont indépendants et identiquement distribués selon une distribution $F$ . Alors, la variance asymptotique de $T(X)$ correspond à la variance de sa fonction d'influence :

$\lim _{n\to +\infty }n\cdot \mathrm {var} (T(X))=\mathbb {E} _{X\sim F}\left(FI(T,F,X)\cdot FI(T,F,X)^{T}\right).$

Fonction d'influence des M-estimateurs

La fonction d'influence d'un M-estimateur se calcule facilement à partir de sa fonction de score. Soit ${\hat {\theta }}$ un M-estimateur d'un paramètre $\theta$ . Notons $\psi$ sa fonction de score. Étant donné un échantillon, cet estimateur est donc solution de l'équation $\sum _{i=1}^{n}\psi (x_{i},\theta )=0$ .

Alors, si $\theta$ est consistent et vérifie quelques conditions de régularités, la fonction d'influence de ${\hat {\theta }}$ est donnée par :

FI({\hat {\theta }},F,x)=-M^{-1}\cdot \psi (x,\theta )

où $M=-\mathbb {E} _{X\sim F}\left[{\frac {\partial }{\partial \theta }}\psi (X,\theta )\right]$ et où $\theta$ est la vraie valeur du paramètre.

La fonction d'influence d'un estimateur est donc proportionnelle à sa fonction de score. Il s'ensuit qu'un M-estimateur est B-robuste si et seulement si sa fonction de score est bornée. Cela donne une grande importance aux M-estimateurs dans les statistiques robustes. En effet il est facile de construire des estimateur robustes par exemple en tronquant simplement la fonction de score d'estimateurs existants (et en corrigeant le biais induit).

Voir aussi

Références

↑ Frank R. Hampel, « The Influence Curve and its Role in Robust Estimation », Journal of the American Statistical Association, vol. 69, n^o 346,‎ juin 1974, p. 383–393 (ISSN 0162-1459 et 1537-274X, DOI 10.1080/01621459.1974.10482962, lire en ligne)
↑ (en) Frank R. Hampel, Contributions to the theory of robust estimation : Ph.D. thesis., 1968
↑ (en) Frank R. Hampel, Elvezio M. Ronchetti, Peter J. Rousseuw et Werner A. Stahel, Robust Statistics: The Approach Based on Influence Functions, Wiley, 1986
↑ Christophe Croux, « Limit behavior of the empirical influence function of the median », Statistics & Probability Letters, vol. 37, n^o 4,‎ mars 1998, p. 331–340 (ISSN 0167-7152, DOI 10.1016/s0167-7152(97)00135-1, lire en ligne)
↑ Stephane Heritier, Eva Cantoni, Samuel Copt et Maria-Pia Victoria-Feser, Robust Methods in Biostatistics, Wiley Series in Probability and Statistics, 2009 (ISSN 1940-6347, DOI 10.1002/9780470740538, lire en ligne)
↑ (en) Ricardo A. Maronna, R. Douglas Martin et Victor J. Yohai, Robust statistics : Theory and Methods, Wiley, 2006

Portail des probabilités et de la statistique

[1] Frank R. Hampel, « The Influence Curve and its Role in Robust Estimation », Journal of the American Statistical Association, vol. 69, n^o 346,‎ juin 1974, p. 383–393 (ISSN 0162-1459 et 1537-274X, DOI 10.1080/01621459.1974.10482962, lire en ligne)

[2] (en) Frank R. Hampel, Contributions to the theory of robust estimation : Ph.D. thesis., 1968

[3] (en) Frank R. Hampel, Elvezio M. Ronchetti, Peter J. Rousseuw et Werner A. Stahel, Robust Statistics: The Approach Based on Influence Functions, Wiley, 1986

[4] Christophe Croux, « Limit behavior of the empirical influence function of the median », Statistics & Probability Letters, vol. 37, n^o 4,‎ mars 1998, p. 331–340 (ISSN 0167-7152, DOI 10.1016/s0167-7152(97)00135-1, lire en ligne)

[5] Stephane Heritier, Eva Cantoni, Samuel Copt et Maria-Pia Victoria-Feser, Robust Methods in Biostatistics, Wiley Series in Probability and Statistics, 2009 (ISSN 1940-6347, DOI 10.1002/9780470740538, lire en ligne)

[6] (en) Ricardo A. Maronna, R. Douglas Martin et Victor J. Yohai, Robust statistics : Theory and Methods, Wiley, 2006

[1]

[2]

[3]

[4]

[5]

[6]