Théorie de l'estimation

En statistique, la théorie de l'estimation s'intéresse à l'estimation de paramètres à partir de données empiriques mesurées ayant une composante aléatoire. Les paramètres décrivent un phénomène physique sous-jacent tel que sa valeur affecte la distribution des données mesurées. Un estimateur essaie d'approcher les paramètres inconnus à partir des mesures. En théorie de l'estimation, deux approches sont généralement considérées^[1]:

l'approche probabiliste (décrite ici) suppose que les données mesurées sont aléatoires avec une distribution de probabilités dépendant des paramètres d'intérêt
l'approche ensembliste suppose que le vecteur des données mesurées appartient à un ensemble qui dépend du vecteur des paramètres.

Exemples

On souhaite estimer la proportion d'une population d'électeurs qui va voter pour un candidat donné dans une élection. Cette proportion est le paramètre recherché ; l'estimaion est basé sur un petit échantillon aléatoire de votants. De façon alternative, on veut évaluer la probabilité d'un électeur de voter pour un candidat particulier, en se basant sur des données démographiques, comme son âge.

Avec un radar, on veut trouver la taille des objets (avions, bateaux, etc.) en analysant le temps aller-retour des échos reçus d'ondes pulsées. Comme les ondes réfléchies sont toutes perturbées par un bruit électrique, leurs valeurs mesurées sont aléatoires, et le temps de transit doit être estimé.

De façon générale, les mesures de signaux électriques sont souvent associés à un bruit.

Bases

Pour un modèle donné, plusieurs "ingrédients" statistiques sont requis pour implémenter l'estimateur. Le premier est un échantillon statistique – un ensemble de données discrètes dans un vecteur aléatoire de taille N :

\mathbf {x} ={\begin{bmatrix}x[0]\\x[1]\\\vdots \\x[N-1]\end{bmatrix}}.

on associe un vecteur de M paramètres :

\mathbf {\theta } ={\begin{bmatrix}\theta _{1}\\\theta _{2}\\\vdots \\\theta _{M}\end{bmatrix}},

dont on veut estimer les valeurs. Enfin, il faut la densité de probabilité, discrète ou continue, de la loi sous-jacente de probabilité qui ont généré les données, et donc conditionnelle aux valeurs des paramètres :

p(\mathbf {x} |\mathbf {\theta } ).\,

Il est aussi possible pour les paramètres d'avoir une loi de probabilité (voir statistiques bayésiennes). Il est alors nécessaire de définir la probabilité bayésienne

\pi (\mathbf {\theta } ).\,

Après que le modèle est formé, l'objectif est d'estimer les paramètres, dont on note les estimateurs ${\hat {\mathbf {\theta } }}$ .

Un estimateur classique est l'estimateur des moindres carrés, qui est celui qui minimise l'erreur entre les paramètres estimés et leurs valeurs réelles

\mathbf {e} ={\hat {\mathbf {\theta } }}-\mathbf {\theta } .

Cette erreur est ensuite élevée au carré et la valeur attendue est minimale pour l'estimateur des moindres carrés.

Estimateurs

Article détaillé : Estimateur (statistique).

Les estimateurs les plus communément utilisés et étudiés sont :

les estimateurs du maximum de vraisemblance
les estimateurs bayésiens (en)
les estimateurs de la méthode des moments
borne de Cramér-Rao
méthode des moindres carrés
estimateur de l'erreur quadratique moyenne (MSE), aussi désigné comme l'erreur des moindres carrés de Bayes (BLSE)
estimateur du maximum a posteriori (MAP)
estimateur sans biais à variance minimale (en) (MVUE)
identification de systèmes non linéaires (en)
meilleur estimateur linéaire sans biais (BLUE)
Estimateurs sans biais
Filtre particulaire
Estimateur de la méthode de Monte-Carlo par chaînes de Markov (MCMC)
filtre de Kalman et ses variantes
filtre de Wiener

Exemples

Constante inconnue avec bruit blanc gaussien

Dans un signal discret $x[n]$ mesuré avec N échantillons indépendants constitués d'une constante A avec un bruit blanc gaussien additif (AWGN) $w[n]$ de moyenne nulle et de variance $\sigma ^{2}$ connue (i.e., $w\sim {\mathcal {N}}(0,\sigma ^{2})$ ). Le vecteur de paramètres à estimer se réduit uniquement à A. Le signal modèle s'écrit :

x[n]=A+w[n]\quad n=0,1,\dots ,N-1

On a alors deux estimateurs possibles pour A :

${\hat {A}}_{1}=x[0]$
${\hat {A}}_{2}={\frac {1}{N}}\sum _{n=0}^{N-1}x[n]$ qui est la moyenne empirique de l'échantillon

Les deux estimateurs ont une espérance de A :

\mathbb {E} \left[{\hat {A}}_{1}\right]=\mathbb {E} \left[x[0]\right]=A

\mathbb {E} \left[{\hat {A}}_{2}\right]=\mathbb {E} \left[{\frac {1}{N}}\sum _{n=0}^{N-1}x[n]\right]={\frac {1}{N}}\left[\sum _{n=0}^{N-1}\mathbb {E} \left[x[n]\right]\right]={\frac {1}{N}}\left[NA\right]=A

Cependant, en étudiant leurs variances, la différence de qualité entre les deux estimateur apparait :

\mathrm {Var} \left({\hat {A}}_{1}\right)=\mathrm {Var} \left(x[0]\right)=\sigma ^{2}

\mathrm {Var} \left({\hat {A}}_{2}\right)=\mathrm {Var} \left({\frac {1}{N}}\sum _{n=0}^{N-1}x[n]\right){\overset {\text{independence}}{=}}{\frac {1}{N^{2}}}\left[\sum _{n=0}^{N-1}\mathrm {Var} (x[n])\right]={\frac {1}{N^{2}}}\left[N\sigma ^{2}\right]={\frac {\sigma ^{2}}{N}}

La moyenne de l'échantillon semble alors un bien meilleur estimateur car sa variance est plus petite dès que N > 1.

Maximum de vraisemblable

Article détaillé : Maximum de vraisemblance.

Sur le même exemple, on utilise l'estimateur du maximum de vraisemblance, la fonction densité de probabilité du bruit pour un échantillon $w [n]$ est

p(w[n])={\frac {1}{\sigma {\sqrt {2\pi }}}}\exp \left(-{\frac {1}{2\sigma ^{2}}}w[n]^{2}\right)

et la probabilité de $x [n]$ devient ( $x [n]$ peut être vu comme suivant une loi normale ${\mathcal {N}}(A,\sigma ^{2})$ )

p(x[n];A)={\frac {1}{\sigma {\sqrt {2\pi }}}}\exp \left(-{\frac {1}{2\sigma ^{2}}}(x[n]-A)^{2}\right)

Par indépendance, la probabilité de $x$ devient

p(\mathbf {x} ;A)=\prod _{n=0}^{N-1}p(x[n];A)={\frac {1}{\left(\sigma {\sqrt {2\pi }}\right)^{N}}}\exp \left(-{\frac {1}{2\sigma ^{2}}}\sum _{n=0}^{N-1}(x[n]-A)^{2}\right)

On prend le logarithme naturel de l'expression :

\ln p(\mathbf {x} ;A)=-N\ln \left(\sigma {\sqrt {2\pi }}\right)-{\frac {1}{2\sigma ^{2}}}\sum _{n=0}^{N-1}(x[n]-A)^{2}

dont on tire l'estimateur du maximum de vraisemblance :

{\hat {A}}=\arg \max \ln p(\mathbf {x} ;A)

En prenant la dérivée de la log-vraisemblance :

{\frac {\partial }{\partial A}}\ln p(\mathbf {x} ;A)={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}(x[n]-A)\right]={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}x[n]-NA\right]

qu'on cherche à annuler

0={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}x[n]-NA\right]=\sum _{n=0}^{N-1}x[n]-NA

La résolution de cette équation donne l'estimateur du maximum de vraisemblance :

{\hat {A}}={\frac {1}{N}}\sum _{n=0}^{N-1}x[n]

qui est ici la moyenne empirique.

Borne inférieure de Cramér–Rao

Article détaillé : Borne de Cramér-Rao.

Pour trouver la borne inférieure de Cramér–Rao (CRLB) de l'estimateur de la moyenne de l'échantillon, on doit d'abord établir l'information de Fisher :

{\mathcal {I}}(A)=\mathbb {E} \left(\left[{\frac {\partial }{\partial A}}\ln p(\mathbf {x} ;A)\right]^{2}\right)=-\mathbb {E} \left[{\frac {\partial ^{2}}{\partial A^{2}}}\ln p(\mathbf {x} ;A)\right]

et en reprenant le même processus que précédemment :

{\frac {\partial }{\partial A}}\ln p(\mathbf {x} ;A)={\frac {1}{\sigma ^{2}}}\left[\sum _{n=0}^{N-1}x[n]-NA\right]

La dérivée seconde donne :

{\frac {\partial ^{2}}{\partial A^{2}}}\ln p(\mathbf {x} ;A)={\frac {1}{\sigma ^{2}}}(-N)={\frac {-N}{\sigma ^{2}}}

et trouver la valeur attendue négative est trivial car la dérivée est une constante déterministe : $-\mathbb {E} \left[{\frac {\partial ^{2}}{\partial A^{2}}}\ln p(\mathbf {x} ;A)\right]={\frac {N}{\sigma ^{2}}}$

On réinjecte l'information de Fisher dans le calcul :

\mathrm {Var} \left({\hat {A}}\right)\geq {\frac {1}{\mathcal {I}}}

ce qui donne

\mathrm {Var} \left({\hat {A}}\right)\geq {\frac {\sigma ^{2}}{N}}

En comparant ce résultat à la variance de la moyenne empirique (déterminé auparavant) montre que la moyenne empirique atteint la borne de Cramér–Rao pour toutes valeurs de $N$ et $A$ . Ainsi, la moyenne de l'échantillon est un (et même forcément le seul) estimateur efficace, et est donc l'estimateur sans biais de variance minimale (MVUE), en plus d'être l'estimateur de maximum de vraisemblance.

Maximum d'une distribution uniforme

Article détaillé : Problème du char d'assaut allemand.

Un des exemples non triviaux les plus simples d'estimation est celui de l'estimation du maximum d'une distribution uniforme. Il est utilisé classiquement pour illustrer les principes de bases de la théorie de l'estimation, en mettant en lumière des questions d'a priori et des erreurs dans l'utilisation de l'estimation par maximum de vraisemblance et des fonctions de vraisemblance.

Soit une distribution uniforme discrète $1, 2, ..., N$ de maximum inconnu, alors l'estimateur sans biais à variance minimale du maximum est

{\frac {k+1}{k}}m-1=m+{\frac {m}{k}}-1

où $m$ est le maximum de l'échantillon et $k$ la taille de l'échantillon, sans remplacement^[2]^,^[3]. Ce cas est connu sous le nom du problème du char d'assaut allemand, car il fut appliqué à l'estimation du nombre maximal de chars allemands produits pendant la Seconde Guerre Mondiale.

La formule peut être comprise de façon intuitive comme :

"le maximum de l'échantillon plus la différence moyenne entre les observations de l'échantillon",

la différence étant ajouté pour compenser le biais négatif du maximum de l'échantillon comme estimateur du maximum de la population^{[N 1]}

Il a une variance de^[2]

{\frac {1}{k}}{\frac {(N-k)(N+1)}{(k+2)}}\approx {\frac {N^{2}}{k^{2}}}{\text{ pour }}k\ll N

donc un écart-type proche de $N / k$ , la taille moyenne (de la population) de la différence entre échantillons ; on pourra comparer avec $m / k$ . On peut voir ce résultat comme un cas simple d'estimation de l'espacement maximum.

Le maximum de l'échantillon est l'estimateur du maximum de vraisemblance du maximum de la population, mais comme vu au-dessus, il est biaisé.

Applications

De nombreux domaines utilisent la théorie de l'estimation :

Interprétation d'expériences scientifiques
Traitement du signal
Essais cliniques
Sondages d'opinion
Contrôle qualité
Télécommunications
Gestion de projet
Développement logiciel
Théorie du contrôle (notamment le contrôle adaptatif)
Système de détection d'intrusion
Orbitographie

Des mesures sont susceptibles d'être perturbées par un bruit ou une incertitude et c'est grâce à la théorie des probabilités que des solutions optimales sont étudiées afin d'en tirer autant d'information que possible.

Voir aussi

Notes

↑ Le maximum de l'échantillon n'excède jamais le maximum de la population, mais peut lui être inférieur, ce qui en fait un estimateur biaisé : il va tendre à sous-estimer le maximum de la population.

Références

Citations

↑ (en) E. Walter et L. Pronzato, Identification of Parametric Models from Experimental Data, London, England, Springer-Verlag, 1997
↑ ^{a et b} (en) Roger Johnson, « Estimating the Size of a Population », Teaching Statistics, vol. 16, n^o 2 (Summer),‎ 1994, p. 50–52 (DOI 10.1111/j.1467-9639.1994.tb00688.x)
↑ (en) Roger Johnson, Getting the Best from Teaching Statistics, 2006 (lire en ligne [archive du 20 novembre 2008])

Sources

(en) E.L. Lehmann et G. Casella, Theory of Point Estimation (ISBN 0387985026)
(en) Dale Shermon, Systems Cost Engineering (ISBN 978-0-566-08861-2)
(en) John Rice, Mathematical Statistics and Data Analysis (ISBN 0-534-209343))
(en) Steven M. Kay, Fundamentals of Statistical Signal Processing: Estimation Theory (ISBN 0-13-345711-7)
(en) H. Vincent Poor, An Introduction to Signal Detection and Estimation (ISBN 0-387-94173-8))
(en) Harry L. Van Trees, Detection, Estimation, and Modulation Theory, Part 1 (ISBN 0-471-09517-6, lire en ligne)
(en) Dan Simon, Optimal State Estimation: Kalman, H-infinity, and Nonlinear Approaches (lire en ligne)
(en) Ali H. Sayed, Adaptive Filters, Wiley, NJ, 2008 (ISBN 978-0-470-25388-5).
(en) Ali H. Sayed, Fundamentals of Adaptive Filtering, Wiley, NJ, 2003 (ISBN 0-471-46126-1).
(en) Thomas Kailath, Ali H. Sayed et Babak Hassibi, Linear Estimation, Prentice-Hall, NJ, 2000 (ISBN 978-0-13-022464-4).
(en) Babak Hassibi, Ali H. Sayed et Thomas Kailath, Indefinite Quadratic Estimation and Control: A Unified Approach to H² and H^$\infty$ Theories, Society for Industrial & Applied Mathematics (SIAM), PA, 1999 (ISBN 978-0-89871-411-1).
(en) V.G.Voinov et M.S.Nikulin, Unbiased estimators and their applications. Vol.1: Univariate case, Kluwer Academic Publishers, 1993 (ISBN 0-7923-2382-3).
(en) V.G.Voinov et M.S.Nikulin, Unbiased estimators and their applications. Vol.2: Multivariate case, Kluwer Academic Publishers, 1996 (ISBN 0-7923-3939-8).

Liens externes

(en) Cet article est partiellement ou en totalité issu de l’article de Wikipédia en anglais intitulé « Estimation theory » (voir la liste des auteurs).

Sur les autres projets Wikimedia :

Théorie de l'estimation, sur Wikimedia Commons

Portail de l'analyse

[4] Le maximum de l'échantillon n'excède jamais le maximum de la population, mais peut lui être inférieur, ce qui en fait un estimateur biaisé : il va tendre à sous-estimer le maximum de la population.

[1] (en) E. Walter et L. Pronzato, Identification of Parametric Models from Experimental Data, London, England, Springer-Verlag, 1997

[Johnson-2] {a et b} (en) Roger Johnson, « Estimating the Size of a Population », Teaching Statistics, vol. 16, n^o 2 (Summer),‎ 1994, p. 50–52 (DOI 10.1111/j.1467-9639.1994.tb00688.x)

[Johnson2-3] (en) Roger Johnson, Getting the Best from Teaching Statistics, 2006 (lire en ligne [archive du 20 novembre 2008])

[1]

[2]

[3]

[N 1]