En statistiques, un L-estimateur est un estimateur qui est une combinaison linéaire de statistiques d'ordre des mesures (également appelée L-statistique). Cela peut être aussi petit qu'un seul point, comme dans la médiane (d'un nombre impair de valeurs), ou autant que tous les points, comme dans la moyenne.

Les L-estimateurs simples peuvent être estimés visuellement à partir d'un diagramme en boîte à moustaches et incluent l'écart interquartile, le midhinge, l'étendue, le milieu de gamme et la trimoyenne .

Les principaux avantages des L-estimateurs sont qu'il s'agit souvent des statistiques extrêmement simples et souvent robustes : en supposant des données triées, ils sont très faciles à calculer et à interpréter, et sont souvent résistants aux valeurs aberrantes. Ils sont donc utiles dans les statistiques robustes, comme statistiques descriptives, dans l'enseignement de la statistique et lorsque le calcul est difficile. Cependant, ils sont inefficaces et, dans les temps modernes, on leur préfère les M-estimateurs, plus robustes mais bien que ceux-ci soient beaucoup plus difficiles à calculer. Dans de nombreuses circonstances, les L-estimateurs sont raisonnablement efficaces et donc adéquats pour une première estimation.

Exemples modifier

Un exemple basique est la médiane. Étant donné n valeurs  , si   est impair, la médiane est égale à  , la   -ème statistique d'ordre ; si   est pair, c'est la moyenne de deux statistiques d'ordre :   . Ce sont deux combinaisons linéaires de statistiques d’ordre, et la médiane est donc un exemple simple de L-estimateur.

Une liste d'exemples plus détaillée comprend :

Il faut noter que certaines d'entre elles (comme la médiane ou la moyenne) sont des mesures de tendance centrale et sont utilisés comme estimateurs d'un paramètre de localisation, comme la moyenne d'une distribution normale, tandis que d'autres (comme l'étendue ou l'étendue tronquée) sont des mesures de dispersion statistique et sont utilisées comme estimateurs d'un paramètre d'échelle, tel que l'écart type d'une distribution normale.

Les L-estimateurs peuvent également mesurer la forme d’une distribution, au-delà de l’emplacement et de l’échelle. Par exemple, la charnière médiane moins la médiane est un L-estimateur à trois termes qui mesure l'asymétrie, et d'autres différences de résumés intermédiaires donnent des mesures d'asymétrie à différents points de la queue. [1]

Les exemples de L-moments sont des L-estimateurs pour le L-moment de la population et ont des expressions plutôt complexes. Les L-moments sont généralement traités séparément ; voir cet article pour plus de détails.

Robustesse modifier

Les L-estimateurs sont souvent statistiquement résistants, ayant un point de rupture élevé. Ceci est défini comme la fraction des mesures qui peut être arbitrairement modifiée sans que l'estimation résultante ne tende vers l'infini (c'est-à-dire « s'effondre »). Le point de rupture d'un L-estimateur est donné par la statistique d'ordre la plus proche du minimum ou du maximum : par exemple, la médiane a un point de rupture de 50 % (le plus élevé possible), et une moyenne tronquée ou winsorisée de n % a un point de rupture de n %.

Tous les L-estimateurs ne sont pas robustes ; s'il inclut le minimum ou le maximum, alors il a un point de rupture de 0. Ces L-estimateurs non robustes incluent le minimum, le maximum, la moyenne et le milieu de gamme. Les équivalents tronqués sont cependant robustes.

Les L-estimateurs robustes utilisés pour mesurer la dispersion, tels que l'écart interquartile, fournissent des mesures d'échelle robustes.

Applications modifier

Dans la pratique, dans les statistiques robustes, les L-estimateurs ont été remplacés par des M-estimateurs, qui fournissent des statistiques robustes qui ont également une efficacité relative élevée, au prix d'être beaucoup plus complexes et opaques sur le plan informatique.

Cependant, la simplicité des L-estimateurs signifie qu'ils sont faciles à interpréter et à visualiser, et les rend adaptés aux statistiques descriptives et à l'enseignement de la statistique ; beaucoup peuvent même être calculés mentalement à partir d'un résumé à cinq nombres ou d'un résumé à sept nombres, ou visualisés à partir d'un diagramme en boîte à moustaches. Les L-estimateurs jouent un rôle fondamental dans de nombreuses approches de statistiques non paramétriques.

Bien que non paramétriques, les L-estimateurs sont fréquemment utilisés pour l'estimation des paramètres, comme l'indique leur nom, bien qu'ils doivent souvent être ajustés pour produire un estimateur convergent et sans biais. Le choix du L-estimateur et de l'ajustement dépend de la distribution dont le paramètre est estimé.

Par exemple, lors de l'estimation d'un paramètre de localisation, pour une distribution symétrique, un L-estimateur symétrique (tel que la médiane ou le midhinge) sera sans biais. Cependant, si la distribution est asymétrique, les L-estimateurs symétriques seront généralement biaisés et nécessiteront un ajustement. Par exemple, dans une distribution asymétrique, l'asymétrie non paramétrique (et les coefficients d'asymétrie de Pearson) mesurent le biais de la médiane en tant qu'estimateur de la moyenne.

Lors de l'estimation d'un paramètre d'échelle, par exemple lors de l'utilisation d'un L-estimateur comme mesure d'échelle robuste, par exemple pour estimer la variance de la population ou l'écart type de la population, il faut généralement multiplier par un facteur d'échelle pour en faire un estimateur cohérent et sans biais ; voir paramètre d'échelle : estimation.

Par exemple, en divisant l'écart interquartile par   (en utilisant la fonction d'erreur) en fait un estimateur consistent et sans biais de l'écart type de la population si les données suivent une distribution normale.

Les L-estimateurs peuvent également être utilisés comme statistiques à part entière – par exemple, la médiane est une mesure de localisation et l’écart interquartile est une mesure de dispersion. Dans ces cas, les statistiques de l'échantillon peuvent servir d'estimateurs de leur propre espérance ; par exemple, la médiane de l'échantillon est un estimateur de la médiane de la population.

Avantages modifier

Au-delà de la simplicité, les L-estimateurs sont également souvent faciles à calculer et robustes.

En supposant des données triées, les L-estimateurs impliquant seulement quelques points peuvent être calculés avec beaucoup moins d'opérations mathématiques que des estimations efficaces. [2] [3] Avant l'avènement des calculatrices électroniques et des ordinateurs, ceux-ci constituaient un moyen utile d'extraire une grande partie des informations d'un échantillon avec un minimum de travail. Ceux-ci sont restés utilisés dans la pratique au début et au milieu du XXe siècle av. J.-C., lorsque le tri automatisé des données des cartes perforées était possible, mais le calcul restait difficile, [2] et est toujours utilisé aujourd'hui, pour les estimations à partir d'une liste de valeurs numériques dans des formats non lisibles par une machine, où la saisie des données est plus coûteuse que le tri manuel. Ils permettent également une estimation rapide.

Les L-estimateurs sont souvent beaucoup plus robustes que les méthodes conventionnelles à efficacité maximale : la médiane est statistiquement résistante au maximum, ayant un point de rupture de 50 %, et le milieu de gamme tronqué de X % a un point de rupture de X %, tandis que la moyenne de l'échantillon (qui est efficace au maximum) est d'une robustesse minimale, se décomposant pour une seule valeur aberrante.

Efficacité modifier

Bien que les L-estimateurs ne soient pas aussi efficaces que d’autres statistiques, ils ont souvent une efficacité relative raisonnablement élevée et montrent qu’une grande partie des informations utilisées dans l’estimation peut être obtenue en utilisant seulement quelques points – un, deux ou trois peuvent suffire. Alternativement, ils montrent que les statistiques d'ordre contiennent une quantité importante d’informations.

Par exemple, en termes d’efficacité, étant donné un échantillon d’un paramètre numérique normalement distribué, la moyenne arithmétique de la population peut être estimée avec une efficacité maximale en calculant la moyenne de l’échantillon – en additionnant tous les membres de l’échantillon et en divisant par le nombre de membres.

Cependant, pour un ensemble de données important (plus de 100 points) provenant d'une population symétrique, la moyenne peut être estimée de manière raisonnablement efficace par rapport à la meilleure estimation par les L-estimateurs. À partir d'un seul point, cela se fait en prenant la médiane de l'échantillon, sans aucun calcul (autre que le tri) ; cela donne une efficacité de 64% ou mieux (pour tout n). En utilisant deux points, une estimation simple est la midhinge (le milieu de gamme réduit de 25 %), mais une estimation plus efficace est le milieu de gamme réduit de 29 %, c'est-à-dire en faisant la moyenne des deux valeurs à 29 % de la distance d'entrée la plus petite. et les valeurs les plus grandes : les 29e et 71e percentiles ; cela a un rendement d'environ 81 %[3]. Pour trois points, la trimoyenne (moyenne de la médiane et du midhinge) peut être utilisé, bien que la moyenne des 20e, 50e et 80e centiles donne une efficacité de 88 %. L’utilisation de points supplémentaires permet d’obtenir une efficacité plus élevée, même s’il est à noter que seulement 3 points sont nécessaires pour une efficacité très élevée.

Pour estimer l'écart type d'une distribution normale, l'intervalle interdécile mis à l'échelle donne un estimateur raisonnablement efficace, mais en prenant plutôt l'intervalle tronqué de 7 % (la différence entre le 7e et le 93e percentile) et en le divisant par 3 (correspondant à 86 % des données). d'une distribution normale se situant à moins de 1,5 écart-type de la moyenne) donne une estimation d'environ 65 % d'efficacité. [3]

Pour les petits échantillons, les L-estimateurs sont également relativement efficaces : le résumé intermédiaire du 3e point de chaque extrémité a une efficacité d'environ 84 % pour des échantillons de taille environ 10, et l'étendue divisée par n a une efficacité raisonnablement bonne pour des tailles allant jusqu'à 20, bien que celle-ci diminue avec l'augmentation de n et que le facteur d'échelle puisse être amélioré (efficacité de 85 % pour 10 points). D'autres estimateurs heuristiques pour les petits échantillons incluent l'étendue sur n (pour l'erreur standard) et l'étendue au carré sur la médiane (pour le chi carré d'une distribution de Poisson)[3].

Voir également modifier

Références modifier

  1. Velleman et Hoaglin 1981.
  2. a et b Mosteller 2006.
  3. a b c et d Evans 1955, Appendix G: Inefficient statistics, pp. 902–904.
  • (en) Robley Dunglison Evans, The Atomic Nucleus, McGraw-Hill, , 972 (ISBN 0-89874414-8, lire en ligne)
  • (en) R. Fraiman, J. Meloche, L. A. García-Escudero, A. Gordaliza, X. He, R. Maronna, V. C. J. Yohai, S. J. Sheather, J. W. McKean, C. G. Small, A. Wood, R. Fraiman et J. Meloche, « Multivariate L-estimation », Test, vol. 8, no 2,‎ , p. 255–317 (DOI 10.1007/BF02595872)
  • (en) Peter J. Huber, Robust statistics, New York, Wiley-Interscience, (ISBN 0-471-65072-2)
  • (en) Frederick Mosteller, Selected Papers of Frederick Mosteller, New York, Springer, coll. « Springer Series in Statistics », (1re éd. 1946), 69–100 (ISBN 978-0-387-20271-6, DOI 10.1007/978-0-387-44956-2_4, lire en ligne  ), « On Some Useful "Inefficient" Statistics »
  • (en) Jun Shao, Mathematical statistics, Berlin, Springer-Verlag, (ISBN 0-387-95382-5) – sec. 5.2.2
  • (en) P. F. Velleman et D. C. Hoaglin, Applications, Basics and Computing of Exploratory Data Analysis, (ISBN 0-87150-409-X, lire en ligne  )