Utilisateur:Tbapari/Brouillon

Méthodes d'identification (sens inverse)

modifier

A partir :

  • d'observations collectées dans un échantillon,
  • d'un ou de types de lois de distribution candidates imposées par l'expérimentateur, la charge lui étant laissée de s'assurer du réalisme desdites lois pour représenter le phénomène qu'il observe,

ces méthodes ont pour but de déterminer :

  • si la grandeur observée provient d'une distribution unique ou d'un mélange de distributions,
  • de quantifier le caractère significatif de l'hypothèse de mélange par rapport à l'absence de mélange,
  • de déterminer les paramètres des lois impliquées ainsi que les proportions du mélange.

Le cadre est restreint aux analyses univariées.

Méthode Kernel Mean Matching (KMM)

modifier

Estimation simultanée des deux paramètres

modifier

Cette section décrit l'estimation des deux bornes   de la distribution uniforme continue  , au vu d'un échantillon de n individus.

Soient   et   les estimateurs respectifs des bornes inférieure   et supérieure   de la distribution mère, construits sur la base de l'échantillon contenant les   modalités de la variable aléatoire   issues de la distribution  .

La méthode du maximum de vraisemblance aboutit à la sélection des minimum et maximum empiriques :

 

Ce couple d'estimateurs est biaisé : la probabilité qu'un n-échantillon capture le minimum   ou le maximum   permis par la distribution mère étant quasi-nulle, la moyenne d'un grand nombre d'observations sur de tels n-échantillons ne converge pas sur les bornes de ladite distribution mère :

 

La démonstration est produite plus bas.

Loi de distribution régissant ces estimateurs biaisés

modifier

Les densités de probabilité sont notées en minuscules (par ex.  ), les fonctions de répartition sont notées en majuscules (par ex.  ).

Densité de probabilité associée au couple d'estimateurs biaisés
modifier

 

Lois marginales régissant les minimum et maximum empiriques
modifier

Concernant l'estimateur de la borne inférieure   :

 

Par une démonstration similaire, on obtient pour l'estimateur de la borne supérieure   :

 


Convergence de ces estimateurs

modifier

La définition de la convergence d'un estimateur est donnée dans le document référencé [1].

Concernant l'estimateur de la borne inférieure (  sur un n-échantillon) :   car aucune valeur inférieure à a ne peut être observée. Donc :

 

Une démonstration similaire s'applique pour l'estimateur de la borne supérieure.

  forme donc un couple d'estimateurs convergents.

Biais de ces estimateurs

modifier

Lorsque l'on multiplie les échantillons (de taille   donnée), la moyenne des observations ne tend pas vers le couple de bornes   de la distribution mère :

 

Ces deux estimateurs ne sont qu'asymptotiquement sans biais[1], i.e. lorsque la taille   de l'échantillon tend vers l'infini.

Recherche d'estimateurs sans biais

modifier

Le couple d'estimateurs   défini ci-dessous est sans biais[2] :

 
Le calcul de ces estimateurs (avec ou sans biais) ne nécessite pas la connaissance des paramètres   de la distribution mère.
Les lois de distribution qui régissent le couple d'estimateurs sans biais sont plus complexes à déterminer. Le document [2] donne les lois suivantes :
Densité de probabilité associée au couple d'estimateurs sans biais
modifier
 
Lois marginales régissant chacun des deux estimateurs sans biais
modifier

Sachant que la variable   admet comme support l'intervalle   :

 

Sachant que la variable   admet comme support l'intervalle   :

 


Intervalle de pari

modifier

On considère ici :

  • une loi mère uniforme   donnée et connue,
  • le couple d'estimateurs avec biais formé par le minimum   et le maximum   empiriques déterminés sur un n-échantillon.

Les estimateurs considérés sont ceux avec biais car :

  • leurs lois de distribution sont simples à manipuler ;
  • le document référencé [2] montre que construire des intervalles de pari à partir des estimateurs sans biais n'aboutit pas in fine à des intervalles plus réduits pour un niveau de confiance donné, et en explique la raison.

On cherche à connaître comment se répartissent les n-échantillons possibles formés à partir de la distribution mère  , en plaçant dans le plan   :

  • sur l'axe des abscisses, la borne inférieure   de la distribution mère et les minima empiriques des échantillons ;
  • sur l'axe des ordonnées, la borne supérieure   de la distribution mère et les maxima empiriques des échantillons.

On note :

 
 
Zone du plan où l'on peut trouver des des échantillons issus de U (a,b)

La distribution mère   et la construction des estimateurs imposent la hiérarchie suivante :  . Les échantillons issus de cette loi mère sont tous situés à l'intérieur du triangle rectangle formé par la droite  , la droite   et la première bissectrice (cf. figure ci-contre).

Un bon échantillon (i.e. un échantillon représentatif de sa population mère) se caractérise par :

  • un minimum empirique   proche de  
  • et un maximum empirique   proche de  

Le risque de pari   associé à un échantillon   est défini par la probabilité de trouver un échantillon plus mauvais que lui, i.e. présentant :

  • un minimum empirique supérieur ou égal à  ,
  • ou un maximum empirique inférieur ou égal à  
Intervalle de pari sur le minimum empirique
modifier
 
Intervalle de pari sur le minimum empirique d'un échantillon issu de U (a,b)

L'expérimentateur choisit son risque de pari  . Le risque de pari sur le minimum empirique est défini par l'équation suivante :

 

La surface de pari sur le minimum empirique au niveau de confiance   rassemble les échantillons qui vérifient :   et  .

Intervalle de pari sur le maximum empirique
modifier
 
Intervalle de pari sur le maximum empirique d'un échantillon issu de U (a,b)

De façon similaire, le risque de pari sur le maximum empirique est défini par l'équation suivante :

 

La surface de pari sur le maximum empirique au niveau de confiance   rassemble les échantillons qui vérifient :   et  .

Surface de pari sur les deux bornes
modifier

La surface de pari est celle qui capture la proportion   des échantillons formés à partir d'une population mère   donnée et connue.

 
Choix de la forme de la surface de pari, représenté dans les coordonnées réduites  

Le problème dépend de la forme que l'on aura choisi de donner à cette surface, qui peut être un carré, un triangle, un quart de cercle, ... On choisit ici un triangle rectangle, de sommet   et dont l'hypoténuse est parallèle à la première bissectrice (cf. figure ci-contre). La raison est que la densité de probabilité associée au couple  est constante le long d'un lieu  . Ceci permet de découper l'espace suivant une ligne iso-densité, minimisant ainsi la surface de pari pour capturer un effectif donné.

Les variables réduites classiques pour les distributions uniformes sont introduites afin de simplifier les calculs qui suivent :

 

Les relations de conversion du domaine réel en domaine réduit sont données par le tableau ci-dessous :

Échantillon {m ; M} à population {a ; b} donnée Représentation adimensionnée Population {a ; b} à échantillon {m ; M} donné
     
   
     
     
     
     

Exprimée dans le plan des coordonnées réduites, la surface pari au niveau de confiance   est constituée par l'intérieur du triangle rectangle de sommets :

 

La marge réduite   est reliée au risque de pari   par l'équation suivante :

 

 
Marge réduite = f (effectif de l'échantillon, risque de pari

L'équation liant la marge réduite   au risque de pari   peut être résolue par la méthode du point fixe : la suite   définie ci-dessous converge rapidement vers la solution, même avec une initialisation forfaitaire :

 
Surface pari au niveau de confiance   tracée dans le plan des coordonnées de l'expérimentateur

 

Le lieu des solutions est tracé ci-contre, en fonction de l'effectif de l'échantillon et du risque de pari  .

Replacée dans le plan des coordonnées correspondant au problème réel de l'expérimentateur, la surface pari au niveau de confiance   est constituée par l'intérieur du triangle rectangle de sommets :

 

Surface de confiance

modifier

Le point de vue est inversé par rapport à la section précédente :

  • le n-échantillon est connu, et le couple des minimum et maximum empiriques obtenus est   ;
  • on veut connaître quelles populations mères   auraient pu générer cet échantillon, au niveau de confiance   choisi par l'expérimentateur.
 
Surface de confiance au niveau de confiance   tracée dans le plan des coordonnées de l'expérimentateur

Il s'agit donc de recenser les populations mères qui contiennent l'échantillon en question dans leurs surfaces de pari respectives au niveau de confiance  .

L'intégrale calculée lors de la démonstration qui établit la surface de pari en coordonnées réduites   reste inchangée, quelles que soient les raisons qui font varier ces coordonnées réduites :

  • les variations du couple   à population mère   fixée,
  • ou bien les variations des bornes   de la population mère à échantillon   fixé

La surface de confiance est obtenue par déréduction de la surface établie en coordonnées   pour le niveau de confiance  , en cherchant   à échantillon   fixé. Cette surface de confiance est constituée par l'intérieur du triangle rectangle de sommets :

 
  1. a et b Jean-Jacques Ruch, « Statistiques : estimation », sur www.google.fr (consulté le )
  2. a b et c Christophe Boilley, « Estimation des bornes d'une loi uniforme », sur Classeur numérique de Christophe Boilley, (consulté le )