Score (statistiques)

Le score (ou informant^[1]) est, en statistiques, le gradient de la fonction log-vraisemblance par rapport aux paramètres. La valeur du score correspondant à un point donné de l'ensemble des paramètres indique la pente de courbe de la fonction log-vraisemblance en ce point, et donc sa sensibilité à des petites variations des valeurs des paramètres autour du point. Si la fonction log-vraisemblance est continue, la valeur du score s'annule aux extremums (maximums ou minimums) locaux. Lors d'une estimation par maximum de vraisemblance, on utilise cette propriété afin de trouver les valeurs des paramètres qui maximisent la fonction de vraisemblance.

Le score est une fonction que l'on calcule à partir des valeurs des données observées, qui peuvent souffrir de biais d'échantillonnage. Il existe un test statistique appelé test de score dans lequel le paramètre est supposé fixé à une valeur donnée. De plus, le rapport de deux fonctions de vraisemblance en deux valeurs distinctes de paramètres peut être vu comme l'intégrale de la fonction de score entre ces bornes^[2].

Définition modifier

Étant donnée une fonction de vraisemblance ${\mathcal {L}}({\theta })$ d'une variable aléatoire X, dépendante d'un vecteur de paramètres θ de dimension m, le score s est le gradient du logarithme népérien de la vraisemblance^[3], c'est-à-dire le vecteur des dérivées partielles de $\log {\mathcal {L}}({\theta })$ .

s(\theta )=\nabla _{\theta }\log {\mathcal {L}}(\theta )=\left({\frac {\partial \log {\mathcal {L}}(\theta )}{\partial {\theta }_{i}}}\right)_{i=1...m}

Le score s est donc un vecteur-ligne de dimension m dont les composantes nous indiquent la sensibilité de la vraisemblance aux variations des différents paramètres θ_i

Propriétés modifier

Espérance modifier

Le score est en principe une fonction de θ, mais sa valeur dépend également des valeurs observées $\mathbf {x} =(x_{1},x_{2},\ldots x_{T})$ pour lesquelles la fonction de vraisemblance est évaluée. L'échantillonnage de ces observations étant lui-même aléatoire, on peut vouloir calculer l'espérance du score sur tout l'espace d'échantillonnage.

Sous certaines conditions de régularité sur les fonctions de densité des variables aléatoires^[4]^,^[5], l'espérance du score est nulle à la vraie valeur du paramètre θ^*. On le démontre en rappelant le lien entre la vraisemblance ${\mathcal {L}}$ et la fonction de densité de probabilité ${\mathcal {L}}(\theta ;x)=f(x;\theta )$ . Si on note ${\mathcal {X}}$ l'espace d’échantillonnage de la variable aléatoire, alors on a:

{\begin{aligned}\mathbb {E} (s\mid \theta ^{*})&=\int _{\mathcal {X}}f(x;\theta ^{*})\,\nabla _{\theta }\log {\mathcal {L}}(\theta ^{*};x)\,\mathrm {d} x\\&=\int _{\mathcal {X}}f(x;\theta ^{*}){\frac {1}{f(x;\theta ^{*})}}\nabla _{\theta }f(x;\theta ^{*})\,\mathrm {d} x\\&=\int _{\mathcal {X}}\nabla _{\theta }f(x;\theta ^{*})\,\mathrm {d} x\end{aligned}}

Si l'on suppose de plus que f vérifie les hypothèses de régularité permettant la dérivation sous l'intégrale :

\int _{\mathcal {X}}\nabla _{\theta }f(x;\theta ^{*})\,\mathrm {d} x=\nabla _{\theta }\int _{\mathcal {X}}f(x;\theta ^{*})\,\mathrm {d} x

Or l'intégrale de toute fonction de densité f sur son domaine ${\mathcal {X}}$ vaut 1; son gradient est donc nul, soit

\mathbb {E} (s\mid \theta ^{*})=0

En conséquence, l'espérance du score à la valeur réelle du paramètre θ^* est nulle. Ainsi, si l'on réalise plusieurs observations de la variable X et que l'on calcule à chaque fois le score connaissant la véritable valeur des paramètres de la distribution, alors la moyenne des scores doit tendre vers zéro.

Variance modifier

La variance du score au vrai paramètre peut être exprimée par $\mathbb {V} (s(\theta ^{*}))=\mathbb {E} (s(\theta ^{*})s(\theta ^{*})^{\mathsf {T}})$ l'espérance de s étant nulle en θ^* d'après le résultat précédent.

Si l'on dérive l'espérance de s par rapport au paramètre θ, ce qui revient à dériver deux fois la log-vraisemblance, on obtient:

{\begin{aligned}{\frac {\partial }{\partial \theta ^{\mathsf {T}}}}\mathbb {E} (s\mid \theta )&={\frac {\partial }{\partial \theta ^{\mathsf {T}}}}\int _{\mathcal {X}}{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}f(x;\theta )\,dx\\[6pt]&=\int _{\mathcal {X}}{\frac {\partial }{\partial \theta ^{\mathsf {T}}}}\left\{{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}f(x;\theta )\right\}\,dx\\[6pt]&=\int _{\mathcal {X}}\left\{{\frac {\partial ^{2}\log {\mathcal {L}}(\theta ;X)}{\partial \theta \partial \theta ^{\mathsf {T}}}}f(x;\theta )+{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}{\frac {\partial f(x;\theta )}{\partial \theta ^{\mathsf {T}}}}\right\}\,dx\\[6pt]&=\int _{\mathcal {X}}{\frac {\partial ^{2}\log {\mathcal {L}}(\theta ;X)}{\partial \theta \partial \theta ^{\mathsf {T}}}}f(x;\theta )\,dx+\int _{\mathcal {X}}{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}{\frac {\partial f(x;\theta )}{\partial \theta ^{\mathsf {T}}}}\,dx\\[6pt]&=\int _{\mathcal {X}}{\frac {\partial ^{2}\log {\mathcal {L}}(\theta ;X)}{\partial \theta \partial \theta ^{\mathsf {T}}}}f(x;\theta )\,dx+\int _{\mathcal {X}}{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta ^{\mathsf {T}}}}f(x;\theta )\,dx\\[6pt]&=\mathrm {E} \left({\frac {\partial ^{2}\log {\mathcal {L}}(\theta ;X)}{\partial \theta \partial \theta ^{\mathsf {T}}}}\right)+\operatorname {E} \left({\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}\left[{\frac {\partial \log {\mathcal {L}}(\theta ;X)}{\partial \theta }}\right]^{\mathsf {T}}\right)\end{aligned}}

Au vrai paramètre θ* cette espérance est nulle, on a donc:

$\mathbb {E} \left({\frac {\partial \log {\mathcal {L}}(\theta ^{*};X)}{\partial \theta }}\left[{\frac {\partial \log {\mathcal {L}}(\theta ^{*};X)}{\partial \theta }}\right]^{\mathsf {T}}\right)=-\mathbb {E} \left({\frac {\partial ^{2}\log {\mathcal {L}}(\theta ^{*};X)}{\partial \theta \partial \theta ^{\mathsf {T}}}}\right)$

La variance du score est donc égale à l'opposée de l'espérance de la hessienne de la log-vraisemblance^[6].

Cette quantité est exactement l'information de Fisher, notée ${\mathcal {I}}(\theta )$ . L'information de Fisher est une espérance sur la distribution des données et ne dépend donc pas des observations de la variable $X$ . On l'utilise fréquemment pour comparer deux méthodes d'observation d'un processus aléatoire.

Exemples modifier

Processus de Bernoulli modifier

Supposons qu'on ait observé n réalisations d'une variable de Bernoulli dont la probabilité de succès est θ. Sur ces n observations, on a compté A succès et B échecs.

La vraisemblance ${\mathcal {L}}$ d'un paramètre θ quelconque est alors:

{\mathcal {L}}(\theta ;A,B)={\frac {(A+B)!}{A!B!}}\theta ^{A}(1-\theta )^{B},

le score s est donc :

s={\frac {\partial \log {\mathcal {L}}}{\partial \theta }}={\frac {1}{\mathcal {L}}}{\frac {\partial {\mathcal {L}}}{\partial \theta }}={\frac {A}{\theta }}-{\frac {B}{1-\theta }}.

On peut maintenant vérifier que l’espérance du score est nulle. En effet l’espérance de A est nθ et que l’espérance de B est n (1 − θ ), l'espérance de s est

\mathbb {E} (s)={\frac {n\theta }{\theta }}-{\frac {n(1-\theta )}{1-\theta }}=n-n=0.

On vérifie bien que l'espérance du score est nulle. On peut également calculer la variance :

{\begin{aligned}\mathbb {V} (s)&=\mathbb {V} \left({\frac {A}{\theta }}-{\frac {n-A}{1-\theta }}\right)\\&=\mathbb {V} \left(A\left({\frac {1}{\theta }}+{\frac {1}{1-\theta }}\right)\right)\\&=\left({\frac {1}{\theta }}+{\frac {1}{1-\theta }}\right)^{2}\mathbb {V} (A)\\&={\frac {n}{\theta (1-\theta )}}.\end{aligned}}

Applications modifier

Algorithme du score modifier

L'algorithme du score (ou score de Fisher) est une méthode itérative permettant de déterminer numériquement l'estimateur du maximum de vraisemblance.

Tests statistiques liés au score modifier

Article détaillé : Test du multiplicateur de Lagrange.

Le score $s$ étant à la fois une fonction de θ et des observations $\mathbf {x} =(x_{1},x_{2},\ldots x_{T})$ , ce n'est donc en général pas une statistique. Cependant, dans certaines applications, on peut évaluer le score pour une certaine valeur θ₀, par exemple dans le cas d'une hypothèse nulle sur la distribution sous-jacente. Intuitivement, si l'estimateur restreint à θ₀ est proche du maximum de vraisemblance, le score ne devrait pas différer de zéro de plus que l'erreur d'échantillonnage. On est donc amené à rejeter l'hypothèse nulle si le score est trop élevé : c'est le test du score ou test du multiplicateur de Lagrange. En 1948, C. R. Rao a démontré que le carré du score divisé par la matrice d'information suit une distribution asymptotique χ² sous l'hypothèse nulle^[7].

On notera que dans le cas du test du rapport de vraisemblance, le rapport peut s'exprimer par la relation suivante :

-2\left[\log {\mathcal {L}}(\theta _{0})-\log {\mathcal {L}}({\hat {\theta }})\right]=2\int _{\theta _{0}}^{\hat {\theta }}{\frac {d\,\log {\mathcal {L}}(\theta )}{d\theta }}\,d\theta =2\int _{\theta _{0}}^{\hat {\theta }}s(\theta )\,d\theta

le rapport de vraisemblance est donc lié à l'aire sous la courbe de la fonction score entre $\theta _{0}$ et ${\hat {\theta }}$ ^[8].

Méthode des scores (apprentissage automatique) modifier

En apprentissage automatique, on est amené à vouloir représenter une distribution inconnue $\pi (x)$ à partir d'un nombre fini d'échantillons, par exemple dans le cadre d'un modèle génératif^[9]. Il est possible d'approximer la fonction score $s_{\theta }\approx \nabla _{x}\log p(x)$ , par exemple à l'aide d'un réseau de neurones, puis de générer de nouveaux éléments issus de la distribution inconnue à l'aide de cette approximation.

Histoire modifier

Le terme de « fonction de score » peut à première vue sembler sans rapport avec son sens actuel, de dérivée de la fonction log-vraisemblance d'un modèles statistiques.

Le concept de « fonction de score » a été introduit pour la première fois par le statisticien britannique Ronald Fisher dans un article de 1935^[10]. Fisher décrivit le score dans le contexte de l'analyse génétique, pour les familles où un parent présentait une anomalie génétique dominante. Au fil du temps, l'application et la signification de la « fonction de score » ont évolué, s'écartant de son contexte d'origine mais conservant ses principes fondateurs^[11]^,^[12].

L'utilisation originale du terme par Fisher se situait dans le contexte de l'étude de familles dans lesquelles un parent présente une anomalie génétique. Leurs enfants étaient classés en quatre catégories selon qu'ils avaient hérité de l'anomalie ou non, et selon qu'ils étaient homozygotes ou hétérozygotes. À chaque famille était attribué un score calculé en fonction du nombre d'enfants dans chaque catégorie. Ce score fut utilisé pour estimer un « paramètre de liaison », qui décrivait la probabilité que l'anomalie génétique soit héréditaire. Fisher évalua l'efficacité de sa méthode en la comparant à une prédiction basée sur ce qu'il appela le « score idéal , celui-ci étant défini comme la dérivée du logarithme de la densité d'échantillonnage, comme mentionné à la page 193 de son ouvrage^[10].

Le terme de « score » a ensuite évolué au fil de recherches ultérieures, s'étendant notamment au-delà de l'application initiale à la génétique. Divers auteurs ont adapté la méthodologie originale de Fisher à des contextes statistiques plus généraux, dans lesquels , le terme de « score » ou « score efficace » faisait référence à la dérivée de la fonction log-vraisemblance du modèle statistique en question. L'article de C. R. Rao, introduisit un « test de score efficace » utilisant la dérivée de la fonction log-vraisemblance acheva de populariser le terme^[13].

Références modifier

↑ « Informant - Encyclopedia of Mathematics », sur encyclopediaofmath.org (consulté le 2 janvier 2024)
↑ Andrew Pickles, An introduction to likelihood analysis, Geo Books, coll. « Concepts and techniques in modern geography », 1985 (ISBN 978-0-86094-190-3, lire en ligne), p. 24-29
↑ Jean-Éric Campagne, Notes et commentaires au sujet des conférences de Stéphane Mallat du Collège de France : Modèles multi-échelles et réseaux de neurones convolutifs, 2022, 136 p. (lire en ligne), p. 53
↑ Robert J. Serfling, Approximation Theorems of Mathematical Statistics, New York, John Wiley & Sons, 1980 (ISBN 0-471-02403-1, lire en ligne ), 145
↑ Edward Greenberg et Charles E. Jr. Webster, Advanced Econometrics: A Bridge to the Literature, New York, John Wiley & Sons, 1983 (ISBN 0-471-09077-8, lire en ligne), p. 25
↑ Denis Sargan, Lectures on Advanced Econometrics, Oxford, Basil Blackwell, 1988, 16–18 p. (ISBN 0-631-14956-2)
↑ Rao, « Large sample tests of statistical hypotheses concerning several parameters with applications to problems of estimation », Mathematical Proceedings of the Cambridge Philosophical Society, vol. 44, n^o 1,‎ 1948, p. 50–57 (DOI 10.1017/S0305004100023987, Bibcode 1948PCPS...44...50R, S2CID 122382660)
↑ Buse, « The Likelihood Ratio, Wald, and Lagrange Multiplier Tests: An Expository Note », The American Statistician, vol. 36, n^o 3a,‎ 1982, p. 153–157 (DOI 10.1080/00031305.1982.10482817)
↑ (en) Yang Song et Jascha Sohl-Dickstein, « Score-Based Generative Modeling through Stochastic Differential Equations », sur arXiv.org, 26 novembre 2020 (consulté le 3 janvier 2024)
↑ ^{a et b} Fisher, Ronald Aylmer. "The detection of linkage with 'dominant' abnormalities." Annals of Eugenics 6.2 (1935): 187-201.
↑ Ben (https://stats.stackexchange.com/users/173082/ben), Interpretation of "score", URL (version: 2019-04-17): https://stats.stackexchange.com/q/342374
↑ Miller, Jeff. "Earliest Known Uses of Some of the Words of Mathematics (S)." Mathematics History Notes. Last revised on April 14, 2020. https://mathshistory.st-andrews.ac.uk/Miller/mathword/s/
↑ Radhakrishna Rao, C. (1948). Large sample tests of statistical hypotheses concerning several parameters with applications to problems of estimation. Mathematical Proceedings of the Cambridge Philosophical Society, 44(1), 50-57. doi:10.1017/S0305004100023987

Articles connexes modifier

Portail des probabilités et de la statistique

[1] « Informant - Encyclopedia of Mathematics », sur encyclopediaofmath.org (consulté le 2 janvier 2024)

[2] Andrew Pickles, An introduction to likelihood analysis, Geo Books, coll. « Concepts and techniques in modern geography », 1985 (ISBN 978-0-86094-190-3, lire en ligne), p. 24-29

[3] Jean-Éric Campagne, Notes et commentaires au sujet des conférences de Stéphane Mallat du Collège de France : Modèles multi-échelles et réseaux de neurones convolutifs, 2022, 136 p. (lire en ligne), p. 53

[4] Robert J. Serfling, Approximation Theorems of Mathematical Statistics, New York, John Wiley & Sons, 1980 (ISBN 0-471-02403-1, lire en ligne ), 145

[5] Edward Greenberg et Charles E. Jr. Webster, Advanced Econometrics: A Bridge to the Literature, New York, John Wiley & Sons, 1983 (ISBN 0-471-09077-8, lire en ligne), p. 25

[6] Denis Sargan, Lectures on Advanced Econometrics, Oxford, Basil Blackwell, 1988, 16–18 p. (ISBN 0-631-14956-2)

[7] Rao, « Large sample tests of statistical hypotheses concerning several parameters with applications to problems of estimation », Mathematical Proceedings of the Cambridge Philosophical Society, vol. 44, n^o 1,‎ 1948, p. 50–57 (DOI 10.1017/S0305004100023987, Bibcode 1948PCPS...44...50R, S2CID 122382660)

[8] Buse, « The Likelihood Ratio, Wald, and Lagrange Multiplier Tests: An Expository Note », The American Statistician, vol. 36, n^o 3a,‎ 1982, p. 153–157 (DOI 10.1080/00031305.1982.10482817)

[9] (en) Yang Song et Jascha Sohl-Dickstein, « Score-Based Generative Modeling through Stochastic Differential Equations », sur arXiv.org, 26 novembre 2020 (consulté le 3 janvier 2024)

[Fisher1935-10] {a et b} Fisher, Ronald Aylmer. "The detection of linkage with 'dominant' abnormalities." Annals of Eugenics 6.2 (1935): 187-201.

[11] Ben (https://stats.stackexchange.com/users/173082/ben), Interpretation of "score", URL (version: 2019-04-17): https://stats.stackexchange.com/q/342374

[12] Miller, Jeff. "Earliest Known Uses of Some of the Words of Mathematics (S)." Mathematics History Notes. Last revised on April 14, 2020. https://mathshistory.st-andrews.ac.uk/Miller/mathword/s/

[13] Radhakrishna Rao, C. (1948). Large sample tests of statistical hypotheses concerning several parameters with applications to problems of estimation. Mathematical Proceedings of the Cambridge Philosophical Society, 44(1), 50-57. doi:10.1017/S0305004100023987

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]