Discussion:Intervalle de confiance

Dernier commentaire : il y a 2 mois par Ambigraphe dans le sujet Notations
Autres discussions [liste]
  • Admissibilité
  • Neutralité
  • Droit d'auteur
  • Article de qualité
  • Bon article
  • Lumière sur
  • À faire
  • Archives
  • Commons


Article incompréhensible modifier

De même que pour l'article "Ecart type" il y a quelques mois, cet article est incompréhensible par le commun des mortels. Je pense en particulier aux centaines de milliers d'enseignants non-scientifiques (et même à certains scientifiques) pour qui cette notion pourrait être très utile.

Qui pourrait :

- expliquer à quoi ça sert dans une phrase compréhensible par tous ?

- donner deux exemples ?

Merci.

Un interval de confiance sert à encadrer l'estimation d'un paramètre. Il est associé avec un certain % de confiance. Par exemple pour un intervalle de confiance à 95% on sait que le paramètre estimé à 95% de chance de se trouver dans l'intervalle de confiance. Typiquement le paramètre à calculer peut être la moyenne de certaines observations physiques (age moyen d'une population, taille moyenne, ...), une variance (coefficient de diffusion d'une particule),
Deux exemples:
godix (d) 10 décembre 2007 à 19:42 (CET)Répondre
Nouvelle version de l'article le 10 dec 2007 par Godix puis le 24 jan 2008. En espérant que c'est plus clair ainsi. HB (d) 24 janvier 2008 à 19:25 (CET)Répondre

Article contestable modifier

Je ferai des objections pour la partie qui m'intéresse, concernant le sondage:

- J'ai pris N= 1000 et S=1, ce qui me donne "p estimé = 0,1%" avec un intervalle de confiance "–0,1% à +0,3%", OR un pourcentage négatif n'a pas de sens ici ("bien moins de 0% ont une voiture verte") donc la symétrique modélisation normale n'est pas appropriée.

- La formule est invalidée par le cas S=0. En effet, la formule donne un intervalle de confiance de 0% à 0%, OR c'est faux : il suffit de considérer que ce S=0 (sur N=1000) est en fait un S<0,5 donc l'intervalle de confiance est simplement plus étroit que –0,09% à +0,19%. Ce S=0 sur N=1000 est bien un S<0,5 en ceci qu'il correspond à un vraisemblable S<5 sur 10000 et constitue le résultat le plus normal si p<0,05%.

- Il faudrait préciser que cet intervalle de confiance (dépeignant la population à partir d'un échantillon) n'a de sens que si l'échantillon est un prélèvement aléatoire au sein de la population, sans biais ni manque de représentativité par malchance. Si on avait mesuré le taux de voiture vert-pomme dans la population française 1971 sur un parking de concert hippie, on aurait pu obtenir l'intervalle de confiance 12,7% à 17,2% alors même que la valeur vraie dans la population était de 0,24% (0,23% à 0,25% selon le jour de l'année). La généralisation aveugle (même tempérée par les modèles statistiques/probabilistes) est erronée, non gage de connaissance : tout est relatif à l'hypothèse commune "cet échantillon est représentatif".

Moins que l'article c'est la méthode qui doit être critiquée. L'article stipule que la loi tend vers une loi normale ce qui veut dire qu'il faut prendre n assez grand (?) pour que la convergence soit effective. En particulier estimer p(p-1) par S/N(S/N - 1) revient à diviser par 0 quand S=0 ce qui prouve qu'alors l'estimation est inadéquate et que N n'est pas assez grand- C'est en effet le sens de votre remarque quand vous dites "il faudrait prendre N=10000 au lieu de 1000". Le défaut de cet article est de faire une présentation succincte de la méthode s'en en préciser les limites (mais déjà qu'on lui a reproché d'être illisible.... ). Votre deuxième remarque sur l'échantillon représentatif relève de la même préoccupation : comment valider cette représentativité ? L'article est donc incomplet (ce qui est évident vu sa taille) et mériterait d'être développé sur les conditions d'application. On attend un statisticien bénévole... HB (d) 26 septembre 2008 à 11:21 (CEST)Répondre

Article incomplet modifier

S'il y avait zéro voiture verte observée sur 1000, je suis curieux de savoir quel est l'intervalle de confiance au-dessus de la probabilité 0%. J'ai personnellement raisonné de manière binomiale : quelle est la probabilité A de 0 succès en 1000 tirages avec la probabilité p de voiture verte, et j'ai fait varier p de 0,001% en 0,001%, avant de faire la somme et de calculer les probabilités relatives A'=A/Somme(Ai) puis leur cumul partant de 0. Avec un tableur, c'est assez facile, et la réponse est qu'on franchit 95% cumulé entre p=0,297% et p=0,298%. Je serais intéressé de savoir si une formule donnait directement accès à cela: N=1000, S=0 --> intervalle de confiance de p à 95%: 0‰ à 2,98‰ ?

Article périmé modifier

L'approche gaussienne des intervalles de confiance relève presque des statistiques préhistoriques, du temps des tables pré-imprimées, avant l'ère de l'ordinateur. L'institut officiel américain CLSI (Clinical and Laboratory Standards Institute) préconise maintenant (guideline EP12-A2) de remplacer le score gaussien par le calcul exact binômial, ce qui fait remplacer la douteuse loi de Gauss (faite pour comptages infinis) par la loi Bêta dans les formules pour l'intervalle de confiance.

ajout 02/07/2015 par Tophe141--Tophe141 (discuter) 2 juillet 2015 à 04:22 (CEST) : Complément avec formule de calcul Excel :Répondre

Bilatéral : borne basse =BETA.INVERSE(alfa/2;S;N-S+1) ; borne haute =BETA.INVERSE(1-alfa/2;S+1;N-S) ;
Unilatéral :  borne haute =BETA.INVERSE(1-alfa;S+1;N-S)

Complément utile : intervalle de confiance d’un écart-type modifier

[avec Ecart-type : s ; Nombre de valeurs : n ; Risque de première espèce : alfa (confiance : 1 – alfa)]
Borne inférieure : s × racine[(n-1) /A] (avec A = khi² à alfa/2 , n-1)
Borne supérieure : s × racine[(n-1) /B] (avec B = khi² à 1 - alfa/2 , n-1)
Avec Excel, A et B utilisent la fonction KHIDEUX.INVERSE
Cet intervalle de confiance n’affecte que l’écart-type proprement dit, il n’est pas à inclure pour pondérer l’écart-type dans l’intervalle de confiance de la moyenne, qui est fonction de l’écart-type "brut" avec des coefficients adéquats.
--Tophe2712 (d) 17 août 2010 à 18:20 (CEST)Répondre

Intervalles de confiance : ouverts ou fermés ? modifier

Si le début de l’article les présentent comme étant fermés, une note en bas de l’article en présente un qui est ouvert. Alors, fermés ou ouverts ? Ou est-ce égal (préciser dans ce cas pourquoi) ? Moa18e (d) 29 mai 2011 à 11:23

Ne pas confondre avec l'intervalle de fluctuation modifier

Pour les gens comme moi des précisions seraient indispensables. Au symbole près <= qui remplace <, l'approximation gaussienne qui apparaît dans intervalle de fluctuation ressemble beaucoup à celle du présent article. La seule différence semble être la référence explicite à la loi de Bernoulli dans l'article «fluctuation», esquivée dans le présent article au profit d'un raisonnement... que je ne comprends pas.--Jct (d) 9 juin 2011 à 10:05 (CEST)Répondre

L'intervalle de confiance est établi à partir d'une mesure réelle pour estimer un paramètre du modèle. L'intervalle de fluctuation est établi à partir du modèle pour encadrer les mesures réelles. Les deux notions sont liées, mais leur définition diffère et les formules ne se ressemblent qu'au prix d'une approximation. Cela dit, le présent article aurait besoin d'un bonne mise à niveau. Ambigraphe, le 6 octobre 2011 à 15:59 (CEST)Répondre

Intro du 5 octobre modifier

Il ne me semble pas que la nouvelle intro

« L'intervalle de confiance (ou intervalle d'erreur, ou encore intervalle d'incertitude) est une estimation de la précision et de la confiance à accorder à une valeur mesurée ou estimée. Cette notion issue des statistiques est particulièrement utilisée en physique et en théorie des sondages. L'intervalle de confiance peut être exprimé sous la forme d'une probabilité en pourcentage ou sous comme multiple de l'écart-type, et est alors appelé degré de confiance. »

soit un progrès pour l'article. je sais que beaucoup de reproche étaient faits sur la version précédente mais la nouvelle version ne me semble pas présenter la vraie définition. L'intervalle de confiance n'est pas une estimation de précision, ni une probabilité en pourcentage, ni un multiple de l'écart type. L'intervalle de confiance à t% est avant tout un intervalle ayant une probabilité de t% de contenir la valeur à estimer. C'est ce que tentait de dire, hélas visiblement maladroitement, la version antérieure de l'article. Il ne me parait donc pas souhaitable que cette nouvelle version persiste.HB (d) 5 octobre 2011 à 20:38 (CEST)Répondre

Si c'est ce que tentait de dire la version précédente, ce n'est pas du tout ce que j'en comprenais. Je cite :
« L'interprétation du degré de confiance est délicate. En effet, et contrairement à une formulation souvent reprise dans les médias lorsqu'ils présentent de telles statistiques, il est faux de dire qu'un intervalle de confiance, une fois calculé, a une certaine probabilité de contenir la valeur du paramètre en question : la valeur est dans l'intervalle ou elle n'y est pas, le hasard n'entre plus en jeu. Le degré de confiance caractérise donc non pas l'intervalle mais plutôt la méthode par laquelle on l'obtient (habituellement par sondage, puis calculs, voir plus bas). Plus précisément il exprime la probabilité pour une méthode donnée de fournir un intervalle contenant la bonne valeur. Par exemple, un intervalle de confiance dit à 95 % (ou au seuil de risque de 5 %) en est un que l'on a obtenu par une méthode qui, d'une manière générale, fournit 95% du temps des intervalles qui contiennent la valeur du paramètre que l'on cherche à estimer (5% du temps, cette méthode fournit un mauvais intervalle). »
C'est ce que j'ai traduit par « l'intervalle de confiance définit la probabilité qu'une nouvelle mesure de la même quantité soit contenue dans cet intervalle par rapport à la valeur déjà obtenue[…]. Par exemple, « 3.1±0.2 à 95 % de confiance » signifie que 95 % des mesures similaires devraient être contenues entre 2.9 et 3.3 », en précisant bien que cette définition dépend du contexte car ce n'est pas celle que je connais, d'où l'invitation en commentaire de diff à relire la nouvelle version.
La nouvelle version ne dit pas que l'intervalle de confiance est une probabilité en pourcentage ou un multiple de l'écart-type : elle dit que l'intervalle de confiance peut être exprimé sous une telle forme, et qu'on parle alors de degré de confiance.
En revanche la formulation « est une estimation de la précision » est effectivement abusive, il serait plus juste de glisser plus bas quelque chose comme « il est souvent utilisé en physique comme estimation de la précision d'une mesure ».
PS : Ceci n'est pas à proprement parler une « défense » de la nouvelle version, il va sans dire que toute tentative d'amélioration est bienvenue.   Skippy le Grand Gourou (d) 5 octobre 2011 à 22:10 (CEST)Répondre

Ach que c'est difficile ! Ma formulation était imprécise, l'explication qui figurait avant était confusionnante en particulier quand elle dit « Plus précisément il exprime la probabilité (il faut lire "le degré de confiance exprime" et non "l'intervalle exprime") pour une méthode donnée de fournir un intervalle contenant la bonne valeur. » Mais l'explication expose bien le problème sous-jacent. Peut-être la formulation la plus juste est-elle tout simplement ce qui est fourni en exemple : « un intervalle de confiance dit à 95 % (ou au seuil de risque de 5 %) est un intervalle que l'on a obtenu par une méthode qui, d'une manière générale, fournit 95% du temps des intervalles qui contiennent la valeur du paramètre que l'on cherche à estimer (5% du temps, cette méthode fournit un mauvais intervalle »HB (d) 5 octobre 2011 à 22:59 (CEST)Répondre

D'autre part, quand tu écris que « 3.1±0.2 à 95 % de confiance » signifie que 95 % des mesures similaires devraient être contenues entre 2.9 et 3.3 », Je crois que tu te trompes. l'intervalle que tu as calculé n'a pas pour but de prédire les mesures futures mais de deviner une valeur dont la mesure est aléatoirement imprécise. En fournissant cet intervalle, tu dis " à moins d'une grande malchance (évaluée à 5%), l'intervalle que je fournis contient la valeur que je cherche à mesurer. HB (d) 5 octobre 2011 à 22:59 (CEST)Répondre

J'avais bien compris la différence entre l'intervalle et le degré de confiance, et il me semble justement que la formulation « peut être exprimé sous la forme de » traduit bien cette différence, mais visiblement ça n'est pas suffisant.
La partie que tu cites en disant que je me trompe est précisément ce que j'ai compris de la version précédente et que je demandais à être vérifié, ce qui montre que soit j'ai des problèmes de compréhension soit que cette version n'était pas claire du tout. Ça ne correspond effectivement pas à la définition que je connais, qui est beaucoup plus proche de ta dernière phrase. Si tu es d'accord pour dire qu'elle n'est pas bonne, alors virons-la illico, ce que je m'empresse de faire. Mais l'exemple des « méthodes » ne me semble pas beaucoup plus compréhensible (il est en partie à l'origine de ma mauvaise compréhension…). Skippy le Grand Gourou (d) 6 octobre 2011 à 11:49 (CEST)Répondre

Il me semble que le texte suivant se rapproche de la réalité.

En statistiques, la notion d'intervalle de confiance est utilisée pour évaluer la fiabilité de l'estimation d'un paramètre (moyenne, écart type, …) associé à une population. Elle n'a de sens que si la population a été préalablement assortie d'une loi de probabilité, ce qui permet d'interpréter un élément comme une variable aléatoire et un échantillon comme un ensemble de telles variables.

La moyenne et la variance, dites empiriques, calculées à partir de l'échantillon selon les règles algébriques applicables en statistique descriptive, sont donc elles-mêmes des variables aléatoires dont il est possible de calculer la moyenne et la variance, sous réserve d'indépendance des éléments de l'échantillon. Dans certains cas il est même possible de déterminer leur loi de probabilité. C'est ce qu'on appelle l'échantillonnage.

Des réalisations de la moyenne empirique et de la variance empirique calculées à partir de réalisations d'un échantillon fournissent donc des estimations aléatoires de la moyenne et de la variance de la loi de probabilité associée à la population.

Si on connaît la loi de probabilité d'une estimation on peut en déduire un intervalle de confiance autour de la valeur estimée pour une probabilité de non-dépassement donnée appelée degré de confiance.

Remarque. La version du 5 juillet 2005 de l'article Statistique mathématique présentait de manière sommaire mais, me semble-t-il, logique (et classique) les notions d'échantillonnage, estimation, intervalles de confiance. Des savants ont décidé que la première et la troisième étaient sans intérêt.--Jct (d) 21 octobre 2011 à 16:38 (CEST)Répondre

Peut-être, mais ça me semble beaucoup trop jargonique pour une introduction… Plutôt à intégrer au corps du texte, non ?
Au fait, pour être sûr qu'il n'y a pas de différence de terminologie selon les disciplines, la mienne est en gros celle-ci, paragraphe 33.3. Skippy le Grand Gourou (d) 21 octobre 2011 à 17:01 (CEST)Répondre
Je ne trouve pas ça jargonique du tout et bien plus clair que l'introduction actuelle.Klinfran (discuter) 20 mai 2014 à 12:41 (CEST)Répondre
Jargonique, peut-être, mais si quelqu'un propose une définition non jargonique de la notion d'intervalle de confiance qui fasse l'unanimité, je suis preneur. Pour moi, la discussion qui précède signifie à l'évidence qu'il est impossible de se mettre d'accord sur une définition élémentaire d'une notion qui n'est pas élémentaire.--Jct (d) 21 octobre 2011 à 18:22 (CEST)Répondre
Concrètement j'ai du mal à trouver dans la référence proposée la signification d'un intervalle de confiance au milieu d'une multitude de définitions techniques.--Jct (d) 21 octobre 2011 à 18:31 (CEST)Répondre
Que reproches-tu à l'introduction actuelle ? HB n'est pas intervenue depuis mes clarifications, et personne d'autre ne l'a commentée.
En ce qui concerne la référence, je ne comprends pas bien ta remarque. L'idée est de vérifier que l'on parle bien de la même chose. Il suffit de lire l'introduction du paragraphe 33.3 (p.16), qui donne la définition d'un intervalle de confiance en physique (les sous-paragraphes suivants, que je n'ai pas lus, indiquent des constructions particulières de l'intervalle, ce n'est pas ce qui nous intéresse pour cette discussion). Skippy le Grand Gourou (d) 21 octobre 2011 à 18:46 (CEST)Répondre
Je ne suis plus intervenue car j'ai appris qu'il n'est pas utile de répéter plusieurs fois un même argument: s'il n'est pas entendu une première fois, il y a peu de chance qu'il soit entendu 24 h plus tard et je voulais aussi d'autres avis. Et là, ça se complique : 3 personnes et 3 avis différents, nous allons avoir du mal à converger.
Dans ta dernière version de l'introduction, je continue à regretter que l'on ne dise pas d'entrée de jeu qu'un intervalle de confiance est un intervalle.
D'autre part, la version de jct, juste et rigoureuse mathématiquement , est effrayante dans un résumé introductif  : il empêche le lecteur d'avoir une moindre notion de l'intervalle tant qu'il ne s'est pas tapé les articles loi de probabilité, variable aléatoire ainsi que la notion de population statistique (imaginez le quasi-ignorant se demandant ce que peut être une « population assortie d'une loi de probabilité » - un peuple ayant fait voter une loi sur le hasard ?). Ces explications sont cependant nécessaires si l'on veut comprendre vraiment le principe de l'intervalle de confiance mais sont un peu dures si l'on cherche seulement un vague notion de la chose . Elles seraient effectivement mieux placées dans le corps de l'article. Je remarque de plus que dans cette version, le fait que l'intervalle de confiance soit en intervalle n'apparait que dans la dernière phrase.
Je me demande si la solution n'est pas dans la transgression de la convention sur le résumé introductif qui voudrait que le titre de l'article apparaisse dans les premiers mot. Ici, il faut un peu plus de temps pour expliquer le contexte. Je propose donc ce résumé comme piste de réflexion.
En statistique et en théorie de la mesure, on cherche souvent à évaluer la valeur d'un paramètre (longueur, moyenne,...) à partir d'un échantillon. La valeur trouvée sur l'échantillon n'est qu'une estimation de la valeur réelle, une valeur qui s'approche seulement de celle-ci. Un intervalle de confiance est un intervalle construit de telle sorte qu'il contient la vraie valeur du paramètre à estimer avec une probabilité supérieure à un certain seuil appelé degré de confiance de l'intervalle.
A jeter ou amender ou source d'inspiration - je vous laisse la main pour la suite. HB (d) 22 octobre 2011 à 09:35 (CEST)Répondre
J'avoue que je préfère quand la première phrase met en place directement le sujet de l'article. Que pensez-vous de cette version :
En mathématiques, un intervalle de confiance permet d'évaluer la précision du résultat d'un sondage ou plus généralement d'un estimateur statistique calculé sur un échantillon. Il est constitué d'une plage de valeurs dans laquelle le paramètre à estimer a une forte probabilité de se trouver. Cette probabilité, souvent exprimée à l'aide d'un pourcentage, est le degré de confiance de l'intervalle considéré.
Contrairement à l'intervalle de fluctuation, qui est déterminé par le paramètre et vise à encadrer l'estimateur, l'intervalle de confiance est aléatoire car dépend de l'échantillon et vise à encadrer le paramètre réel.
Dans le cas de l'estimation d'une proportion dans une population, l'intervalle de confiance est centré sur la proportion observée sur l'échantillon et son amplitude est un multiple de l'estimateur de l'écart-type.
À mon avis, la notion d'estimateur est indispensable pour comprendre l'article. La version que je propose indique clairement les prérequis. Ambigraphe, le 22 octobre 2011 à 09:46 (CEST)Répondre
Je ne suis pas sûr qu'on clarifie le problème en introduisant la notion d'estimateur. Malgré les apparences qui ont entraîné des réactions de rejet, mon point de vue était pratique. La discussion à laquelle je me référais concernait la signification de la probabilité de non-dépassement de l'intervalle de confiance. Pour parler de probabilité il faut accorder un caractère aléatoire à cet intervalle. Ce caractère aléatoire résulte de la notion probabiliste d'estimation. À la base de l'estimation il y a la notion, souvent mal comprise, d'échantillon, ensemble de variables aléatoires. Si on esquive cette notion il est impossible de comprendre la signification de cette probabilité. Ceci dit, mon texte était un premier jet qui condensait le contenu initial censuré de Statistique mathématique. Il était donc «effrayant», à améliorer dans la forme, voire dans le fond. De manière plus futile je ne comprends pas les deux critiques sur la mise en place du sujet.--Jct (d) 22 octobre 2011 à 10:22 (CEST)Répondre
Occupé à défendre mon point de vue, j'ai ignoré la proposition de HB qui me paraît raisonnable d'utiliser un résumé introductif très bref suivi d'explications un peu plus techniques.--Jct (d) 22 octobre 2011 à 11:48 (CEST)Répondre
OK pour remplacer le terme « estimateur » par « estimation » si tu y tiens. Sur la suite, je suis bien d'accord mais je n'ai justement rien « esquivé » dans ma proposition. Ambigraphe, le 22 octobre 2011 à 14:28 (CEST)Répondre
@HB : S'il n'y a que la notion d'intervalle qui te dérange, c'est l'affaire d'une phrase… Ta proposition me convient, à ceci près que je pense qu'on peut citer le sujet dès la première phrase.
Au passage, il serait peut-être intéressant de construire le résumé introductif symétriquement à celui d'intervalle de fluctuation (et vice versa) afin de bien mettre en évidence les différences entre les deux notions.
Nouvel essai à partir des propositions faites jusqu'à présent :
L'intervalle de confiance est une notion statistique qui représente une évaluation de la précision d'un estimateur (mesure physique, sondage, etc.). Il est construit de telle sorte que la plage de valeurs qu'il encadre contienne, avec une probabilité supérieure à un certain seuil appelé degré de confiance de l'intervalle, la vraie valeur du paramètre à estimer.
Contrairement à l'intervalle de fluctuation, qui est déterminé par le paramètre et vise à encadrer l'estimateur, l'intervalle de confiance dépend de l'échantillon et vise à encadrer le paramètre réel.
Dans les cas les plus simples, l'estimateur suit une loi normale, l'intervalle de confiance est centré sur la valeur observée/mesurée et son amplitude est un multiple de l'estimateur de l'écart-type.
Skippy le Grand Gourou (d) 22 octobre 2011 à 15:44 (CEST)Répondre
Cette proposition me plait bien et semble recueillir un certain consensus (ouf). Reste à jct à développer une section plus rigoureuse sur l'aspect variable aléatoire...HB (d) 22 octobre 2011 à 21:00 (CEST)Répondre

Merci à Skippy le Grand Gourou pour sa synthèse. Il est évident que l'articulation entre cet article et celui sur les intervalles de fluctuation doit être bien pensée, mais je me méfie d'une « symétrie » qui mettrait la forme avant le fond. Il faut aussi distinguer cette notion de celle d'intervalle d'incertitude pour une mesure physique (ça n'est vraiment pas la même chose).

Par ailleurs, je me rangerais bien à l'avis de Jct de reporter la notion d'estimateur au corps du texte. En outre, je préfère que les premiers mots évoquent quelque chose au plus grand nombre (sans déroger à l'exactitude, évidemment). Peut-on plutôt aller dans le sens de : « En mathématiques, un intervalle de confiance permet d'évaluer la marge d'erreur d'un sondage et plus généralement la précision de l'estimation d'un paramètre statistique. »

Il est peut-être un peu périlleux d'introduire ensuite dans la même phrase les définitions de l'intervalle de confiance et du degré de confiance.

Enfin, la mention de la loi normale est effectivement à garder mais il faut expliciter ce que recouvrent « les cas les plus simples ». Ambigraphe, le 23 octobre 2011 à 22:35 (CEST)Répondre

Peux-tu élaborer sur les différences entre la notion d'intervalle de confiance et celle d'intervalle d'incertitude ? Si ce sont réellement deux notions différentes il faudrait créer l'article sur le second — il ne me semble pas qu'en physique on fasse le distinguo.
La seconde phrase ne me satisfait pas tellement non plus, mais je ne trouvais pas de formulation vraiment satisfaisante, que ce soit en une ou deux phrases.
Pour la notion d'estimateur, à partir du moment où des exemples concrets sont donnés entre parenthèses je ne pense pas que ce soit trop jargonneux, il n'est pas nécessaire de connaître la définition exacte pour comprendre de quoi on parle. Mais si quelqu'un a mieux, pourquoi pas. En revanche je suis assez opposé à l'idée de restreindre le champ aux mathématiques, et surtout très opposé à parler de sondage ailleurs que dans une liste d'exemples, le mot « sondage » signifiant pour l'immense majorité des lecteurs exclusivement sondage d'opinion. Skippy le Grand Gourou (d) 24 octobre 2011 à 18:09 (CEST)Répondre
Excuse-moi, je n'aurai pas le temps cette semaine. Je reviens bientôt pour poursuivre cette discussion. Cordialement, Ambigraphe, le 25 octobre 2011 à 07:52 (CEST)Répondre
Une mesure physique ou un sondage ne sont pas des exemples d'estimateur, comme voudrait le faire croire la dernière version proposée.--Jct (d) 25 octobre 2011 à 11:12 (CEST)Répondre

Je réitère mes objections contre l'introduction telle que modifiée aujourd'hui par Ambigraphe. En particulier, je m'oppose à la restriction aux mathématiques et à l'utilisation malheureuse du terme « sondage » dans la première phrase. Skippy le Grand Gourou (d) 1 novembre 2011 à 18:39 (CET)Répondre

Je ne vois pas en quoi le terme « sondage » serait malheureux puisque tu l'utilisais aussi. Par ailleurs, tu es le seul à défendre le point de vue que l'incertitude en physique correspond à un intervalle de confiance. Ambigraphe, le 1 novembre 2011 à 21:31 (CET)Répondre
Figure-toi que je l'avais utilisé avec en tête le « sens commun » et que c'est en cliquant sur le lien que je me suis rendu compte que je me plantais. Par ailleurs, je ne « défends pas le point de vue que l'incertitude en physique correspond à un intervalle de confiance », il me semble justement t'avoir demandé un peu plus haut si tu pouvais élaborer sur cette différence — il n'y avait absolument pas de malice derrière cette demande, juste de l'ignorance qui demande à être réparée. Skippy le Grand Gourou (d) 1 novembre 2011 à 23:43 (CET)Répondre

Proposition de fusion modifier

Tout le monde semble d'accord sur les liens étroits entre estimation et intervalles de confiance et... il semble impossible de s'accorder sur un texte. Pourquoi ne pas fusionner les deux articles correspondants, un intervalle de confiance apparaissant logiquement comme une «mesure» de la précision d'une estimation ? S'il y a lieu de maintenir un article indépendant (j'en doute) il n'y aura aucune raison de faire apparaître l'estimation dans le résumé introductif.--Jct (d) 31 octobre 2011 à 09:22 (CET)Répondre

Je ne comprends pas. Il me semblait que la teneur générale du résumé introductif avait été trouvée et qu'on en était à des questions de détails (faut-il ou non mettre le mot estimateur dans l'intro- comment parler parler de sondage sans laisser croire qu'un sondage serait un estimateur (seul le résultat du sondage est un estimateur)). Je suis pour ma part très fortement opposée à une fusion estimateur et intervalle de confiance (pourquoi pas alors une fusion entre statistique et intervalle de confiance) L'intervalle de confiance doit rester un petit article facilement accessible tant physiquement (que la notion ne soit pas noyée dans un article plus large comme celui sur l'estimateur) qu'intellectuellement (qu'un résumé introductif donne une idée simple, qu'un développement résume les notions essentielles sur les estimateurs permettant de comprendre la problématique, qu'un exemple simple vienne en expliquer l'usage et qu'un développement rigoureux vienne expliquer le mode de calcul exact et approché). HB (d) 31 octobre 2011 à 10:21 (CET)Répondre
Il ne faut peut-être pas caricaturer avec statistique = intervalle de confiance. La différence avec le problème actuel (je peux me tromper), c'est que la notion d'intervalle de confiance n'existe pas en dehors de la théorie de l'estimation. Si je me trompe il faut conserver l'article, sans référence à l'estimation, sinon il faudrait fusionner. Cela éviterait les discussions sans fin liées au fait que, malgré l'apparence élémentaire du vocabulaire, on a du mal à traduire en termes simples des notions qui ne le sont pas : un sondage est un estimateur, un résultat de sondage est un estimateur, un résultat de sondage est une réalisation d'un échantillon aléatoire que l'on peut interpréter grâce à un estimateur, etc., etc.--Jct (d) 31 octobre 2011 à 11:37 (CET)Répondre
J'approuve Jct sur le fait qu'un sondage ou une mesure physique ne sont pas des estimateurs.
Peut-être que l'introduction serait plus facile à rédiger si l'on s'accordait sur le contenu de l'article (ce qui éteindrait au passage les velléités de fusion, à mon avis dommageables).
Je propose de faire commencer l'article par l'élaboration de l'intervalle de confiance pour le résultat d'un sondage, renvoyant à l'article « Intervalle de fluctuation » pour les détails calculatoires. Ensuite, on peut aborder le traitement plus général de l'IC pour un estimateur de l'espérance d'une loi à un paramètre. Je n'ai pas sous la main de référence pour traiter l'IC dans un cadre plus général, mais je sais qu'il existe des définitions avec plus d'un paramètre et pour d'autres estimateurs (variance et autres moments notamment). Ambigraphe, le 31 octobre 2011 à 17:59 (CET)Répondre
Dernière intervention sur intervalle de confiance et estimateur de ma part Vous semblez tous avoir des idées et des connaissances pour réfléchir sur le contenu de ces deux articles. Je compte donc vous laisser en vous suggérant cependant de ne pas attendre pour remettre un résumé introductif provisoire plus clair que celui qui figure actuellement en s'inspirant par exemple de cette définition]. J'abandonne ces deux articles en regrettant toutefois qu'un souci, certes légitime, de rigueur oblige à utiliser un vocabulaire compliqué préjudiciable à une certaine accessibilité - Le cas est flagrant sur estimateur (statistique) où les améliorations depuis 2006 ont surtout contribué à compliquer le discours et à le formaliser. A ce sujet, il faudrait uniformiser les notations: paramètre tantôt noté θ , tantôt noté x, l'estimateur est tantôt noté X, tantôt   ou  , dans efficience la variance de l'estimateur est notée   au lieu de   (non?). Bon courage à tous. HB (d) 1 novembre 2011 à 13:38 (CET)Répondre
Merci pour tes interventions avec lesquelles je suis plutôt en accord. Je vais essayer d'intégrer l'explication du site de l'Insee que tu donnes en lien à la première phrase de l'introduction que j'avais produite. Sur l'article « Estimateur (statistique) », j'irai justifier ma récente modification en page de discussion.
Quant aux notations, le paramètre est effectivement classiquement noté θ et l'estimateur est muni d'un accent circonflexe. Ambigraphe, le 1 novembre 2011 à 16:26 (CET)Répondre

Contrairement à mon jugement trop hâtif, l'introduction a été sérieusement améliorée, évitant ainsi le recours à la fusion : elle esquive adroitement la notion d'estimateur. Mes excuses les plus plates pour avoir participé à la confusion en croyant montrer une piste pour la faire disparaître.--Jct (d) 2 novembre 2011 à 10:24 (CET)Répondre

Mauvais article, mettez vous d'accord!! modifier

Bonjour, l'article anglais et les discussions ci dessus nous disent que l'intervalle de confiance permet d'estimer un paramètre théorique à partir de mesure réelles. Je cite le wiki anglais: This value is represented by a percentage, so when we say, "we are 99% confident that the true value of the parameter is in our confidence interval", we express that 99% of the observed confidence intervals will hold the true value of the parameter. Alors pourquoi dans la page Française on peut lire ça? "Il est constitué d'un intervalle qui n'est pas un intervalle dans lequel le paramètre à estimer a une forte probabilité de se trouver, puisqu'il n'est pas aléatoire, mais dans lequel, s'il ne se trouve pas, il y avait a priori une faible probabilité d'obtenir l'estimation obtenue". C'est surement la même chose mais dit différemment, ceci dit je trouve la version anglaise plus abordable. L'intervalle de confiance permet bien d'estimer le paramètre théorique, en disant qu'en répétant les mesures 99% des intervalles contiendront le paramètre. Maintenant si on fait un seul intervalle avec un échantillon énorme et qu'on le segmente en plusieurs intervalles plus larges, ça revient bien à dire qu'on a encadré un paramètre finalement. On peut donc juste dire en introduction que ça permet de dire qu'il y a de grande chance pour que le paramètre soit réellement dans l'intervalle, c'est strictement identique contrairement à ce que vous essayez de dire. Klinfran (discuter) 20 mai 2014 à 12:15 (CEST)Répondre

Revenons aux notions de base modifier

Bonjour, A mon avis, il manque des précisions et même des références à propos des notions de base. Il y a toute sorte de qualificatifs, mais la notion fondamentale qu'est la notion de moyenne, n'est pas évoquée. On parle d'estimation, d'espérance etc., mais tout est basé sur la moyenne arithmétique. On l'appelle généralement et pudiquement "moyenne empirique". Il s'agit tout simplement de la moyenne arithmétique. La démonstration est à chercher dans le cours de Paul Lévy "Cours d'Analyse de l'Ecole Polytechnique", Gauthier-Villars, 1931. Cette notion fondamentale a été reprise et expliquée par le Pr Mathieu Rouaud. Toutes ces considérations ne sont valables que dans le cadre d'expériences aléatoires qui ne dépendent que du hasard et dont les résultats ont une répartition des écarts par rapport à la moyenne qui est conforme à la loi normale. Cela est la simple application du Théorème Central Limite. Il me semble toujours étonnant d'essayer de calculer la probabilité que telle probabilité soit bonne. On a l'habitude de calculer (et non estimer - bien sûr) l'écart-type. Ce n'est qu'une unité de mesure très pratique. On pourrait calculer aussi l'écart moyen arithmétique qui vaut 4/5 de l'écart-type (valeur exacte = racine(2/pi)). On peut aussi utiliser l'écart probable (2/3 de l'écart-type) qui est tel que la moitié des écarts (50%) lui est inférieur. Le long article "Loi Normale" me parait suffisamment détaillé pour répondre à toutes les questions concernant ce sujet. Si on n'est pas strictement dans le cadre d'application de la loi normale, c'est à dire d'expériences de même loi, la valeur de l'écart-type n'a pas de signification et a fortiori l'intervalle de confiance. Exemple simple : étude sur les salaires. Si on fait une telle étude statistique dans une même entreprise, on va comparer, à cause de la moyenne, des salaires non comparables. Le résultat sera sans signification et les calculs d'intervalle donneront une impression fausse. Par contre, si on fait une telle étude auprès de gens issus d'écoles comparables, d'expérience comparable, alors le résultat (moyenne et écart-type) sera justifié. Rajout de ma signature --Dlzlogic (discuter) 8 juillet 2017 à 11:21 (CEST)Répondre

A propos de l'encadrement de l'intervalle de confiance. modifier

Bonjour, Je suis parfaitement d'accord avec les doutes de Fabrej, et l'article précédent "Revenons aux notions de base" est de moi, mais j'ai oublié de signer. Il faut bien voir une chose : l'écart-type n'est qu'une unité pour apprécier la dispersion des mesures et détecter une faute éventuelle. Cette borne de 95% n'a que seule justification que c'est un nombre à peu près rond, qui fait "sérieux", tranquillisant et qui correspond à environ deux écarts-types. Personnellement, j'utilise plutôt l'écart probable, alors les bornes sont différentes mais ça ne change rien, puisqu'il s'agit d'unité. Première question : pourquoi calculer l'intervalle de confiance ? On aurait des doutes sur la qualité des mesures ou du résultat ? On aurait oublié de comprendre le TCL ? Ou tout simplement l'énoncé de l'exercice le demande ? Seconde question : si on calcule l'écart-type, c'est parce qu'on dispose d'un nombre assez grand de mesures. Alors sous quel principe devrait-on calculer la précision de l'indicateur de précision ? Par contre, si le but de l'expérience est justement d'établir la valeur que l'on donnera pour l'écart-type, considérant la méthode de mesure utilisée, alors la valeur recherchée est justement l'écart-type, mais c'est un autre problème.--Dlzlogic (discuter) 8 juillet 2017 à 11:19 (CEST) Petite info : deux jours après avoir écrit cette réponse à l'intervention de Fabrej, je me suis rendu compte que celle-ci avait disparu. Mais naturellement sauf les 10 premiers mots devenus sans objet, tout le reste est valable. --Dlzlogic (discuter) 9 juillet 2017 à 15:01 (CEST)Répondre

Proposition d'anecdote pour la page d'accueil modifier

Une proposition d'anecdote pour la section « Le Saviez-vous ? » de la page d'accueil, et basée sur cet article, a été proposée sur la page dédiée.
N'hésitez pas à apporter votre contribution sur la rédaction de l'anecdote, l'ajout de source dans l'article ou votre avis sur la proposition. La discussion est accessible ici.
Une fois l'anecdote acceptée ou refusée pour publication, la discussion est ensuite archivée .
(ceci est un message automatique du bot GhosterBot le 14 mai 2018 à 15:16, sans bot flag)

Applications à d'autres domaines : le langage juridique (non numérique) modifier

Les deux notions d'intervalle de confiance et de fluctuation pourraient-elles être utilisées dans une certaine mesure aux lois par rapport à des applications jurisprudentielles (ce que le juge interprète d'une loi donnée) ?

Y'a-t-il d'autres notions en mathématiques qui permettraient d'estimer a priori le taux d'informité de l'édifice légistique ou est-ce utopique ?

Autrement dit, quels outils mathématiques et/ou physique permettraient de déceler algorithmiquement ou non la vulnérabilité extrême du langage juridique ? — Le message qui précède, non signé, a été déposé par H. Lounici (discuter)

Erreur ? modifier

Bonjour, j'ai l'impression qu'il y a une inversion entre fréquence et proportion dans la partie "Exemple introductif : encadrement d'une proportion".

Il est écrit :  


Je pense qu'il devrait être ecrit :  

Est-ce exact ?

--Raph81212 (discuter) 24 octobre 2023 à 13:25 (CEST)Répondre

Il faut lire l’exemple jusqu’au bout. C’est l’encadrement de f en fonction de p qui permet d’obtenir un encadrement de p en fonction de f. Ambigraphe, le 24 octobre 2023 à 18:36 (CEST)Répondre

Réorganisation de l'article modifier

Bonjour,

j'ai beaucoup aimé la formulation de Spidermario pour l'introduction. J'ai remanié. Voici je pense les améliorations possibles :

- raccourcir l'introduction. La fin avec la différence avec intervalle de fluctuation peut aller dans une section dédiée. Qui explique un peu mieux le principe.

- l'exemple introductif n'est pas un exemple. Je pense qu'il faut rester niveau collège, lycée au début. Peut-être citer des manuels de lycée et réexpliquer au même niveau que lycée. Pas au delà.

- les sections "Principe général", et Signification "De façon plus global" (titre pas clair)

pourraient être fusionnées.

- Les calculs qui suivent pourraient être illustrés (un jour je fais)

- Citer des applications réelles, des cas concrets, des journaux qui donnent des intervalles de confiance etc. Citer des mauvaises interprétations.

- Remonter "Marge d'erreur sur un échantillon" et renommer en "Histoire". (cette section est l'histoire de la notion).

Bonne journée. Fschwarzentruber (discuter) 26 octobre 2023 à 17:37 (CEST)Répondre

Je suis complètement d’accord que l’introduction est trop longue actuellement. En revanche, la distinction avec l’intervalle de fluctuation est fondamentale. Elle doit être présente au plus tôt.
L’exemple introductif est bien un exemple et c’est normal qu’il corresponde au niveau lycée. Je conseille de jeter un coup d’œil aux programmes de mathématiques de collège pour constater que cela ne correspond pas au niveau de cet article.
Wikipédia n’est pas un manuel scolaire. S’il est normal que l’exemple introductif parle aux lycéens, il est tout aussi normal qu’il aborde les notions de niveau ultérieur.
D’accord aussi avec les illustrations des calculs et le besoin de citer des applications réelles. Ambigraphe, le 26 octobre 2023 à 17:58 (CEST)Répondre
Merci pour votre avis éclairé. Fschwarzentruber (discuter) 27 octobre 2023 à 09:21 (CEST)Répondre

Exemple flottant modifier

Qui est t_\alpha dans l'exemple flottant ? Ca correspond à quel cas ? Si pas de réponse, le plus simple est de supprimer l'exemple flottant, et peut-être de le remplacer par la formulation simple [f - 1 sur racine de n, f + 1 sur racine de n]. Cette formulation permet déjà de raconter des choses. Fschwarzentruber (discuter) 27 octobre 2023 à 15:33 (CEST)Répondre

De mémoire, c'est la notation pour les quantiles de la loi de Student, puisque la plupart des intervalles de confiance se basent sur une hypothèse normale. Kelam (discuter) 27 octobre 2023 à 16:57 (CEST)Répondre
OK merci. Je vois ça correspond au cas "Intervalle de confiance pour la moyenne quand l'écart type est inconnu". Comme le contexte n'est pas très clair, je propose de supprimer l'exemple flottant. Voici pourquoi :
- ça demande des connaissances plus compliquées que la formulation simple.
- la formulation simple permet déjà de comprendre le concept d'intervalle de confiance Fschwarzentruber (discuter) 28 octobre 2023 à 08:32 (CEST)Répondre
Ce n’est pas parce que l’expression est plus simple qu’elle est mieux. L’exemple flottant était initialement dans l’exemple introductif, il me semble. Et l’intervalle de confiance ne se limite pas à l’encadrement d’une proportion, qui est encadré avant d’être réécrit dans le même paragraphe (cadre inutile à supprimer).
Par ailleurs, il faudrait se débarrasser des expressions du langage oral (« Attention ») et des marques du discours direct (« Nous allons montrer… ») qui ne correspondent pas à un article encyclopédique. Wikipédia n’est pas un cours. Ambigraphe, le 28 octobre 2023 à 11:48 (CEST)Répondre
Merci pour votre commentaire.
J'avoue que la simplicité est mon adage. Je pense que l'expression simple est meilleure dans le début de l'article (voire peut-être dans l'introduction ?) car elle évite un jargon mathématique. Pas de "quantile d'ordre alpha", pas de "loi de student", pas de "variance", pas d' "écart type". Il y a juste besoin de comprendre la notion de "moyenne/espérance" (proportion réelle), "moyenne empirique" (proportion observée) et de nombre de personnes sondées. Donc je pense que l'exemple introductif avec le sondage est très bien.
Je suis d'accord que l'intervalle de confiance ne se limite pas à l'encadrement d'une moyenne. Mais quand on prend un exemple, on est forcément dans un cas particulier. Et c'est très bien d'être dans un cas particulier car ça permet aux lecteurs et lectrices de comprendre. Fschwarzentruber (discuter) 28 octobre 2023 à 15:20 (CEST)Répondre
Ah pour en revenir à l'exemple flottant, il manque son contexte. J'imagine que c'est "Intervalle de confiance pour la moyenne quand l'écart type est inconnu", mais je ne suis pas sûr car la formule donné dans la sous-section correspondante n'est pas la même. Fschwarzentruber (discuter) 28 octobre 2023 à 15:22 (CEST)Répondre
Je me suis permis de supprimer l'exemple flottant. J'ai rajouté une table avec les intervalles de confiance de référence, et une source (on peut rajouter plusieurs sources je pense). Fschwarzentruber (discuter) 12 mars 2024 à 16:21 (CET)Répondre

Notations modifier

Quid d'utiliser des notations plus uniformes ? J'aime bien utiliser "mu" pour l'espérance, et "mu chapeau" pour la moyenne empirique. Là, on a f et p par exemple et on ne sait pas d'emblée qui est empirique ou pas. Je propose par exemple de mettre p et remplacer f par "p chapeau". Qu'en pensez-vous ? Fschwarzentruber (discuter) 13 mars 2024 à 12:16 (CET)Répondre

f est la fréquence observée. Il se trouve que c’est un estimateur sans biais pour la probabilité, mais ce n’est pas ce qu’on cherche à calculer ici. Je rappelle au passage que rien ne garantit que l’estimateur sans biais appartienne à l’intervalle de confiance. Ambigraphe, le 13 mars 2024 à 21:21 (CET)Répondre
Oui, je suis d'accord avec vous : f est la fréquence observée donc c'est empirique. C'est pour cela que je propose de la renommer en "p chapeau" (le "p observé"). Cependant, je ne suis pas d'accord avec deux points :
- "ce n’est pas ce qu’on cherche à calculer ici." => Si. la fréquence observée f apparaît dans les bornes de l'intervalle de confiance. Calculer f est utile pour obtenir une réalisation de l'intervalle de confiance.
- "rien ne garantit que l’estimateur sans biais appartienne à l’intervalle de confiance" => Si. L'intervalle est de la forme [f - truc, f + truc] donc la fréquence observée f est dedans. C'est p qui n'appartient pas toujours à une réalisation de l'intervalle de confiance.
Ma question est de savoir si vous êtes OK pour écrire les estimateurs (les quantités empiriques) avec des chapeaux, et les quantités théoriques sans chapeau ? Certains ouvrages le font comme [Le Boudec] (ils appellent sigma^2 chapeau l'estimateur de la variance sans biais, et sigma^2 la variance théorique). Je trouve ça assez lisible et plus uniforme. D'autres ne le font pas (ils appellent par exemple S^2 un estimateur de la variance sans biais, et sigma^2 la valeur théorique). Mais après, on est pas obligé. Fschwarzentruber (discuter) 13 mars 2024 à 21:40 (CET)Répondre
Encore une fois, il ne s’agit pas d’un article sur les estimateurs ponctuels (dont la notation traditionnelle utilise effectivement le chapeau) mais sur les intervalles de confiance. Il est donc hors sujet d’introduire la notation   ici.
Vos réponses à mes propos ci-dessus me font penser que vous considérez l’encadrement d’une fréquence comme le seul intervalle de confiance qui existe. Je vous invite à vous documenter sur le sujet : il y a beaucoup de contextes dans lesquels cette notion est utile en dehors de ce cadre, et pour lesquels l’estimateur ponctuel sans biais n’est pas une fréquence. Ambigraphe, le 19 mars 2024 à 21:10 (CET)Répondre
Revenir à la page « Intervalle de confiance ».