Discussion:Régression linéaire

Dernier commentaire : il y a 1 an par Lacaravannepasse dans le sujet Bandeau
Autres discussions [liste]
  • Admissibilité
  • Neutralité
  • Droit d'auteur
  • Article de qualité
  • Bon article
  • Lumière sur
  • À faire
  • Archives
  • Commons

Notation modifier

la variance des y ne serait elle pas V(y) ?

Axel584, 30 novembre 2004 à 11:46

Variance des y en regression linéaire (du bistro) modifier

En regardant l'article sur la Régression linéaire je me demandais si le libellé de la variance des y était correcte :

variance des yi = V(x) = ....

J'aurais intuitivement écrit : variance des yi = V(y) = ...

Mais comme j'en suis pas sur, je veux pas corriger en rajoutant une connerie :-)

Axel584 30 nov 2004 à 11:51 (CET)

Il s'agit effectivement d'une coquille puisque des références à V(y) sont faites dans la suite : par exemple, dans le chapitre Régression_linéaire#Coefficient de corrélation linéaire, la symétrie des expressions des pentes a et a' , permet de confirmer qu'on a bien variance des yi = V(y). Bcoconni 30 nov 2004 à 14:17 (CET)
S'il y a des coquilles, c'est à cause des fûts !
Le contrepéteur fou --Jean-Jacques MILAN 30 nov 2004 à 21:10 (CET)

equation de la droite de régression modifier

Pour resulta de la regression y a ecrie y=cov(x,y)/v(X) *(x - /x) + /y . j'aurai mit perso /y=a/x+b avec a=cov(x,y)/v(X)

je saisie mal pkoi y à (x - /x) au lieu de x et pkoi /y au lieu de b

Attention la forme donnée dans l'article n'est pas la forme réduite
 
s'écrit aussi en posant  
 
ce qui donne en développant
 
et donc un  

Vision pratique sur le sujet modifier

Je viens de rédiger une étude sur la régression linéaire : http://yves.demur.free.fr/reglin/reglin1105.pdf

Je ne suis pas un spécialiste de ce domaine mais je pense que ce document apporte un éclairage pratique. Je ne vois pas bien comment apporter cette "matière" à Wikipédia : peut être qu'un statisticien pourrait l'utiliser pour enrichir l'article actuel de Wikipédia, ou alors mon document pourrait-il avoir une place quelque part ?

Je fais un appel à suggestions. CordWikipédialement. Si vous répondez, signalez le moi par mail à yves.demur@m4am.net

Pour information, il n'est pas dans notre habitude de répondre par email. Donc si quelqu'un vous réponds, vous trouverez sa réponse ici. Pyb 6 novembre 2005 à 00:48 (CET)Répondre

Coefficient de corrélation modifier

Il y a une erreur dans la formulation de la validité de la corrélation, en effet   ce qui est impossible. Je pense qu'il faut inversé les 2 terme soit   ≈0,82 valeur dépendante de l'intervale de confiance et du nombre de degrés de liberté.

pardon d'avoir annulé votre intervention mais j'ai cru à du vandalisme en effet   (priorité opératoire) alors que  . Il est vrai que   ≈0,82. Entre 0,86 et 0,82, je ne peux affimer lequel est choisi en première approximation (je pense avoir vu  , mais je ne peux retrouver mes sources). Il est certain qu'un calcul plus sérieux, dépendant du nombre de mesures et de l'intervalle de confiance permet de moduler ce fameux seuil de validité. Si vous avez compétence à compléter l'article ce ne serait pas mal. HB 25 octobre 2006 à 22:47 (CEST)Répondre
D'où vient ce seuil? Il me semble un peu arbitraire. IL ne correspond pas aux valeurs dont parlent mes profs. D'après eux, la significativité du R dépend du modèle considéré. Michaël Malter (d) 2 avril 2010 à 21:10 (CEST)Répondre
Je pense qu'on devrait retirer le seuil de  , seuil très bas et pouvant amener à de nombreuses erreurs.
  Seuil supprimé en attendant des sources pour une valeur précise. HB (d) 9 août 2010 à 14:40 (CEST)Répondre

Graphique modifier

J'ai un commentaire à propos du graphique sensé illustrer ce qu'est une régression linéaire. En effet, l'autocorrélation des résidus fait que le modèle qui lie les deux variables n'est pas linéaire. Dans un modèle de régression linéaire, on considère qu'il y a une relation deterministe entre deux variables, mais que cette relation est bruitée par un bruit blanc (ce qui implique non autocorrélation). Il faudrait donc changer le graphique quitte à faire un graphique à partir de données simulées afin que celà corresponde parfaitement (ceci dans un soucis pédagogique).

Problème dans la conception de l'article modifier

Le gros problème de cet article est qu'il se limite au modèle linéaire simple. Pourtant le modèle linéaire est bien plus général. Il inclut les modèles linéaires à variables instrumentales, les modèles de panels à effets fixes et à effets aléatoires ou encore les modèles à coefficients aléatoires. --PAC2 (d)

Entièrement d'accord avec toi sur ce point, il y a tromperie sur la marchandise  . On ne parle dans cet article que de la régression linéaire simple, d'où l'idée suggérée sur la page de discussion de la fusion de le renommer en régression linéaire simple en le recentrant sur ce sujet avec l'objectif de rester le plus simple possible (suppression de la partie matricielle en particulier). Je sais que ton idée est de faire un grand article qui parlerait de tous les modèles linéaires en fusionnant les trois articles. Moi, je suis plutôt favorable finalement à trois articles: un qui prendrait la chose de haut présentant tous ces modèles linéaires dont je découvre l'existence et que tu pourrais décrire à l'envie, un article grand public sur la régression linéaire simple et un autre détaillant la régression linéaire multiple. Mais comme c'est toi qui au final semble posséder la meilleure vue d'ensemble sur ce domaine, je te laisse la choix de la décision finale. Mon souhait est cependant que quelqu'un ignorant tout de la régression et cherchant à se renseigner sur la régression simple (Bac +/- 1) puisse trouver facilement les informations qu'il cherche sans avoir à se perdre dans un article universitaire de trop haut niveau. HB (d) 3 juillet 2011 à 19:13 (CEST)Répondre
Ok, ça va faire du boulot mais c'est pas grave :) --PAC2 (d) 5 juillet 2011 à 11:18 (CEST)Répondre

Large refonte de l'article modifier

Suite à cette discussion Discussion:Régression linéaire/Régression linéaire/Fusion abandonnée entre Régression linéaire, Modèle linéaire et Régression linéaire multiple, j'ai entrepris une large refonte de l'article. Le travail est encore en cours. --PAC2 (d) 16 septembre 2011 à 12:21 (CEST)Répondre

Bon j'interviens avec beaucoup de retard mais qu'en est-il de la conservation d'un petit article permettant de parler de la régression linéaire simple (en) facilement accessible ? Il me semble qu'il a son utilité car c'est bien à la régression linéaire simple que la majorité des gens est d'abord confrontée et cette population ne sera pas satisfaite par le contenu de cet article généraliste.HB (d) 5 octobre 2011 à 08:13 (CEST)Répondre
Pour moi la partie consacrée au modèle linéaire simple devrait faire l'affaire. Je ne vois pas l'utilité de consacrer une page spécifique à la régression linéaire simple. --PAC2 (d) 5 octobre 2011 à 10:35 (CEST)Répondre

Réécriture modifier

Cet article est en cours de réécriture. J'espère avoir proposé un plan pertinent pour réécrire cet article. En particulier, par rapport aux versions précédentes, j'ai fait attention à laisser une place importante aux différentes variantes possibles alors que l'article précédente se concentrait exclusivement sur le modèle linéaire simple estimé par la méthode des moindres carrés. J'ai également fait attention à laisser une place importante aux applications et aux usages du modèle linéaire. Néanmoins, il est difficile de trouver des références pertinentes sur l'utilisation qui est faite du modèle linéaire dans les différentes disciplines académiques. Vos suggestions seront bienvenues. --PAC2 (d) 28 septembre 2011 à 13:42 (CEST)Répondre

Je trouve que le passage
«Pour cela, il est courant d'écrire le log du salaire comme une fonction linéaire du nombre d'années d'éducation et d'un certain nombre de facteurs observables ayant une influence potentielle sur le salaire, par exemple le nombre d'année d'expérience sur le marché du travail, le fait d'être une femme, etc. Dans ce cas, le modèle peut alors s'écrire :
 
avec   le salaire de l'individu i,   le nombre d'années d'éducation de l'individu i,   le nombre d'années d'expérience sur le marché du travail de l'individu i,   une variable indicatrice valant 1 si i est une femme et 0 sinon et   une variable aléatoire représentant l'ensemble des variables non observées dans les données pouvant expliquer le salaire de l'individu i.»
complexifie la section, on n'a pas besoin de ces détails il me semble, je pense qu'il faudrait le supprimer. Je souhaiterais supprimer aussi les listes à puces qui sont inutiles dans cette même section.
Comme c'est vous qui pilotez cette réécriture, je voudrais savoir ce que vous en pensez?--Jackverr (d) 20 mai 2012 à 12:37 (CEST)Répondre
Sur l'exemple de l'équation de salaire, c'est vrai que c'est compliqué mais en même temps c'est plus concret et plus précis que de se contenter de citer des références d'articles. Je n'ai pas d'avis tranché. Les listes à puces sont effectivement provisoires et destinées à disparaître un jour. Pour le moment, je pense qu'on n'a plutôt intérêt à accumuler des références et du matériel. On élaguera et on améliorera la rédaction dans un second temps. --PAC2 (d) 20 mai 2012 à 13:42 (CEST)Répondre
oui, mais on ne peut pas faire ça pour toutes les références sinon l'article devra s'appeler "Exemples de régression linéaire". Je trouve aussi que le formalisme mathématique ne correspond pas à ce qu'on lit dans la littérature sur le sujet. en particulier l'erreur aléatoire est plutôt appelée   dans les articles, et le formalisme pour exprimer les hypothèses est trop complexe à mon gout. Mais bref , comme vous dites on verra plus tard. --Jackverr (d) 20 mai 2012 à 14:56 (CEST)Répondre
Oui évidemment, on ne va pas développer tous les exemples. Si vous souhaitez supprimer le passage l'équation de salaire, je ne m'y oppose pas. Sur le formalisme, on trouve aussi bien la notation   que la notation  . Je suis tout à fait d'accord pour dire que pour le moment, l'article fait une trop grande place au formalisme. Je pense qu'il faut présenter les hypothèses de manière littéraire et laisser le formalisme en complément du texte. L'article doit à la fois être compréhensible par quelqu'un qui n'a jamais fait de math et doit en même temps permettre à ceux qui en ont fait de s'y retrouver. --PAC2 (d) 20 mai 2012 à 15:06 (CEST)Répondre

Graphique de Galton modifier

C'est une excellente idée d'avoir mis le graphique montrant la régression de Galton. Je pense simplement que les intervalles de confiance représentés sur le graphique ne sont pas nécessaires et compliquent la lecture du graphique. Il suffit de mettre le nuage de points et la droite de régression. Cordialement --PAC2 (d) 15 mai 2012 à 10:23 (CEST)Répondre

Pas de soucis, je refais le graphique sans les ellipses de confiance.--Jackverr (d) 15 mai 2012 à 22:24 (CEST)Répondre
Bof, j'ai voulu changer la couleur, mais j'ai l'impression que ce n'est pas très "lisible", non?--Jackverr (d) 15 mai 2012 à 22:44 (CEST)Répondre
Si, si c'est pas mal. --PAC2 (d) 15 mai 2012 à 22:54 (CEST)Répondre

Mise en œuvre dans des logiciels de calcul numérique et de statistiques modifier

Relecture souhaitée modifier

Une IP est venu me poser des questions sur la démonstration de la formule  . Après avoir dans un premier temps botté en touche (la modification de l'article vers davantage de complexité me l'a rendu partiellement inaccessible), j'ai bien relu le passage et il me semble qu'il y a des points obscurs

  1. je me demande si il n'y a pas confusion entre   (coefficient cherché) et   estimateur de ce coefficient. Je me demande donc s'il ne faut pas lire   au lieu de  
  2. Selon les textes accessibles sur internet, il me semble que les estimateurs devraient s'écrire
     
     
  3. je ne comprends pas grand chose aux formules énoncés mais il me semble qu'il manque un 1/n devant var(U) dans cette formule
     
  4. je ne comprend pas le sens de cov (u, β1)

Je demande dons un relecture attentive du contenu de cet article, notamment des modifications intervenues depuis fin 2012. HB (discuter) 18 avril 2014 à 08:27 (CEST)Répondre

Cela fait maintenant 10 jours que j'ai demandé une relecture de cet article sur cette page de discussion et auprès du projet stat, concernant plusieurs points qui me semblaient douteux. Il y plus de 30 personnes qui sont censées suivre l'article et en 10 jours,
  • seul le premier point a donné lieu à une correction (merci Cdang)
  • Sur le point 2) j'ai trouvé beaucoup de sources fournissant les formules sans démonstration mais pour celles qui fournissent une démonstration, elles se placent, il me semble dans le cas où les xi sont considérées comme fixés (voir page 2 de ce document, ou p 12 de celui-ci ou encore dans ce cours). Il me semble qu'il faudrait savoir (source claire à l'appui) si les xi sont considérés comme fixés ou aléatoires, savoir dans quels cas les formules sont valables et éventuellement se passer d'une démonstration qui me semblent nécessiter des xi fixes. Mais, comme le sujet me dépasse complètement, je ne peux pas corriger ce point
  • Je suis presque sure que le point 3 est bien une erreur que je prends sur moi de corriger
  • Je ne comprends toujours pas le point 4
  • Une relecture m'a fait découvrir un point 5 : r = SCE/SCT que je pense devoir corriger sans risque en r² = SCE/SCT

Il est éminemment dommage que l'on ait décidé d'avoir une telle ambition sur cet article sans pouvoir assurer une maintenance a minima. J'ajoute donc un bandeau d'avertissement tant qu'une relecture n'a pas été faite, les erreurs corrigées ou supprimées et des sources ajoutées. HB (discuter) 29 avril 2014 à 14:34 (CEST)Répondre

Création de l'article ajustement affine modifier

Je sais que mon action risque de passer pour une exfiltration de la partie de l'article qui semble gérable et accessible au profane dans un autre article, mais je pense que cet article ne gagne rien à effectuer le grand écart entre l'élémentaire et l'économétrie.

  • Le lecteur profane ne peut pas se satisfaire d'une présentation dans laquelle le résumé introductif parle d'entrée de jeu de regression linéaire multiple, d'espérance conditionnelle sans jamais évoquer la régression linéaire simple. Il n'a pas à tomber sur une définition de la régression linéaire simple faisant intervenir des expressions qui n'ont pas été définies (estimateur des moindres carrées ordinaires, valeur prédite, argmin), il doit pouvoir trouver un article lisible avec un bagage élémentaire en statistique descriptive.
  • Le spécialiste des tests d'hypothèse, de l'anova, de l'analyse en composantes principales et de la théorie de l'estimation doit trouver ici un article de référence plus poussé sans se perdre dans du B-A-BA.

D'où la création de l'article élémentaire. Le choix du terme d'ajustement affine plutôt que régression linéaire simple provient du fait que la majorité des articles que j'ai lu portant le titre de regression linéaire simple fait appel à la théorie des estimateurs (dans la cadre d’ailleurs quasiment exclusif de la régression par la méthode des moindres carrés) alors que le terme d'ajustement affine se limite au tracé d'une droite sans évoquer le moins du monde l'estimation. Il est principalement employé au niveau stat Bac et bac+1, ce qui correspond quand même à une tranche non négligeable des lecteurs de WP. Les plus avancés pourront continuer à lire et améliorer cet article. HB (discuter) 29 avril 2014 à 14:34 (CEST)Répondre

J'ai lu l'article (que je découvre, puisque c'est un problème que je connais) et j'ai lu attentivement les discussions. mon avis est le suivant : soit le lecteur de l'article cherche à s'informer, alors il n'y comprend rien, les justifications, il s'en fiche, et si par malheur il lit cet article parce qu'il a besoin de faire un calcul et a fortiori écrire un module, il n'en tirera rien. Par contre, si le lecteur a besoin d'informations pour écrire un article, écrire un cours, il n'aura pas satisfaction, puisque les notions fondamentales de justification, moyenne et moindres carrés sont à peine évoquées. Concernant le plan que je proposerais ce pourrait être : 1- Différents type de données ; 2- méthodes de calcul 3- démonstrations.--Dlzlogic (discuter) 20 mai 2015 à 15:04 (CEST)Répondre

Coup de gueule modifier

De mon point de vue, cet article est devenu illisible. Il y a plusieurs parties qui perturbent largement la lecture de l'article et rendent la compréhension très difficile :

  • La partie : "Application à des modèles non linéaires" n'a à mon sens pas sa place ici. On pourrait se contenter de faire des liens dans la partie "Extensions" vers d'autres articles reliés.
  • Dans la partie "Historique", on confond l'estimateur des moindres carrés et la régression linéaire. L'estimateur des moindres carrés est une méthode d'estimation souvent utilisée pour le modèle linéaire mais n'a à mon sens rien à voir avec le modèle linéaire. C'est Galton qui invente vraiment le modèle linéaire.
  • On se perd dans des démonstrations. Il ne faut pas confondre un article encyclopédique avec un cours universitaire. Un article encyclopédique doit être centré sur la compréhension de la notion, pas sur la démonstration des différentes formules.
  • De mon point de vue, les exemples purement calculatoires ne servent à rien.
  • Le paragraphe "Démarche globale" ressemble plus à un cours où on prend l'élève par la main qu'à un article encyclopédique. Tous les lecteurs ne sont pas des bébés.
  • La partie "Moindres carrés des écarts d'abscisse" me semble brouiller le message.
  • Idem pour la partie sur la "régression orthogonale"
  • Il est intéressant de faire le lien avec la droite de Tukey, mais en fin d'article dans la partie consacrée aux extensions.
  • La partie "Modèle linéaire multiple" est inutile puisque redondante avec la partie Modèle général
  • De mon point de vue, la mise en oeuvre dans des logiciels de statistiques divers et variés n'apporte rien à l'article.

--PAC2 (discuter) 10 août 2015 à 21:08 (CEST)Répondre

j'approuve et vs souhaite bon courage pour transformer ce fatras pédant en article encyclopédique utile. Un résumé introductif rédigé selon les recommandations de WP:RI et un lien vers l'article linéarité seraient un minimum. PolBr (discuter) 11 août 2015 à 09:42 (CEST)Répondre

Grand nettoyage modifier

Je supprime la partie sur l'application à des modèles non linéaires qui parlent de méthode pour linéariser des équations non linéaires mais ne parle pas de régression linéaire.


Dans certains cas, on peut ajuster un modèle non linéaire en effectuant un changement de variable. Par exemple, si l'on a un modèle parabolique
: <math>y \propto \sqrt{x}</math>
il suffit de considérer <math>x' = \sqrt{x}</math> et de faire la régression sur (''x''', ''y''). Par exemple, lorsque l'on s'intéresse à l'[[oxydation à haute température]] d'un métal formant un oxyde protecteur, une étude théorique prédit que la prise de masse a un comportement parabolique en fonction du temps ([[loi d'oxydation de Wagner]]), Δ''m'' α √''t''. On peut mesurer cette prise de masse par [[thermogravimétrie]], mais le système qui mesure de très faibles variations de masse (de l'ordre du microgramme) est très sensible aux perturbations, ce qui génère du bruit. La régression linéaire avec ''x'' = √''t'' et ''y'' = Δ''m'' permet de caractériser la cinétique d'oxydation.

De fait, pour une loi en puissance de ''x'' — ''y'' α ''x<sup>n</sup>'' où ''n'' est un nombre réel —, on peut poser ''x''' = ''x<sup>n</sup>''. Et de manière encore plus générale, si le modèle fait intervenir une fonction ƒ élémentaire dans une formule affine
: ''y'' = ''a'' + ''b''·ƒ(''x'')
on peut alors faire le changement de variable ''x''' = ƒ(''x'') pour avoir une relation affine
: ''y'' = ''a'' + ''b''·''x'''.

On peut parfois linéariser la relation en se plaçant en [[échelle logarithmique|diagramme logarithmique]] : 
: si ''y'' = ''ax<sup>n</sup>'', alors ln(''y'') = ln(''a'') + ''n''·ln(''x'')
donc le changement de variable ''x''' = ln(''x'') et ''y''' = ln(''y'') donne une relation affine
: ''y''' = ''a''' + ''n''·''x'''. 
La transformation peut être plus complexe. Par exemple, si une variable aléatoire suit une [[loi normale]], on peut déterminer les paramètres de la loi par régression linéaire par la méthode de la [[droite de Henry]].

Si une variable aléatoire suit une [[loi de Weibull]], alors on peut se ramener à un diagramme linéaire à partir de relevés de probabilités ''y'' = P(''x'')<ref group = "Note">La loi a une [[densité de probabilité]] continue, mais les valeurs sont nécessairement relevées de manière discrète.</ref> :
* en considérant les probabilités cumulées : la [[fonction de répartition]] vaut <math>\mathrm{F}(x) = 1 - \operatorname{e}^{-(x/\lambda)^k}</math> ;
* en effectuant le changement de variable ''x''' = ln(''x'') et ''y''' = ln(-ln(1 - F)), on a alors <math>y' = k(\ln x - \ln \lambda) = kx' - k \ln \lambda</math> ;
la régression linéaire permet alors de déterminer les valeurs de ''k'' et de λ.

Dans certains cas, on peut linéariser en se plaçant dans un espace de dimension supérieur. Si l'on est dans un espace à deux dimensions (''x'', ''y'') et que l'on veut ajuster un modèle polynomial de degré ''n'',
: ƒ<sub>''a''<sub>0</sub>, ''a''<sub>1</sub>, …, ''a<sub>n</sub>''</sub>(''x'') = ''a''<sub>0</sub> + ''a''<sub>1</sub>''x'' + … + ''a<sub>n</sub>x<sup>n</sup>''
on peut définir les variables
: ''x<sub>i</sub>'' = ''x<sup>i</sup>''
et effectuer une régression avec le modèle linéaire, la variable explicative étant le vecteur (''x''<sub>1</sub>, …, ''x<sub>n</sub>'') :
: ''g''<sub>''a''<sub>0</sub>, ''a''<sub>1</sub>, …, ''a<sub>n</sub>''</sub>(''x''<sub>1</sub>, …, ''x<sub>n</sub>'') = ''a''<sub>0</sub> + ''a''<sub>1</sub>''x''<sub>1</sub> + … + ''a<sub>n</sub>x<sub>n</sub>''.

{{loupe|régression polynomiale}}

Dans le même ordre d'idées, si le modèle est un cercle, d'équation cartésienne
: (''x'' - ''x''<sub>c</sub>)<sup>2</sup> + (''y'' - ''y''<sub>c</sub>)<sup>2</sup> = ''r''<sup>2</sup> ;
on peut définir les variables
: ''y''<sub>1</sub> = ''x''<sup>2</sup> + ''y''<sup>2</sup> ;
: ''x''<sub>1</sub> = ''x'' ;
: ''x''<sub>2</sub> = ''y'' ;
et effectuer une régression avec le modèle linéaire, la variable expliquée étant ''y''<sub>1</sub> et la variable explicative étant le vecteur (''x''<sub>1</sub>, ''x''<sub>2</sub>) :
: ƒ<sub>''a''<sub>0</sub>, ''a''<sub>1</sub>, ''a''<sub>2</sub></sub>(''x''<sub>1</sub>, ''x''<sub>2</sub>) = ''a''<sub>0</sub> + ''a''<sub>1</sub>''x''<sub>1</sub> + ''a''<sub>2</sub>''x''<sub>2</sub>
et déduire ''x''<sub>c</sub>, ''y''<sub>c</sub> et ''r'' de
: ''a''<sub>1</sub> = 2''x''<sub>c</sub> ;
: ''a''<sub>2</sub> = 2''y''<sub>c</sub> ;
: ''a''<sub>0</sub> = ''r''<sup>2</sup> - ''x''<sub>c</sub><sup>2</sup> - ''y''<sub>c</sub><sup>2</sup>.
Bien que l'on ait effectué une régression par la méthode des moindres carrés dans l'espace (''x''<sub>1</sub>, ''x''<sub>2</sub>, ''y''<sub>1</sub>), on n'a pas le résultat que l'on obtiendrait avec une régression par la méthode des moindres carrés dans l'expace (''x'', ''y'').

Idem pour la partie sur la régression circulaire

Considérons maintenant des positions relevées sur une sphère ; il peut s'agir de localisations géographiques, mais un point d'une sphère de référence (centrée sur l'origine du repère et de rayon 1) peut aussi servir à représenter une orientation (voir ''[[Coordonnées sphériques#Utilisation|Coordonnées sphériques > Utilisation]]''). Une régression sur ces points n'est évidemment pas linéaire.

En [[projection gnomonique]], un grand cercle ([[orthodromie]]) est représenté par une droite. Si l'on veut trouver la « meilleure orthodromie » pour un jeu de points — par exemple trouver l'orbite d'un satellite devant survoler au plus près un ensemble de sites —, on peut donc effectuer une régression linéaire sur la représentation gnomonique<ref>''[http://robert.mellet.pagesperso-orange.fr/rgrs_pol/regrs_03.htm Droite des moindres carrés]'', Robert Mellet</ref>.

Par ailleurs, je remplace la partie "Applications" par "Exemples d'applications" et je déplace cette partie à la fin de l'article afin que cela ne nuise pas à la compréhension de l'article.

Dans la partie "Modèle linéaire simple", je supprime le paragraphe suivant qui ne concerne pas du tout la régression linéaire :

Il a par ailleurs de nombreuses applications directes : il existe de nombreuses lois affines liant deux paramètres. Par ailleurs, pour une loi reliant plus de paramètres, lorsque l'on peut maîtriser des paramètres (comme c'est le cas en physique expérimentale), on étudie fréquemment l'influence d'un seul paramètre sur une quantité, influence qui peut parfois être modélisée par une loi affine. Ainsi, dans l'étude des gaz, la [[loi de Gay-Lussac]] est une loi liant de manière affine le volume d'un gaz et sa température, la pression et le nombre de molécules étant maintenus constants ; c'est un cas particulier de la [[loi des gaz parfaits]]
: <math>\mathrm{P} \mathrm{V} = n \mathcal{R} \mathrm{T} \Longrightarrow \mathrm{V} = \mathrm{V}_0 (1 + \alpha (\mathrm{T} - \mathrm{T}_0))_{n\ \mathrm{et}\ \mathrm{P}\ \mathrm{constants}}\text{.}</math>

--PAC2 (discuter) 13 août 2015 à 20:41 (CEST)Répondre

La question de la mise en œuvre dans un logiciel de statistique n'a rien d'une question encyclopédique. Il existe des dizaines et des dizaines de possibilités pour mettre en œuvre un modèle linéaire dans tous les langages possibles. Je supprime donc cette partie.

== Mise en œuvre dans des logiciels de calcul numérique et de statistiques ==
La régression linéaire est un outil largement utilisé et est donc intégré dans les principaux logiciels de calcul et de statistiques. Citons par exemple :
* [[Matlab]], [[Scilab]] et [[GNU Octave]], qui sur la forme traitent le problème comme la résolution d'un système d'équations linéaires surdéterminé ([[Division#Division matricielle|division matricielle]]), avec des fonctions complémentaires permettant d'avoir accès aux paramètres dérivés (comme la variance) ;<br /> voir ''[[wikibooks:fr:Découvrir Scilab/Calcul numérique#Régression linéaire|Wikibooks » Découvrir Scilab » Calcul numérique » Régression linéaire]]'' et ''[[Wikibooks:fr:Programmation Octave/Résoudre un Système d'équations linéaires#Résoudre le système|Wikibooks » Programmation Octave » Résoudre un Système d'équations linéaires » Résoudre le système]]'' ;
* [[R (langage de programmation et environnement statistique)|R]], qui propose la méthode des moindres carrés ainsi que, pour les cas simples,  la [[Méthode médiane-médiane|droite robuste de Tukey]] ;<br />voir ''[[wikibooks:fr:Programmation statistiques avec R/Quelques exemples#Régression linéaire|wikibooks » Programmation statistiques avec R » Quelques exemples » Régression linéaire]]'' et ''[[wikibooks:fr:Programmation statistiques avec R/Les méthodes d'optimisation et de régression#Régression linéaire| … » Les méthodes d'optimisation et de régression » Régression linéaire]]''.

--PAC2 (discuter) 13 août 2015 à 21:10 (CEST)Répondre

La partie "Démarche globale" n'a rien d'une partie encyclopédique. Je la supprime.


=== Démarche globale ===
Pour résumer, face à des données pour lesquelles on veut appliquer une loi affine :
# On calcule le coefficient de corrélation ''r'', ce qui nous indique si une loi affine est pertinente. Si ce n'est pas le cas, il faut trouver une autre loi, ou bien envisager de collecter plus de données…
# On détermine les coefficients de la droite, β<sub>0</sub> et β<sub>1</sub>, par régression linéaire.
# On teste la non-nullité de β<sub>1</sub> ; si β<sub>1</sub> n'est pas significativement différent de zéro, on en conclut que les données ne sont pas corrélées.
# On teste la non-nullité de β<sub>0</sub> ; si β<sub>0</sub> n'est pas significativement différent de zéro, on  recalcule β<sub>1</sub> pour une droite passant par 0.
# On calcule, pour un niveau de confiance donné, la précision sur β<sub>0</sub> et β<sub>1</sub>.
# On calcule, pour un niveau de confiance donné, la précision sur ''y''.

--PAC2 (discuter) 13 août 2015 à 21:30 (CEST)Répondre

J'ai commencé le grand nettoyage de cet article mais il reste encore beaucoup à faire. Pour le moment, je pense qu'il faut avoir les parties suivantes :

  • Histoire
  • Usages ou applications : on explique quels sont les différents usages : inférence prédictive, inférence causale, etc.
  • Présentation formelle :
    • Modèle linéaire simple et modèle linéaire multiples
    • Méthodes d'estimation
      • Moindres carrés
      • Estimation bayésienne, etc
  • Extensions
    • Robustesse
    • Applications à des modèles linéaires
  • Exemples d'applications dans différents domaines

--PAC2 (discuter) 13 août 2015 à 21:41 (CEST)Répondre

Je poursuis le grand nettoyage. Pour moi, les exemples numériques donnés n'apportent rien à la compréhension de la notion. Je les supprime pour clarifier l'article.--PAC2 (discuter) 5 septembre 2015 à 11:56 (CEST)Répondre

J'ai avancé et je commence à y voir plus clair mais il reste encore plusieurs chantiers. Merci d'être compréhensifs. --PAC2 (discuter) 6 septembre 2015 à 21:44 (CEST)Répondre

Pour moi, il reste encore pas mal de choses à faire :

L'objectif est de faire un article synthétique qui couvre l'ensemble du sujet. --PAC2 (discuter) 8 septembre 2015 à 08:52 (CEST)Répondre

A vérifier (bis) modifier

Malgré mon alerte de 2014 (Discussion:Régression linéaire#Relecture souhaitée), ma demande sur les projets math et probabilité de décembre 2016[1], il semble que cet article ne soit pas suivi avec suffisamment de rigueur, ni suffisamment relu pour y corriger les erreurs mathématiques qu'il contient. Étant donné que la seule personne qui suive effectivement cet article (i.e. moi-même) n'a pas vraiment le niveau pour y effectuer une maintenance sérieuse et que je corrige aujourd'hui une erreur qui est présente dans l'article au moins depuis 2014, je repose le bandeau d'alerte. HB (discuter) 28 décembre 2016 à 09:00 (CET)Répondre

  HB : J'ai pas le temps de le faire tout de suite mais je vais essayer de m'y atteler dans les semaines à venir dés que j'aurai un peu de temps. Bien à toi, --Huguespotter (discuter) 28 décembre 2016 à 10:45 (CET)Répondre

Droite de regression modifier

Proposé par : 41.158.104.50 (discuter) 11 mars 2019 à 12:04 (CET)Répondre

Raisons de la demande de vérification modifier

À remplir par le proposant

Discussions et commentaires modifier

Toutes les discussions vont ci-dessous.

La droite de regression est une droite d'ajustement lineaire obtenue par la methode des moindres carres.

Qu'est-ce qu'il y a à discuter ? — Ariel (discuter) 11 mars 2019 à 12:27 (CET)Répondre
Bonne question. Kelam (discuter) 11 mars 2019 à 13:36 (CET)Répondre
Je pense que l'IP a été perturbé car en tapant droite de régression il est tombé sur cet article (pour le jeu des redirection) alors qu'il souhaitait probablement aboutir à la notion plus simple de droite d'ajustement affine. Faut-il modifier le redirect, Faut-il remplacer le redirect par une page d'homonymie pour laisser le lecteur choisir le niveau de son article ? Faut-il laisser les choses en l'état sachant que le RI (si on le lit) permet d'aboutir assez rapidement à l'article élémentaire ? HB (discuter) 11 mars 2019 à 19:55 (CET)Répondre
Ah, d'accord, Merci HB  .
(1) A minima, il faut rediriger vers Ajustement affine, je vais le faire aussitôt après ce message.
Ensuite (2) il faudrait quand même étoffer la section Régression linéaire#Droite de régression, peu utile en l'état, ou du moins mettre Ajustement affine comme article détaillé (idem, je vais le faire).
Enfin (3) ce qui me paraît souhaitable, et je peux m'en occuper prochainement, c'est faire de « Droite de régression » un article court voire un article tout court (c'est-à-dire long !). Il y a en effet beaucoup à dire : ce que l'on entend par droite de régression, c'est l'ajustement de données (représentables dans un diagramme x-y) à une droite, compte tenu des incertitudes sur x et y. Et la régression linéaire classique est tout sauf utile dans les sciences expérimentales, car elle présuppose en fait que les incertitudes sur x et y soient égales (alors que x et y sont souvent des grandeurs n'ayant pas le même ordre de grandeur voire même pas la même dimension physique !), ce qui est passablement idiot. Elle présuppose aussi que les incertitudes soient indépendantes les unes des autres, ce qui n'est pas idiot mais pas assez général. Figurez-vous que ce sont les géochimistes qui ont fait avancer le schmilblick (dans le cadre des datations radiométriques via la recherche de la « meilleure isochrone »), avec York en 1959 (sauf erreur) et Williamson quelques années plus tard (en 1967 je crois). York a traité le cas d'incertitudes indépendantes mais différentes les unes des autres (écarts-type   et  ). Je ne sais plus si Williamson a juste amélioré l'algorithme de York ou s'il a aussi traité les cas d'erreurs corrélées sur x et y (prise en compte du coefficient de corrélation  ), en tout cas ce dernier cas est traité aussi. Des cas plus généraux encore peuvent être traités dans le cadre de la théorie du problème inverse. Même votre serviteur y a ajouté son grain de sel il y a quelques décennies... — Ariel (discuter) 12 mars 2019 à 08:22 (CET)Répondre
P.S. J'oubliais de dire, et c'est important, que les travaux sus-indiqués ne se contentent bien sûr pas de déterminer la « meilleure droite » mais incluent l'évaluation quantitative de la qualité de l'ajustement et la propagation des incertitudes (au final, pour déterminer l'intervalle de confiance de l'âge obtenu).
Merci pour (1) et (2). Pour (3), je n'ai pas d'avis tranché entre étoffer les articles existants ou créer un article supplémentaire. Mais si vous voulez créer un article là-dessus, je dis Wikipédia:N'hésitez pas !. --Huguespotter (discuter) 12 mars 2019 à 11:32 (CET)Répondre
[Erratum] J'ai écrit ci-dessus mon point (3) à la volée sans prendre le temps de regarder de près l'article Ajustement affine, mea culpa ! Ce que j'ai appelé « la régression linéaire classique » est celle qu'on m'a apprise quand j'étais petit, celle où l'on minimise la somme des carrés des distances euclidiennes des points à la droite, et c'est elle qui est « passablement idiote » dans les applications en sciences expérimentales. L'article Ajustement affine décrit la droite obtenue en minimisant la somme des carrés des distances verticales (ou horizontales), si vous me passez l'expression. Elle n'est pas idiote mais présuppose tout de même que les erreurs sur les   sont négligeables et les incertitudes sur les   toutes égales (ou le contraire pour les distances horizontales), ce qui limite fortement les applications. Le reste de ce que j'ai écrit reste valable, a priori. Et j'insiste sur le fait que si l'on parle d'ajustement de données, il est fondamental de parler dans la foulée de la qualité de l'ajustement et de la propagation des incertitudes. — Ariel (discuter) 13 mars 2019 à 07:14 (CET)Répondre
Mais ce que vous appelez régression linéaire classique ne me semble pas du tout classique comme régression linéaire  . Par contre, l'ajustement au moindre distances (au carré) mériterait en effet d'être traité dans l'article ajustement affine, car l'article ajustement affine pour moi a pour but d'expliquer un maximum de type d’ajustement affine. Bonne journée, --Huguespotter (discuter) 13 mars 2019 à 08:34 (CET)Répondre
Vous avez sûrement raison, je l'ai appelée classique par nombrilisme, parce que c'est la première qu'on m'ait apprise et que plus tard j'ai dû passer pas mal de temps à expliquer aux uns ou aux autres que c'était sans intérêt pour l'ajustement linéaire de points expérimentaux. Mes excuses... — Ariel (discuter) 13 mars 2019 à 10:45 (CET)Répondre

En présence de plusieurs articles qui semblent traiter du même sujet, il s’agit de bien comprendre les différences. L’ajustement affine est la détermination d’une droite qui approche une famille de points. Il y a plusieurs méthodes qui ne sont pas plus idiotes les unes que les autres, tout comme il y a plusieurs moyennes. La pertinence du choix d’un ajustement linéaire est justement le problème de la régression. Selon que la variable Y se conçoive comme dépendant d’une variable X et d’un bruit ε indépendant, sous la forme Y = Xβ + ε, ou que les variables X et Y soient toutes deux des fonctions affines d’une variable tierce Z avec des bruits indépendants εX et εY, le modèle n’est pas le même et du coup l’ajustement affine opportun ne sera pas le même. À mon avis, l’article « Ajustement affine » doit se concentrer sur les diverses méthodes, avec une redirection depuis « Droite de régression », tandis que l’article « Régression linéaire » doit se concentrer sur la formulation du modèle, ses limites et variantes et les tests d’adéquation. Ambigraphe, le 13 mars 2019 à 11:33 (CET)Répondre

Pour singer une exclamation attribuée au Christ[a], il y a des moments où les matheux font chier. Pourquoi croyez-vous que l'article Ajustement affine ait 0 iw ? Réponse : parce que tous les articles en langue étrangère (au moins celles que je connais un tant soit peu) traitent de l'ajustement des équations linéaires (au sens strict) et des équations affines dans le même article, dont le titre est la transcription de « Régression linéaire ». Tout le monde (peut-être pas les matheux, qui se fichent de toute façon de l'ajustement de données expérimentales) parle de droite de régression (ou de régression linéaire, dont c'est souvent considéré comme un cas particulier) et non pas d'ajustement affine pour l'ajustement de données à une équation du type  . En plus l'équation d'une droite n'est qu'une équation affine parmi tant d'autres (l'ajustement à une équation du type  , vous appelez ça comment ?) Bref, je propose que (1) l'article Régression linéaire parle de l'ajustement d'une équation linéaire ou affine en général (c'est-à-dire à n'importe quel nombre de dimensions), avec bien sûr, je connais la différence, un petit couplet sur la distinction utile entre linéaire et affine (mais pour la régression ça ne change pas grand chose) ; et (2) que l'ajustement d'une droite (pour lequel la régression n'est pas nécessairement linéaire, selon ce qu'on sait sur les incertitudes portant sur les abscisses et les ordonnées) soit traité dans un article annonçant la couleur, c'est-à-dire « Droite de régression ». Pour terminer je signalerai que dans ce contexte le mot linéaire est ambigu puisqu'il peut faire référence à la linéarité du problème (quand on minimise une expression algébrique du second degré, dont les dérivées partielles sont des fonctions linéaires, et ce n'est pas toujours le cas quand on cherche la « meilleure droite ») ou à la linéarité de l'objectif (une relation linéaire ou affine : équations de droites, plans, hyperplans et autres relations linéaires/affines entre   et  ). — Ariel (discuter) 13 mars 2019 à 14:05 (CET)Répondre
  1. Pour connaître le contenu de cette anecdote apocryphe, il suffit de m'envoyer une demande sur papier libre, avec un chèque de 10  et une enveloppe timbrée pour le retour.

Merci de mettre vos grossièretés ailleurs. Je vous réponds poliment point par point.

  1. Il n’est pas question ici de distinguer les cas affines et linéaires, puisque les statisticiens ont l’habitude de rajouter une donnée constante de valeur 1.
  2. Non, les matheux ne se désintéressent pas des problèmes de mesures de données expérimentales. Je veux bien considérer que la recherche de protocoles améliorant la précision des mesures soit un problème de physicien, mais la réflexion sur le traitement des erreurs de mesure préoccupe aussi des matheux, ne vous déplaise.
  3. Pour moi, la détermination d’une équation du type   approchant un nuage de points dans l’espace est aussi un ajustement affine, et il y a plusieurs manières de le faire. Le fait qu’une manière soit plus pertinente qu’une autre repose sur le modèle de régression sous-jacent. Ce n’est pas toujours la même qui a le dessus.

Préconisez-vous de traiter l’ajustement à une droite dans « Droite de régression » et à un hyperplan plus général dans « Ajustement affine » ou ai-je mal compris ? Ambigraphe, le 13 mars 2019 à 14:31 (CET)Répondre

(Toutes mes excuses pour mes propos irrévérencieux.) Pour moi l'article Régression linéaire devrait traiter les problèmes de régression linéaire en général (où la fonction à minimiser est algébrique du second degré), donc effectivement l'ajustement d'hyperplans pour lesquels les incertitudes ne portent que sur la « variable dépendante ». Avec pas trop de détails sur l'ajustement d'une droite (renvoi à l'article détaillé) mais en revanche un mot peut-être sur les problèmes linéarisables (ceux où la fonction à minimiser peut être approchée par une fonction algébrique du second degré dans un voisinage de la solution (en termes de valeurs ajustées) de taille comparable à l’hyper-volume d'incertitude des données. Pour la droite de régression (régression linéaire ou non selon ce qu'on sait des incertitudes), je pense que l'article devrait avoir ce titre et remplacer (amplifier, si l'on préfère) l'article Ajustement affine. — Ariel (discuter) 13 mars 2019 à 15:00 (CET)Répondre
Il est important de comprendre que l’ajustement affine ne se réduit pas à la seule régression linéaire en statistique. Je pense notamment que le paragraphe sur les estimateurs devrait rejoindre l’article « Régression linéaire ». Ambigraphe, le 13 mars 2019 à 16:39 (CET)Répondre

Je ne me suis pas exprimé assez clairement quant au sens de l'expression « Régression linéaire ». Il ne s'agit pas d'optimiser une fonction   (où   est le vecteur des paramètres à optimiser) linéaire en  , mais linéaire en   ! Ainsi, quand seuls les   sont sujets à erreur, optimiser une fonction du genre   ou   est un problème de régression linéaire alors qu'optimiser une fonction du genre   n'en est pas un (de prime abord), et   encore moins. L'expression « ajustement affine » me paraît à proscrire car   n'est pas une fonction affine de a et b mais bien linéaire (le serait-elle, affine, que ça ne changerait d'ailleurs rien à la méthode de résolution). La notion de régression linéaire s'étend naturellement à plusieurs dimensions : il s'agit de l'optimisation de modèles du type   linéaires en  , pas seulement des équations d'hyperplans (aucune nécessité que la fonction   soit linéaire en  ). — Ariel (discuter) 14 mars 2019 à 10:48 (CET)Répondre

Je suis tout à fait d'accord avec vous sur la différence entre regression linéaire (qui est linéaire en les paramètres) et ajustement affine (qui est affine en x) , mais je ne vois pas pourquoi il faudrait proscrire ajustement affine ? Et c'est justement tout l'enjeux de garder deux pages différentes. --Huguespotter (discuter) 14 mars 2019 à 12:25 (CET)Répondre
Parce qu'« ajustement linéaire » est utilisé comme synonyme de « régression linéaire », et qu'« ajustement affine » laisse penser que la relation est affine vis-à-vis des paramètres. D'autre part, parce que l'expression « ajustement affine » me paraît peu employée pour désigner l'optimisation d'une droite dans un diagramme x-y alors que « droite de régression » est super-classique (au moins dans les domaines où je lis beaucoup ; on dit aussi least-square line (« droite des moindres carrés »), qui ne se limite pas au cas linéaire classique). Enfin, la raison essentielle qui justifie l'existence de deux pages distinctes est que la régression linéaire est tout un monde et que la recherche d'une droite de régression en est tout un autre, avec comme seule intersection des deux ensembles l'ajustement d'une droite   quand les incertitudes expérimentales ne portent que sur les  . — Ariel (discuter) 14 mars 2019 à 12:43 (CET)Répondre
Eh bien l’ajustement affine n’est pas synonyme de régression linéaire. Je suis tout à fait d’accord que dans le cadre de la régression linéaire, c’est la linéarité des paramètres qui importe, et qu’il ne faut pas utiliser l’expression « ajustement affine » pour « régression linéaire », mais cela n’invalide pas l’existence d’un article « ajustement affine », dont le propos est de traiter l’ajustement affine, et pas la régression linéaire. Ambigraphe, le 14 mars 2019 à 17:15 (CET)Répondre
Mais pourquoi diable vouloir à tout prix titrer par l'expression « ajustement affine » qui : (1) prête tout de même à confusion ; (2) est faussement générale puisque dès la première phrase on limite le sujet à l'obtention d'une droite (et non, par exemple, à celle d'un plan   ou d'un hyperplan) ; (3) est largement moins utilisée (38 000 résultats selon Google) que « droite de régression » (133 000 résultats, ici) ; (4) n'a pas à ma connaissance de correspondance dans d'autres langues comme l'anglais ou l'espagnol, contrairement à la traduction littérale de « droite de régression » ? — Ariel (discuter) 15 mars 2019 à 07:20 (CET)Répondre
Je vois que tout le monde est en train de s'énerver au sujet d'une décision que j'ai prise il y a 5 ans et que j'ai expliqué sur cette même page de discussion (il suffit de lire #Création de l'article ajustement affine) : exfiltrer de cet article réservé à des connaisseurs la partie élémentaire en lui donnant son nom élémentaire. J'ai aussi rappelé cette décision lors d'une discussion que j'avais initiée sur le thé il y a deux ans Projet:Mathématiques/Le Thé/Archives 21#Régression linéaire dans laquelle on retrouve les mêmes participants qu'ici. Inutile de s'écharper pour cela.Revenez à la situation ante-bellum (même si je reste persuadée que refuser de tenir compte du niveau de math de nos lecteurs est une grave erreur). Je suis de tout façon effarée de l'ambition affichée par ces articles de stat-proba. Je parle seulement d'ambition affichée car bien que je n'en comprenne qu'à peine la moitié, j'ai pourtant du, dans cet article et celui de loi normale, corriger plusieurs erreurs que mes collègue spécialistes avaient tranquillement laissé passer (voir#Relecture souhaitée et #A vérifier (bis). Préférer un article incompréhensible et faux, à un article élémentaire et juste, ou transformer l'article élémentaire et juste en un nouvel article incompréhensible et technique est un choix éditorial que je ne partage pas mais, comme je m'éloigne progressivment de WP, cela n'a pas une grande importance. HB (discuter) 15 mars 2019 à 07:51 (CET)Répondre
Je pense que tout le monde reste convaincu de la pertinence de deux articles. Enfin en tous cas moi je le suis. et je n'ai rien contre le titre ajustement affine car l'article traite justement d'ajustement affine. Le problème d'appeler droite de régression l'article au lieu d'ajustement affine, c'est que alors la différence entre les deux articles à de gros risques de s'estomper, je pense. Il y existe en anglais l'article suivant Régression linéaire simple (en). Mais où il fait l'hypothèse suivante « It is common to make the additional stipulation that the ordinary least squares method should be used: the accuracy of each predicted value is measured by its squared residual (vertical distance between the point of the data set and the fitted line), and the goal is to make the sum of these squared deviations as small as possible. Other regression methods that can be used in place of ordinary least squares include least absolute deviations (minimizing the sum of absolute values of residuals) and the Theil–Sen estimator (which chooses a line whose slope is the median of the slopes determined by pairs of sample points). ... The remainder of the article assumes an ordinary least squares regression. »
Ce que ne fait pas notre article, d'où le fait que les articles ne sont pas liés. --Huguespotter (discuter) 15 mars 2019 à 08:53 (CET)Répondre

Bandeau modifier

Le bandeau apposé en 2016 demandant des vérifications ne me semble plus d'actualité. Et s'il l'est, quel est la liste des points à vérifier ? Lacaravannepasse (discuter) 20 mars 2023 à 18:01 (CET)Répondre

Revenir à la page « Régression linéaire ».