Régression des moindres carrés partiels

Régression des moindres carrés partiels
Type
Méthode statistique (d)Voir et modifier les données sur Wikidata
Inventeur

La régression des moindres carrés partiels a été inventée en 1983 par Svante Wold et son père Herman Wold ; on utilise fréquemment l'abréviation anglaise régression PLS (« Partial Least Squares regression » et/ou « Projection to Latent Structure »). La régression PLS maximise la variance des prédicteurs (Xi) = X et maximise la corrélation entre X et la variable à expliquer Y. Cet algorithme emprunte sa démarche à la fois à l'analyse en composantes principales (ACP) et à la régression[b 1],[i 1]. Plus précisément, la régression PLS cherche des composantes, appelées variables latentes, liées à X et à Y, servant à exprimer la régression de Y sur ces variables et finalement de Y sur X[b 2].

Historique modifier

En 1966, Herman Wold propose un algorithme nommé tout d'abord NILES (« Nonlinear estimation by Iterative LEast Squares »), puis NIPALS (« Nonlinear estimation by Iterative PArtial Least Squares ») pour l'analyse en composantes principales[b 3],[i 1].

En 1975 il présente l'approche PLS, pour analyser les données exprimées en J blocs de variables sur les mêmes individus[b 4].

En 1983, Svante Wold (fils d'Herman Wold) et Harald Martens combinent NIPALS et l'approche PLS pour les adapter à la régression dans le cas où le nombre de variables est très supérieur au nombre d'observations (et où une forte multicollinearité est observée)[Note 1].

En 1989, Svante Wold, Nouna Kettaneh-Wold, et Bert Skagerberg présentèrent pour la première fois la régression PLS non linéaire[i 2].

En 1990 M. Stone et R. J. Brooks proposent une méthode paramétrique permettant d'employer la méthode PLS pour la régression linéaire multiple, la PLS et la régression sur composantes principales[i 1].

Régression PLS linéaire modifier

Modèle modifier

 
fig.01 Approche PLS : réseau de causalité entre quatre groupes de variables (d'après M.Tenenhaus[b 5])

Le modèle de l'approche PLS s'applique sur des blocs de variables continues appelées variables manifestes, chacun de ces blocs sont des observations effectuées sur les mêmes individus. On pense dans ce modèle que chaque bloc de variables peut être résumé par une variable latente. Les variables manifestes peuvent engendrer les variables latentes, elles sont appelées alors variables manifestes formatives, ou bien elles peuvent être engendrées par les variables latentes auquel cas elles sont dénommées variables manifestes réflectives[i 3]. Les variables latentes dites endogènes sont expliquées par les autres variables latentes, les variables latentes explicatives sont dénommées exogènes[i 3].

Comme les régressions linéaires, la régression PLS prend pour hypothèse le modèle (1)

 

On recherche deux séries de matrices T et U de « scores » (cotes), P et Q de « loadings » (charges) tels que

 

D'autre part, les cotes de X sont de bons prédicteurs de Y, ce qui s'écrit (4)

 

  • X est une matrice n×m de prédicteurs,
  • Y est une matrice n×p de variables réponses,
  • T et U sont des matrices n×l de cotes, composantes ou facteurs,
  • P et Q sont les matrices m×l et p×l des charges,
  • et les matrices E et F sont les termes d'erreur, présumés être i.i.d. normaux.

S. Wold et coll. expliquent ainsi les différentes matrices de la régression PLS :

Les matrices de cotes T multipliées par les matrices de charges P' sont un bon résumé de X garantissant que les termes de résidus E soient faibles. De même U et Q' sont de bons résumés de Y, minimisant F. Les cotes de X sont aussi de bons prédicteurs de Y (voir équ.(4) ci-dessus)[i 4].

Les résidus G expriment l'écart entre l'observation et le modèle. On retrouve le modèle de régression multivarié (1)

 

Algorithme modifier

 
fig.02 : Algorithme général de la régression PLS d'après Svante Wold et coll[i 4].

L'algorithme PLS, inspiré de l'approche PLS et de NIPALS, est itératif[i 5]. Chaque étape de l'itération produit une composante.

L'algorithme classique de la régression PLS multivariée (PLS2) est défini ci-dessous[b 6] :

Si  
Étape1 –  ,  
Étape2 –  
Étape2.1 –  
Étape2.2 – répéter jusqu'à convergence de  
Étape2.2.1 –  
Étape2.2.2 – normer   à 1
Étape2.2.3 –  
Étape2.2.4 –  
Étape2.2.5 –  
Étape2.3 –  
Étape2.4 –  
Étape2.5 –  

La qualité de l'estimation est estimée par validation croisée, ou bien à l'aide du R2 ou du Q2 de Stone-Geisser[b 7].

L'interprétation se fait de la même manière qu'en analyse en composante principale, à l'aide de graphes montrant les observations sur les axes des variables latentes[i 6]. Les paramètres t et u sont porteurs des similarités/dissimilarités entre les objets (individus)[i 4]. Toujours d'après S. Wold et coll, les poids w et c donnent des informations sur les corrélations entre Y et X. Les résidus de Y servent à apprécier l'ajustement au modèle, les résidus de X servent à détecter les valeurs aberrantes.

Géométriquement, la régression PLS est une projection sur un hyperplan de l'espace des X, de telle manière que ce plan soit une bonne estimation du nuage de points des X et dont les coordonnées des projections (les p) soient de bons prédicteurs des Y[i 4].

Régression PLS non linéaire modifier

Il y a au moins deux manières d'introduire la non-linéarité dans l'approche PLS : la première consiste en une transformation non linéaire des données d'observations pour ensuite effectuer une régression linéaire PLS sur ces données transformées, la seconde consiste à supposer que les variables latentes t et u sont liées par des relations non linéaires[i 2],[i 7].

Dans la première catégorie se trouvent des méthodes telles que : INLR de Anders Berglund et Svante Wold (« Implicit non-linear latent variable regression ») ajoute les carrés des variables X aux variables prédicteurs[i 8].

Alors que dans la seconde, on peut lister :

  • La méthode PLS quadratique, proposée par S. Wold et al. en 1989, qui consiste à remplacer la relation linéaire entre les variables t et u par une relation polynomiale du second degré.
  • I. E. Frank expose en 1990 le modèle NLPLS (« Non Linear PLS ») où la relation, entre les mêmes variables internes que ci-dessus, est exprimée par des fonctions lissantes.
  • Toujours S. Wold en 1992, remplace la relation polynomiale de 1989 par une relation via des fonctions splines dans un modèle dénommé SPLPLS[i 7].
  • Dans GIFI – PLS[i 8], on remplace la variable X par une série de variables constituées à partir de X et des classes de valeurs de X, puis on applique la régression PLS sur ces nouvelles variables.

Notes et références modifier

Notes modifier

  1. voir fig.01 pour un exemple de modèle structurel dans l'approche PLS.

Références modifier

Ouvrages spécialisés modifier

  1. Tufféry 2010, p. 396
  2. Tenenhaus 1998, p. 76
  3. Tenenhaus 1998, p. 61
  4. Tenenhaus 1998, p. 233
  5. Tenenhaus 1998, p. 243
  6. Tenenhaus 1998, p. 128
  7. Tenenhaus 1998, p. 237 et suiv.

Articles publiés sur internet modifier

  1. a b et c [PDF]Séverine Vancolen, « Régression PLS », (consulté le )
  2. a et b [PDF](en) Roman Rosipal, « « Nonlinear Partial Least Squares: An Overview » » (consulté le )
  3. a et b [PDF]Michel Tenenhaus, « L'approche PLS », (consulté le )
  4. a b c et d [PDF](en) Svante Wold, Michael Sjöström, Lennart Eriksson, « « PLS-regression: a basic tool of chemometrics » », (consulté le )
  5. [PDF]Emmanuel Jakobowicz, Addinsoft, « Les Modèles d'équations structurelles à variables latentes », (consulté le )
  6. [PDF](en) Hervé Abdi, « « Partial Least Squares (PLS) Regression » » (consulté le )
  7. a et b [PDF](en) Mirtille Vivien, « Approches PLS linéaires et non linéaires pour la modélisation de multi-tableaux : théorie et applications », (consulté le )
  8. a et b Marlene Mörtsell, Mårten Gulliksson, « « An overview of some non-linear techniques in Chemometrics » » (consulté le )

Bibliographie modifier