Matrice hessienne

En mathématiques, la matrice hessienne (ou simplement le hessien ou la hessienne) d'une fonction numérique $f$ est la matrice carrée, notée $H(f)$ , de ses dérivées partielles secondes.

Définition

Etant donnée une fonction $f$ à valeurs réelles

f:\mathbb {R} ^{n}\to \mathbb {R} ;(x_{1},...,x_{n})\mapsto f(x_{1},...,x_{n})

dont toutes les dérivées partielles secondes existent, le coefficient d'indice $i,j$ de la matrice hessienne $H(f)$ vaut $H_{ij}(f)={\frac {\partial ^{2}f}{\partial x_{i}\partial x_{j}}}$ .

Autrement dit,

H(f)={\begin{bmatrix}{\frac {\partial ^{2}f}{{\partial x_{1}}^{2}}}&{\frac {\partial ^{2}f}{\partial x_{1}\partial x_{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{1}\partial x_{n}}}\\{\frac {\partial ^{2}f}{\partial x_{2}\partial x_{1}}}&{\frac {\partial ^{2}f}{{\partial x_{2}}^{2}}}&\cdots &{\frac {\partial ^{2}f}{\partial x_{2}\partial x_{n}}}\\\vdots &\vdots &\ddots &\vdots \\{\frac {\partial ^{2}f}{\partial x_{n}\partial x_{1}}}&{\frac {\partial ^{2}f}{\partial x_{n}\partial x_{2}}}&\cdots &{\frac {\partial ^{2}f}{{\partial x_{n}}^{2}}}\end{bmatrix}}

.

On appelle discriminant hessien (ou simplement hessien) le déterminant de cette matrice.

Le terme « hessien » a été introduit par James Joseph Sylvester, en hommage au mathématicien allemand Ludwig Otto Hesse.

Soit notamment $f$ une fonction de classe ${\mathcal {C}}^{2}$ définie sur un ouvert $U$ de l'espace $E$ , à valeurs réelles. Sa matrice hessienne est bien définie et en vertu du théorème de Schwarz, elle est symétrique.

On appelle forme hessienne la forme quadratique associée à la matrice hessienne.

Application à l'étude des points critiques

Point col

On suppose $f$ fonction de classe C² sur un ouvert $U$ . La matrice hessienne permet, dans de nombreux cas, de déterminer la nature des points critiques de la fonction $f$ , c'est-à-dire des points d'annulation du gradient.

Condition nécessaire d'extremum local

Si $a$ est un point de minimum local de $f$ , alors c'est un point critique et la hessienne en $a$ est positive (c'est-à-dire que la forme hessienne est positive).
Si $a$ est un point de maximum local de $f$ , alors c'est un point critique et la hessienne en $a$ est négative (c'est-à-dire que la forme hessienne est négative)^[1].

En particulier, si la hessienne en un point critique admet au moins une valeur propre strictement positive et une valeur propre strictement négative, le point critique est un point col.

Condition suffisante d'extremum local

Article connexe : Loi d'inertie de Sylvester.

Précisément, un point critique de $f$ est dit dégénéré lorsque le discriminant hessien y est nul, autrement dit lorsque 0 est valeur propre de la hessienne. En un point critique non dégénéré, le signe des valeurs propres (toutes non nulles) détermine la nature de ce point (point d'extremum local ou point col) :

si la hessienne est définie positive, la fonction atteint un minimum local strict au point critique ;
si la hessienne est définie négative, la fonction atteint un maximum local strict au point critique ;
s'il y a des valeurs propres de chaque signe, le point critique est un point col (cf. supra).

Dans ce dernier cas, on définit l'indice du point critique comme la dimension maximale d'un sous-espace sur lequel la hessienne est définie négative. C'est aussi le nombre de valeurs propres négatives.

En dimension deux notamment, le discriminant hessien étant le produit des valeurs propres, son signe suffit à déterminer la nature d'un point critique non dégénéré.

Enfin pour un point critique dégénéré, aucune de ces implications n'est vraie. L'un des exemples les plus simples de point critique dégénéré est la selle de singe.

Courbe hessienne

Si $C$ est la courbe algébrique d'équation projective (homogène) $f(x,y,z)=0$ , on appelle courbe hessienne (ou simplement hessienne) de $C$ la courbe dont l'équation projective est $|H(f)|(x,y,z)=0$ , où $|H(f)|$ est le hessien (le déterminant de la matrice hessienne) de $f$ . La hessienne de $f$ a pour intersection avec $C$ les points critiques et les points d'inflexion de $C$ ^[2]. Si $C$ est de degré $d$ , sa hessienne est de degré $3(d-2)$ ; d'après le théorème de Bézout, le nombre des points d'inflexion d'une courbe régulière de degré $d$ est donc $3d(d-2)$ , ce qui est un cas particulier d'une des formules de Plücker.

Extension au cadre des variétés différentielles

Lorsque $M$ est une variété différentielle et $f$ une fonction numérique lisse sur $M$ , il est possible de définir la différentielle $\mathrm {d} _{x}f$ de $f$ en tout point, mais pas la matrice hessienne, comme on le voit en écrivant une formule de changement de cartes. Cependant, lorsque $m$ est un point critique pour la fonction $f$ , la matrice hessienne de $f$ en $m$ peut effectivement être définie. On peut donc parler de point critique dégénéré ou non et définir l'indice d'un tel point.

Il est possible de fournir une définition de cette hessienne en un point critique $m$ , sans recourir à des cartes locales. En effet, le point $m$ admet pour image par $\mathrm {d} _{m}f$ l'élément nul $0_{m}$ de la fibre en $m$ du fibré cotangent $T^{\ast }M$ . L'application linéaire tangente $T_{m}\mathrm {d} f$ arrive donc dans l'espace tangent en ce point, qui admet une décomposition canonique $T_{0_{m}}T^{\ast }M\simeq T_{m}M\oplus T_{m}^{\ast }M$ . La hessienne s'obtient en ne considérant que le deuxième terme de cette décomposition (le premier est trivial)^[3]. On peut donc la voir comme une application bilinéaire

\mathrm {Hess} _{m}(f):(v,w)\in T_{m}M\times T_{m}M\mapsto T_{m}(df)(v)(w).

Extension au cadre des variétés riemanniennes

Définition

Lorsque $(M,g)$ est une variété riemannienne et $f\in {\mathcal {C}}^{\infty }(M;\mathbb {R} )$ , la connexion de Levi-Civita $\nabla$ de la métrique riemannienne $g$ nous permet de définir le tenseur hessien

\mathrm {Hess} (f)\in \Gamma ^{\infty }(T^{*}M\otimes T^{*}M)

de $f$ par :

\mathrm {Hess} (f):=\nabla \nabla f=\nabla \mathrm {d} f

En coordonnées locales $\{x_{i}\}$ , le tenseur hessien s'exprime comme^[4] :

\mathrm {Hess} (f)=\nabla _{i}\,\partial _{j}f\ \mathrm {d} x_{i}\!\otimes \!\mathrm {d} x_{j}=\left({\frac {\partial ^{2}f}{\partial x_{i}\partial x_{j}}}-\Gamma _{ij}^{k}{\frac {\partial f}{\partial x_{k}}}\right)\mathrm {d} x_{i}\otimes \mathrm {d} x_{j}

où les $\Gamma _{ij}^{k}$ sont les symboles de Christoffel de la connexion $\nabla$ . Le tenseur hessien possède aussi les expressions suivantes :

\mathrm {Hess} (f)(X,Y)=g(\nabla _{X}\mathrm {grad} f,Y)

\mathrm {Hess} (f)(X,Y)=X(Yf)-\mathrm {d} f(\nabla _{X}Y)

.

Applications

À l'aide du tenseur hessien, on peut étendre la notion de fonction convexe (ou strictement convexe) aux fonctions numériques sur les variétés riemanniennes : ce sont celles pour lesquelles le hessien est, en chaque point, une forme bilinéaire positive (ou définie positive)^[5].

On peut aussi retrouver le fait que le hessien d'une fonction réelle lisse $f$ sur une variété différentielle $M$ est bien définie, indépendamment de tout choix de métrique, aux points critiques de $f$ . En effet, il est toujours possible de munir $M$ d'une métrique riemannienne particulière. Et si $m$ est un point critique de $f$ , l'expression en coordonnées locales du tenseur hessien en $m$ est :

\mathrm {Hess} (f)_{m}=\left.{\frac {\partial ^{2}f}{\partial x_{i}\partial x_{j}}}\right|_{m}\mathrm {d} x_{i}\otimes \mathrm {d} x_{j}

Les coefficients du tenseur hessien de $f$ en un point critique $m\in \mathrm {crit} (f)$ sont bien indépendants de la métrique riemannienne.

Lemme de Morse

Le lemme de Morse^[6] montre que le comportement d'une fonction régulière au voisinage d'un point critique non dégénéré est entièrement déterminé par la connaissance de l'indice du point critique.

Lemme de Morse — Soit $f$ une fonction ${\mathcal {C}}^{\infty }$ sur une variété différentielle de dimension $n$ . On considère un point critique non dégénéré $m$ de la fonction $f$ , et l'on note $k$ son indice. Alors il existe un système de coordonnées locales $x_{1},\dots ,x_{n}$ centré en $m$ et tel que l'expression correspondante de $f$ est

f(x)=f(m)-{x_{1}}^{2}-\cdots -{x_{k}}^{2}+{x_{k+1}}^{2}+\cdots +{x_{n}}^{2}

.

On qualifie un tel système de coordonnées de Morse.

Il résulte notamment du lemme que les points critiques non dégénérés sont isolés.

Le lemme de Morse se généralise aux espaces de Hilbert sous le nom de lemme de Morse-Palais (en).

Théorie de Morse

Article détaillé : Théorie de Morse.

Une fonction dont tous les points critiques sont non dégénérés et toutes les valeurs critiques distinctes est appelée fonction de Morse. La théorie de Morse a pour objectif de relier l'étude de la topologie de la variété à celle des points critiques des fonctions qui peuvent y être définies.

Notes et références

↑ Comme l'exemple des fonctions constantes le montre, la hessienne en un point de minimum local (resp. de maximum local) peut ne pas être définie positive (resp. définie négative).
↑ (en) G. Salmon, Higher Plane Curves, Stechert (1934)
↑ Patrick Massot, Topologie différentielle, p. 46
↑ (en) Jürgen Jost, Riemannian Geometry and Geometric Analysis, 2002 [détail des éditions], p. 139.
↑ (en) Jürgen Jost, Riemannian Geometry and Geometric Analysis, 2002 [détail des éditions], p. 140
↑ (en) John Milnor, Morse Theory, Princeton University Press, 1963. (ISBN 0-691-08008-9), p. 6.

Voir aussi

Articles connexes

Lien externe

G. Vial, Mini-cours d’optimisation

Portail de l'analyse

[1] Comme l'exemple des fonctions constantes le montre, la hessienne en un point de minimum local (resp. de maximum local) peut ne pas être définie positive (resp. définie négative).

[2] (en) G. Salmon, Higher Plane Curves, Stechert (1934)

[3] Patrick Massot, Topologie différentielle, p. 46

[4] (en) Jürgen Jost, Riemannian Geometry and Geometric Analysis, 2002 [détail des éditions], p. 139.

[5] (en) Jürgen Jost, Riemannian Geometry and Geometric Analysis, 2002 [détail des éditions], p. 140

[6] (en) John Milnor, Morse Theory, Princeton University Press, 1963. (ISBN 0-691-08008-9), p. 6.

[1]

[2]

[3]

[4]

[5]

[6]