Théorème d'approximation universelle

Cet article est une ébauche concernant l’informatique théorique et les mathématiques.

Vous pouvez partager vos connaissances en l’améliorant (comment ?) selon les recommandations des projets correspondants.

Dans la théorie mathématique des réseaux de neurones artificiels, le théorème d'approximation universelle indique qu'un réseau à propagation avant d'une seule couche cachée contenant un nombre fini de neurones (c'est-à-dire, un perceptron multicouche) peut approximer des fonctions continues sur des sous-ensembles compacts de Rⁿ.

Histoire modifier

Une des premières versions du cas avec largeur arbitraire a été prouvé par George Cybenko en 1989 pour des fonctions d'activation sigmoïdes^[1]. Kurt Hornik a montré en 1991^[2] que ce n'est pas le choix spécifique de la fonction d'activation, mais plutôt l'architecture multi-couches à propagation avant elle-même qui donne aux réseaux de neurones le potentiel d'être des approximateurs universels. Moshe Leshno et al en 1993^[3] et plus tard Allan Pinkus en 1999^[4] ont montré que la propriété d'approximation universelle est équivalente à l'utilisation d'une fonction d'activation non-polynomiale.

Le cas avec profondeur arbitraire a aussi été étudié par nombre d'auteurs, comme Zhou Lu et al en 2017^[5], Boris Hanin et Mark Sellke en 2018^[6], et Patrick Kidger et Terry Lyons en 2020^[7]. Le résultat sur la largeur minimale par couche a été raffiné en 2020^[8]^,^[9] pour les réseaux résiduels.

Plusieurs extensions du théorème existent, comme celle à des fonctions d'activation discontinues^[3], à des domaines non compacts^[7], à des réseaux certifiables^[10], et à des architectures de réseaux et des topologies alternatives^[7]^,^[11].

Cas avec largeur arbitraire modifier

On note $C(X,Y)$ l'ensemble des fonctions continues d'un ensemble $X$ vers un ensemble $Y$ . La forme classique du théorème d'approximation universelle pour une largeur arbitraire et une profondeur bornée est la suivante^[1]^,^[2]^,^[12]^,^[13]. Elle étend^[4] les résultats classiques de George Cybenko and Kurt Hornik.

Théorème d'approximation universelle. Soit $\sigma \in C(\mathbb {R} ,\mathbb {R} )$ . Notons que $(\sigma \circ x)_{i}=\sigma (x_{i})$ , c'est-à-dire que $\sigma \circ x$ représente l'application de $\sigma$ à chacune des composantes de $x$ ^[pas clair].
Alors $\sigma$ n'est pas polynomiale si et seulement si pour tout $n\in \mathbb {N}$ , $m\in \mathbb {N}$ , pour tout sous-espace compact $K\subseteq \mathbb {R} ^{n}$ , pour tout $f\in C(K,\mathbb {R} ^{m})$ et pour tout $\varepsilon >0$ , il existe $k\in \mathbb {N}$ , $A\in \mathbb {R} ^{k\times n}$ , $b\in \mathbb {R} ^{k}$ et $C\in \mathbb {R} ^{m\times k}$ , tels que :
$\sup _{x\in K}\|f(x)-g(x)\|<\varepsilon$ où $g(x)=C\cdot (\sigma \circ (A\cdot x+b))$

Une telle fonction $f$ peut également être approximée par un réseau de plus grande profondeur en utilisant la même construction pour les deux premières couches $A$ et $C$ et en utilisant la fonction identité pour les couches ultérieures.

Cas avec profondeur arbitraire modifier

Les versions 'duales' du théorème considèrent des réseaux de largeur bornée et de profondeur arbitraire. Une variante du théorème d'approximation universelle a été prouvée pour le cas de la profondeur arbitraire par Zhou Lu et al. en 2017^[5]. Ils ont montré que les réseaux de largeur n+4 avec fonction d'activation ReLU peuvent approximer n'importe quelle fonction intégrable au sens de Lebesgue sur un espace d'entrée de dimension n muni de la distance $L^{1}$ à condition d'autoriser la profondeur du réseau à croître. Il a aussi été montré que si la largeur était inférieure ou égal à n, cette possibilité générale d'approximer toute fonction intégrable au sens de Lebesgue était perdue. Dans le même article ^[5] il est montré que les réseaux ReLU de largeur n+1 sont suffisants pour approximer n'importe quelle fonction continue à variables d'entrée de dimension n^[14]. Le raffinement suivant précise la largeur minimale optimale pour laquelle une telle approximation est possible et est dû à Sejun Park et al.^[15]

Théorème d'approximation universelle (distance L1, activation ReLU, profondeur arbitraire, largeur minimale). Pour toute fonction Bochner–Lebesgue p-integrable $f:\mathbb {R} ^{n}\rightarrow \mathbb {R} ^{m}$ et tout $\epsilon >0$ , il existe un réseau ReLU entièrement connecté $F$ de largeur exactement $d_{m}=\max\{{n+1},m\}$ , satisfaisant:

$\int _{\mathbb {R} ^{n}}\left\|f(x)-F_{}(x)\right\|^{p}\mathrm {d} x<\epsilon$ .

En outre, il existe une fonction $f\in L^{p}(\mathbb {R} ^{n},\mathbb {R} ^{m})$ et un certain $\epsilon >0$ , pour lesquels il n'existe pas de réseau ReLU entièrement connecté de largeur inférieure à $d_{m}=\max\{{n+1},m\}$ satisfaisant la borne d'approximation ci-dessus.

Par ailleurs, le résultat central de ^[7] fournit le théorème d'approximation universelle suivant pour les réseaux à largeur bornée:

Théorème d'approximation universelle (activation non-affine, profondeur arbitraire, largeur constrainte). Soit ${\mathcal {X}}$ un sous-ensemble compact de $\mathbb {R} ^{d}$ . Soit $\sigma :\mathbb {R} \to \mathbb {R}$ une transformation non-affine continue qui soit continûment différentiable en au moins un point, avec des dérivées non nulles en ce point. Soit ${\mathcal {N}}_{d,D:d+D+2}^{\sigma }$ l'espace des réseaux de neurones à propagation avant ayant $d$ neurones d'entrée, $D$ neurones de sortie, et un nombre arbitraire de couches cachées, chacune ayant $d+D+2$ neurones, et telles que tout neurone caché ait $\sigma$ comme fonction d'activation et que tout neurone de sortie ait l'identité comme fonction d'activation.
Alors pour tout $\varepsilon >0$ et tout $f\in C({\mathcal {X}},\mathbb {R} ^{D})$ , il existe ${\hat {f}}\in {\mathcal {N}}_{d,D:d+D+2}^{\sigma }$ telle que:
$\sup _{x\in {\mathcal {X}}}\,\left\|{\hat {f}}(x)-f(x)\right\|<\varepsilon .$
En d'autres termes, ${\mathcal {N}}$ est dense dans $C({\mathcal {X}};\mathbb {R} ^{D})$ muni de la topologie de la convergence uniforme.

Certaines conditions nécessaires pour le cas largeur bornée, profondeur arbitraire ont été établies, mais il y a encore un écart entre les conditions nécessaires et les conditions suffisantes connues^[5]^,^[6]^,^[16].

Informatique quantique modifier

Les réseaux de neurones quantiques peuvent être exprimés par différents outils mathématiques pour les circuits ordinateurs quantiques, allant du perceptron quantique aux circuits quantiques variationnels, tous deux basés sur des combinaisons de portes logiques quantiques. Les circuits quantiques variationnels sont basés sur un circuit paramétrique, n'impliquant pas de réseaux de neurones. Au lieu de cela, le perceptron quantique permet la conception d'un réseau de neurones quantiques avec la même structure que les réseaux de neurones à réaction, à condition que le comportement de seuil de chaque nœud n'implique pas l'effondrement de l'état quantique, c'est-à-dire aucun processus de mesure. En 2022, un tel bloc de construction sans mesure fournissant le comportement de la fonction d'activation pour les réseaux de neurones quantiques a été conçu ^[17]. Le circuit quantique renvoie une approximation arbitraire des fonctions d'écrasement dans l'intervalle de -1 à +1, ce qui est pertinent pour les qubits. Une telle méthode pour concevoir des fonctions d'activation quantiques arbitraires permet des multi-perceptrons quantiques et des réseaux de neurones à réaction quantique en général.

Notes et références modifier

↑ ^{a et b} G. Cybenko, « Approximation by superpositions of a sigmoidal function », Mathematics of Control, Signals, and Systems, vol. 2, n^o 4,‎ 1989, p. 303–314 (DOI 10.1007/BF02551274, S2CID 3958369, CiteSeer^x 10.1.1.441.7873)
↑ ^{a et b} Kurt Hornik, « Approximation capabilities of multilayer feedforward networks », Neural Networks, vol. 4, n^o 2,‎ 1991, p. 251–257 (DOI 10.1016/0893-6080(91)90009-T)
↑ ^{a et b} Moshe Leshno, Vladimir Ya. Lin, Allan Pinkus et Shimon Schocken, « Multilayer feedforward networks with a nonpolynomial activation function can approximate any function », Neural Networks, vol. 6, n^o 6,‎ janvier 1993, p. 861–867 (DOI 10.1016/S0893-6080(05)80131-5, S2CID 206089312)
↑ ^{a et b} Allan Pinkus, « Approximation theory of the MLP model in neural networks », Acta Numerica, vol. 8,‎ janvier 1999, p. 143–195 (DOI 10.1017/S0962492900002919, Bibcode 1999AcNum...8..143P)
↑ ^{a b c et d} Zhou Lu, Homgming Pu, Feicheng Wang, Zhiqiang Hu et Liwei Wang, « The Expressive Power of Neural Networks: A View from the Width », Curran Associates, vol. 30,‎ 2017, p. 6231–6239 (arXiv 1709.02540, lire en ligne)
↑ ^{a et b} Boris Hanin et Mark Sellke, « Approximating Continuous Functions by ReLU Nets of Minimal Width », MDPI, vol. 7, n^o 10,‎ mars 2019, p. 992 (DOI 10.3390/math7100992 , arXiv 1710.11278)
↑ ^{a b c et d} Patrick Kidger et Terry Lyons « Universal Approximation with Deep Narrow Networks » (Juillet 2020) (arXiv 1905.08539)
—Conference on Learning Theory
↑ Sejun Park, Chulhee Yun, Jaeho Lee et Jinwoo Shin « Minimum Width for Universal Approximation » (Octobre 2020) (arXiv 1905.08539)
—Conference on Learning Theory
↑ Paulo Tabuada et Bahman Gharesifard « Universal Approximation Power of Deep Residual Neural Networks via Nonlinear Control Theory » (2020) (arXiv 2007.06007)
—ICLR
↑ Maximilian Baader, Matthew Mirman et Martin Vechev « Universal Approximation with Certified Networks » (2020) (lire en ligne)
—ICLR
↑ Hongzhou Lin et Stefanie Jegelka « ResNet with one-neuron hidden layers is a Universal Approximator » (2018) (lire en ligne)
— « (ibid.) », Advances in Neural Information Processing Systems, Curran Associates, vol. 30,‎ 2018, p. 6169–6178
↑ Haykin, Simon (1998). Neural Networks: A Comprehensive Foundation, Volume 2, Prentice Hall. (ISBN 0-13-273350-1).
↑ Hassoun, M. (1995) Fundamentals of Artificial Neural Networks MIT Press, p. 48
↑ Hanin, B. (2018). Approximating Continuous Functions by ReLU Nets of Minimal Width. arXiv preprint arXiv:1710.11278.
↑ (en) Sejun, Chulhee, Jaeho, Jinwoo Park, Yun, Lee, Shin, « Minimum Width for Universal Approximation », ICLR,‎ 28 septembre 2020 (arXiv 2006.08859, lire en ligne)
↑ Jesse Johnson « Deep, Skinny Neural Networks are not Universal Approximators » (2019) (lire en ligne)
—International Conference on Learning Representations
↑ Marco Maronese, Claudio Destri et Enrico Prati, « Quantum activation functions for quantum neural networks », Springer, vol. 21, n^o 4,‎ 2022, p. 1-24 (DOI 10.1007/s11128-022-03466-0, arXiv 2201.03700, lire en ligne)

[cyb-1] {a et b} G. Cybenko, « Approximation by superpositions of a sigmoidal function », Mathematics of Control, Signals, and Systems, vol. 2, n^o 4,‎ 1989, p. 303–314 (DOI 10.1007/BF02551274, S2CID 3958369, CiteSeer^x 10.1.1.441.7873)

[horn-2] {a et b} Kurt Hornik, « Approximation capabilities of multilayer feedforward networks », Neural Networks, vol. 4, n^o 2,‎ 1991, p. 251–257 (DOI 10.1016/0893-6080(91)90009-T)

[leshno-3] {a et b} Moshe Leshno, Vladimir Ya. Lin, Allan Pinkus et Shimon Schocken, « Multilayer feedforward networks with a nonpolynomial activation function can approximate any function », Neural Networks, vol. 6, n^o 6,‎ janvier 1993, p. 861–867 (DOI 10.1016/S0893-6080(05)80131-5, S2CID 206089312)

[pinkus-4] {a et b} Allan Pinkus, « Approximation theory of the MLP model in neural networks », Acta Numerica, vol. 8,‎ janvier 1999, p. 143–195 (DOI 10.1017/S0962492900002919, Bibcode 1999AcNum...8..143P)

[ZhouLu-5] {a b c et d} Zhou Lu, Homgming Pu, Feicheng Wang, Zhiqiang Hu et Liwei Wang, « The Expressive Power of Neural Networks: A View from the Width », Curran Associates, vol. 30,‎ 2017, p. 6231–6239 (arXiv 1709.02540, lire en ligne)

[hanin-6] {a et b} Boris Hanin et Mark Sellke, « Approximating Continuous Functions by ReLU Nets of Minimal Width », MDPI, vol. 7, n^o 10,‎ mars 2019, p. 992 (DOI 10.3390/math7100992 , arXiv 1710.11278)

[kidger-7] {a b c et d} Patrick Kidger et Terry Lyons « Universal Approximation with Deep Narrow Networks » (Juillet 2020) (arXiv 1905.08539)
—Conference on Learning Theory

[park-8] Sejun Park, Chulhee Yun, Jaeho Lee et Jinwoo Shin « Minimum Width for Universal Approximation » (Octobre 2020) (arXiv 1905.08539)
—Conference on Learning Theory

[tabuada-9] Paulo Tabuada et Bahman Gharesifard « Universal Approximation Power of Deep Residual Neural Networks via Nonlinear Control Theory » (2020) (arXiv 2007.06007)
—ICLR

[10] Maximilian Baader, Matthew Mirman et Martin Vechev « Universal Approximation with Certified Networks » (2020) (lire en ligne)
—ICLR

[11] Hongzhou Lin et Stefanie Jegelka « ResNet with one-neuron hidden layers is a Universal Approximator » (2018) (lire en ligne)
— « (ibid.) », Advances in Neural Information Processing Systems, Curran Associates, vol. 30,‎ 2018, p. 6169–6178

[12] Haykin, Simon (1998). Neural Networks: A Comprehensive Foundation, Volume 2, Prentice Hall. (ISBN 0-13-273350-1).

[13] Hassoun, M. (1995) Fundamentals of Artificial Neural Networks MIT Press, p. 48

[14] Hanin, B. (2018). Approximating Continuous Functions by ReLU Nets of Minimal Width. arXiv preprint arXiv:1710.11278.

[15] (en) Sejun, Chulhee, Jaeho, Jinwoo Park, Yun, Lee, Shin, « Minimum Width for Universal Approximation », ICLR,‎ 28 septembre 2020 (arXiv 2006.08859, lire en ligne)

[johnson-16] Jesse Johnson « Deep, Skinny Neural Networks are not Universal Approximators » (2019) (lire en ligne)
—International Conference on Learning Representations

[maronese-17] Marco Maronese, Claudio Destri et Enrico Prati, « Quantum activation functions for quantum neural networks », Springer, vol. 21, n^o 4,‎ 2022, p. 1-24 (DOI 10.1007/s11128-022-03466-0, arXiv 2201.03700, lire en ligne)

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]