Théorème d'approximation universelle

Dans la théorie mathématique des réseaux de neurones artificiels, le théorème d'approximation universelle indique qu'un réseau à propagation avant d'une seule couche cachée contenant un nombre fini de neurones (c'est-à-dire, un perceptron multicouche) peut approximer des fonctions continues sur des sous-ensembles compacts de Rn.

Histoire modifier

Une des premières versions du cas avec largeur arbitraire a été prouvé par George Cybenko en 1989 pour des fonctions d'activation sigmoïdes[1]. Kurt Hornik a montré en 1991[2] que ce n'est pas le choix spécifique de la fonction d'activation, mais plutôt l'architecture multi-couches à propagation avant elle-même qui donne aux réseaux de neurones le potentiel d'être des approximateurs universels. Moshe Leshno et al en 1993[3] et plus tard Allan Pinkus en 1999[4] ont montré que la propriété d'approximation universelle est équivalente à l'utilisation d'une fonction d'activation non-polynomiale.

Le cas avec profondeur arbitraire a aussi été étudié par nombre d'auteurs, comme Zhou Lu et al en 2017[5], Boris Hanin et Mark Sellke en 2018[6], et Patrick Kidger et Terry Lyons en 2020[7]. Le résultat sur la largeur minimale par couche a été raffiné en 2020[8],[9] pour les réseaux résiduels.

Plusieurs extensions du théorème existent, comme celle à des fonctions d'activation discontinues[3], à des domaines non compacts[7], à des réseaux certifiables[10], et à des architectures de réseaux et des topologies alternatives[7],[11].

Cas avec largeur arbitraire modifier

On note   l'ensemble des fonctions continues d'un ensemble   vers un ensemble  . La forme classique du théorème d'approximation universelle pour une largeur arbitraire et une profondeur bornée est la suivante[1],[2],[12],[13]. Elle étend[4] les résultats classiques de George Cybenko and Kurt Hornik.

Théorème d'approximation universelle. Soit  . Notons que  , c'est-à-dire que   représente l'application de   à chacune des composantes de  [pas clair].

Alors   n'est pas polynomiale si et seulement si pour tout  ,  , pour tout sous-espace compact  , pour tout   et pour tout  , il existe  ,  ,   et  , tels que :

 
 

Une telle fonction   peut également être approximée par un réseau de plus grande profondeur en utilisant la même construction pour les deux premières couches   et   et en utilisant la fonction identité pour les couches ultérieures.

Cas avec profondeur arbitraire modifier

Les versions 'duales' du théorème considèrent des réseaux de largeur bornée et de profondeur arbitraire. Une variante du théorème d'approximation universelle a été prouvée pour le cas de la profondeur arbitraire par Zhou Lu et al. en 2017[5]. Ils ont montré que les réseaux de largeur n+4 avec fonction d'activation ReLU peuvent approximer n'importe quelle fonction intégrable au sens de Lebesgue sur un espace d'entrée de dimension n muni de la distance   à condition d'autoriser la profondeur du réseau à croître. Il a aussi été montré que si la largeur était inférieure ou égal à n, cette possibilité générale d'approximer toute fonction intégrable au sens de Lebesgue était perdue. Dans le même article [5] il est montré que les réseaux ReLU de largeur n+1 sont suffisants pour approximer n'importe quelle fonction continue à variables d'entrée de dimension n[14]. Le raffinement suivant précise la largeur minimale optimale pour laquelle une telle approximation est possible et est dû à Sejun Park et al.[15]

Théorème d'approximation universelle (distance L1, activation ReLU, profondeur arbitraire, largeur minimale). Pour toute fonction Bochner–Lebesgue p-integrable   et tout  , il existe un réseau ReLU entièrement connecté   de largeur exactement  , satisfaisant:

 .

En outre, il existe une fonction   et un certain  , pour lesquels il n'existe pas de réseau ReLU entièrement connecté de largeur inférieure à   satisfaisant la borne d'approximation ci-dessus.

Par ailleurs, le résultat central de [7] fournit le théorème d'approximation universelle suivant pour les réseaux à largeur bornée:

Théorème d'approximation universelle (activation non-affine, profondeur arbitraire, largeur constrainte). Soit   un sous-ensemble compact de  . Soit   une transformation non-affine continue qui soit continûment différentiable en au moins un point, avec des dérivées non nulles en ce point. Soit   l'espace des réseaux de neurones à propagation avant ayant   neurones d'entrée,   neurones de sortie, et un nombre arbitraire de couches cachées, chacune ayant   neurones, et telles que tout neurone caché ait   comme fonction d'activation et que tout neurone de sortie ait l'identité comme fonction d'activation.

Alors pour tout   et tout  , il existe   telle que:

 

En d'autres termes,   est dense dans   muni de la topologie de la convergence uniforme.

Certaines conditions nécessaires pour le cas largeur bornée, profondeur arbitraire ont été établies, mais il y a encore un écart entre les conditions nécessaires et les conditions suffisantes connues[5],[6],[16].

Informatique quantique modifier

Les réseaux de neurones quantiques peuvent être exprimés par différents outils mathématiques pour les circuits ordinateurs quantiques, allant du perceptron quantique aux circuits quantiques variationnels, tous deux basés sur des combinaisons de portes logiques quantiques. Les circuits quantiques variationnels sont basés sur un circuit paramétrique, n'impliquant pas de réseaux de neurones. Au lieu de cela, le perceptron quantique permet la conception d'un réseau de neurones quantiques avec la même structure que les réseaux de neurones à réaction, à condition que le comportement de seuil de chaque nœud n'implique pas l'effondrement de l'état quantique, c'est-à-dire aucun processus de mesure. En 2022, un tel bloc de construction sans mesure fournissant le comportement de la fonction d'activation pour les réseaux de neurones quantiques a été conçu [17]. Le circuit quantique renvoie une approximation arbitraire des fonctions d'écrasement dans l'intervalle de -1 à +1, ce qui est pertinent pour les qubits. Une telle méthode pour concevoir des fonctions d'activation quantiques arbitraires permet des multi-perceptrons quantiques et des réseaux de neurones à réaction quantique en général.

Notes et références modifier

  1. a et b G. Cybenko, « Approximation by superpositions of a sigmoidal function », Mathematics of Control, Signals, and Systems, vol. 2, no 4,‎ , p. 303–314 (DOI 10.1007/BF02551274, S2CID 3958369, CiteSeerx 10.1.1.441.7873)
  2. a et b Kurt Hornik, « Approximation capabilities of multilayer feedforward networks », Neural Networks, vol. 4, no 2,‎ , p. 251–257 (DOI 10.1016/0893-6080(91)90009-T)
  3. a et b Moshe Leshno, Vladimir Ya. Lin, Allan Pinkus et Shimon Schocken, « Multilayer feedforward networks with a nonpolynomial activation function can approximate any function », Neural Networks, vol. 6, no 6,‎ , p. 861–867 (DOI 10.1016/S0893-6080(05)80131-5, S2CID 206089312)
  4. a et b Allan Pinkus, « Approximation theory of the MLP model in neural networks », Acta Numerica, vol. 8,‎ , p. 143–195 (DOI 10.1017/S0962492900002919, Bibcode 1999AcNum...8..143P)
  5. a b c et d Zhou Lu, Homgming Pu, Feicheng Wang, Zhiqiang Hu et Liwei Wang, « The Expressive Power of Neural Networks: A View from the Width », Curran Associates, vol. 30,‎ , p. 6231–6239 (arXiv 1709.02540, lire en ligne)
  6. a et b Boris Hanin et Mark Sellke, « Approximating Continuous Functions by ReLU Nets of Minimal Width », MDPI, vol. 7, no 10,‎ , p. 992 (DOI 10.3390/math7100992  , arXiv 1710.11278)
  7. a b c et d Patrick Kidger et Terry Lyons « Universal Approximation with Deep Narrow Networks » () (arXiv 1905.08539)
    Conference on Learning Theory
  8. Sejun Park, Chulhee Yun, Jaeho Lee et Jinwoo Shin « Minimum Width for Universal Approximation » () (arXiv 1905.08539)
    Conference on Learning Theory
  9. Paulo Tabuada et Bahman Gharesifard « Universal Approximation Power of Deep Residual Neural Networks via Nonlinear Control Theory » () (arXiv 2007.06007)
    ICLR
  10. Maximilian Baader, Matthew Mirman et Martin Vechev « Universal Approximation with Certified Networks » () (lire en ligne)
    ICLR
  11. Hongzhou Lin et Stefanie Jegelka « ResNet with one-neuron hidden layers is a Universal Approximator » () (lire en ligne)
    « (ibid.) », Advances in Neural Information Processing Systems, Curran Associates, vol. 30,‎ , p. 6169–6178
  12. Haykin, Simon (1998). Neural Networks: A Comprehensive Foundation, Volume 2, Prentice Hall. (ISBN 0-13-273350-1).
  13. Hassoun, M. (1995) Fundamentals of Artificial Neural Networks MIT Press, p. 48
  14. Hanin, B. (2018). Approximating Continuous Functions by ReLU Nets of Minimal Width. arXiv preprint arXiv:1710.11278.
  15. (en) Sejun, Chulhee, Jaeho, Jinwoo Park, Yun, Lee, Shin, « Minimum Width for Universal Approximation », ICLR,‎ (arXiv 2006.08859, lire en ligne)
  16. Jesse Johnson « Deep, Skinny Neural Networks are not Universal Approximators » () (lire en ligne)
    International Conference on Learning Representations
  17. Marco Maronese, Claudio Destri et Enrico Prati, « Quantum activation functions for quantum neural networks », Springer, vol. 21, no 4,‎ , p. 1-24 (DOI 10.1007/s11128-022-03466-0, arXiv 2201.03700, lire en ligne)