Apprentissage PAC-Bayésien

théorie statistique

L'apprentissage PAC bayésien (probably approximately correct bayesian learning) est une branche de l'apprentissage statistique, et plus précisément de l'apprentissage PAC qui s'inspire de l'inférence bayésienne. Plus précisément, l'apprentissage PAC-bayésien a pour but de contrôler la capacité de généralisation d'un algorithme d'apprentissage ou, en d'autres termes, à quel point un algorithme entraîné sur un certain jeu de données d'apprentissage est capable d'être performant sur une donnée jamais vue auparavant. Pour ce faire, la théorie PAC-Bayésienne s'inspire de l'idée de l'inférence bayésienne de modéliser une connaissance a priori du problème d'interêt au sein du processus d'apprentissage puis de la transformer en fonction du jeu de données d'entraînement. Néanmoins, l'apprentissage PAC-Bayésien ne se base pas sur le théorème de Bayes, ce qui différencie explicitement les deux domaines.

Cadre théorique modifier

Le cadre théorique requis pour l'apprentissage PAC-Bayésien est minimaliste[1]. Un problème d'apprentissage est défini comme un tuple    est l'espace des données (typiquement   pour un problème de classification),   est l'espace des prédicteurs et   est la fonction de perte qui définit l'objectif d'apprentissage qu'un prédicteur   doit satisfaire pour une donnée  .

Un jeu de données d'entraînement est supposé disponible  , ces données sont identiquement et independamment distribuées selon une mesure  . L'ensemble   désigne l'ensemble des mesures de probabilités sur  . L'apprentissage PAC-Bayésien a pour but de construire une mesure a posteriori   à partir de   et d'une mesure a priori  .

Pour attester de l'efficacité de l'entraînement, le critère théorique d'interêt est l' erreur de généralisation d'une mesure  :   Cette erreur de généralisation est l'erreur moyenne qu'effectue un prédicteur tiré selon   sur une nouvelle donnée   indépendante de  . Pour contrôler cette erreur, l'apprentissage PAC-Bayésien exploitel'erreur d'entraînement empirique:  

Deux résultats classiques modifier

Pour contrôler l'erreur de généralisation, l'apprentissage PAC-Bayésien se base sur des bornes supérieures empiriques. Deux résultats largement utilisés sont les bornes de McAllester[2] et Catoni[3].

Borne de McAllester modifier

Pour toute mesure a priori   indépendante de  , avec probabilité au moins   sur  , pour toute mesure a posteriori  ,

 

  désigne la divergence de Kullback-Leibler. Cette borne a été légèrement raffinée par Maurer [4], transformant ainsi le facteur   en  .

Borne de Catoni modifier

Pour toute mesure a priori   indépendante de  , pour tout paramètre  , avec probabilité au moins   sur  , pour toute mesure a posteriori  ,

 

Le résultat présenté est de facto une relaxation de la borne originale de Catoni[3]. Elle suggère une procédure algorithmique présentée ci-dessous.

Des bornes de généralisation valides au cours de l'entraînement modifier

Une approche statistique pour obtenir des garanties de généralisation sur des prédicteurs consiste à ne pas utiliser une partie des données d'entraînement pour s'en servir comme test après coup. Des inégalités de concentration permettent ainsi de déduire des garanties de généralisation à partir de l'erreur de test. Les bornes PAC-Bayésiennes permettent d'obtenir des garanties de généralisation directement à partir des données d'entraînement, sans sacrifier une partie des données.

Un algorithme d'apprentissage PAC-Bayésien modifier

Lee caractère empirique des bornes de McAllester et Catoni définissent des objectifs pratiques d'optimisation (et donc des algorithmes d'apprentissage) PAC-Bayésiens. L'algorithme suivant est basé sur la borne de Catoni (plus facile à optimiser car linéaire en la divergence de Kullback Leibler et l'erreur empirique) et cherche à obtenir la distribution   définie ci-dessous pour une température inverse   et toute mesure a priori   fixées:

 

 , appelée communément la mesure posterieure de Gibbs par rapport à  , possède une formulation explicite[5] donnée par:

 

Les mesures de Gibbs[6] apparaissent au delà de l'apprentissage PAC-Bayésien, comme par exemple, en physique statistique. Malgré leur formulation mathématique explicite, leur estimation peut se révéler ardue et requiert, par exemple, des estimations basées sur la méthode de Monte-Carlo par chaînes de Markov. Si l'on considère une approximation de la postérieure de Gibbs au sein d'une sous-classe de mesures, la phase d'optimisation peut requérir d'autres type d'outils comme l'optimisation convexe pour la classe des fonctions gaussiennes quand la fonction de perte est convexe.

Extensions et applications modifier

Choix de la mesure a priori modifier

Pour obtenir des garanties de généralisation fines, il est essentiel de considérer une 'bonne' mesure a priori, c'est-à-dire une mesure qui est déjà informative sur le problème d'apprentissage d'interêt. Néanmoins, les bornes de McAllester et Catoni n'autorisent pas l'utilisation des données d'entraînement pour trouver une telle mesure. Des stratégies alternatives existent pour contourner ce problème.

Pré-entraîner la mesure a priori : Il est possible de couper le jeu de données   en deux jeux distincts  .   permet de pré-entrainer une mesure a priori et   sert à l'entraînement PAC-Bayésien. La mesure obtenue a posteriori exploite l'entièreté des données de  , mais les garanties de généralisation ne portent que sur  .

Utiliser une mesure a priori différentiellement confidentielle : La confidentialité différentielle est exploitable en apprentissage PAC-Bayésien pour utiliser des mesures a priori qui dépendent des données[7]. La mesure postérieure de Gibbs, en particulier, est différentiellement confidentielle, ce qui permet d'avoir la borne suivante, dérivée de celle de McAllester. Pour toute température inverse   et toute mesure a priori  , avec probabilité au moins  :

 

Cette borne montre que, comme les mesures de Gibbs sont différentiellements confidentielles, il est possible de supprimer la divergence de Kullback Leibler des bornes PAC-Bayésiennes, ce qui simplifie le calcul de la borne (et la raffine potentiellement).

Application aux réseaux de neurones modifier

L'apprentissage PAC-Bayésien est utilisable en apprentissage profond pour obtenir des réseaux de neurones qui, une fois entraînés, possèdent des garanties de généralisation issues de la phase d'apprentissage[8]. Un exemple de type de réseau de neurones entraînés de façon PAC-Bayésienne est le cas des réseaux de neurones probabilistes (où chacun des poids du réseau est associé à une loi de probabilité). Pour ce faire, le jeu de données   est séparé en deux jeux distincts   L'entraînement se fait en deux étapes:

Création d'un réseau de neurones probabiliste a priori : un réseau de neurones est pré-entrainé sur   de façon traditionnelle, par exemple en utilisant une descente de gradient stochastique couplée à de la rétro-propagation. Le réseau ainsi obtenu est alors la moyenne d'un réseau de neurones probabiliste a priori.

Entraînement PAC-Bayésien : le réseau probabiliste a priori est entraîné à son tour sur   via un algorithme PAC-Bayésien, cela fournit un réseau final a posteriori qui contient des garanties de généralisation impliquant le réseau probabiliste a priori ainsi que les données de  

Notes et références modifier

Voir aussi modifier

Bibliographie modifier

  • Pascal Germain, « Généralisations de la théorie PAC-bayésienne pour l'apprentissage inductif, l'apprentissage transductif et l'adaptation de domaine. », dans Université Laval, (lire en ligne)
  • David McAllester, « Simplified PAC-Bayesian margin bounds », dans Learning Theory and Kernel Machines: 16th Annual Conference on Learning Theory and 7th Kernel Workshop 2003. Proceedings, (lire en ligne)
  • Olivier Catoni, « PAC-Bayesian supervised classification: the thermodynamics of statistical learning », dans ArXiv, (lire en ligne)
  • Djalil Chafai, « Mesures de Gibbs », dans Recueil de Modèles Aléatoires, (lire en ligne)
  • Andreas Maurer, « A note on the PAC Bayesian theorem. », dans ArXiv, (lire en ligne)
  • Pierre Alquier, « User-friendly introduction to PAC-Bayes bounds », dans ArXiv, (lire en ligne)
  • Gintare Karolina Dziugaite, « Data-dependent PAC-Bayes priors via differential privacy », dans Neural Information Processes Systems 2018, (lire en ligne)
  • Gintare Karolina Dziugaite, « Computing nonvacuous generalization bounds for deep (stochastic) neural networks with many more parameters than training data », dans Association for Uncertainty in Artifical Intelligence, (lire en ligne)


Articles connexes modifier

Liens externes modifier

  • [1]Thèse de Pascal Germain qui introduit le cadre d'étude PAC-Bayésien dans sa section 'Mise en Contexte'.