L'apprentissage PAC (pour probably approximately correct en anglais) est un cadre théorique pour l'apprentissage automatique. Il permet notamment d'évaluer la difficulté d'un problème dans le contexte de l'apprentissage supervisé. Il a été proposé par Leslie Valiant en 1984.

Principe modifier

Dans le cadre de l'apprentissage PAC, l'algorithme «apprenant» reçoit des données d'apprentissage («samples») et doit choisir une fonction qui généralise ces données. Cette fonction est choisie parmi un ensemble préétabli. Elle est appelée «hypothèse». Le but est que la fonction en question classifie de nouvelles données inconnues (distribuées identiquement aux données d'apprentissage) avec une erreur minimale, et ceci avec forte probabilité.

Cadre formel modifier

Le cadre le plus simple est le suivant[1].

On considère un ensemble d'échantillons, c'est-à-dire de points d'un espace X, étiquetés par «-1» ou «1». On dispose d'une loi de probabilité D sur X. On dispose aussi d'un ensemble d'hypothèses, c'est-à-dire d'un espace H, de fonctions de X vers {-1,1}. L'une d'elles est appelée le «concept» c : c'est la fonction inconnue que l'on veut apprendre.

L'erreur d'une hypothèse h par rapport au concept c sur D est :  .

On dit que H est PAC apprenable s'il existe un algorithme L tel que :

  • pour tout concept c de H ;
  • pour toute loi D sur X ;
  • pour tout paramètre d'erreur   ;
  • pour tout paramètre de confiance   ;

L fournit une hypothèse qui vérifie avec une probabilité  ,  .

L est efficace si sa complexité en temps est polynomiale en   et  .

Contexte et historique modifier

 
Leslie Valiant en 2005

L'apprentissage PAC a été proposé en 1984 par Leslie Valiant[2]. Ce cadre formel a permis de rapprocher la théorie de la complexité de l'apprentissage, et a donné naissance à ce que l'on appelle la computational learning theory[3].

Ce modèle a été critiqué, notamment à cause du choix de l'analyse dans le pire cas et de l'hypothèse que les données ne sont pas bruitées. D'autres modèles plus complexes ont alors été proposés[3].

Apprentissage PAC-Bayésien modifier

Principe théorique modifier

L'apprentissage PAC-Bayésien s'inspire de l'inférence bayésienne dans un cadre PAC. Plus précisément, le PAC-Bayésien étudie la capacité prédictive d'une mesure a posteriori   sur l'espace des predicteurs   par rapport à une mesure de référence a priori   et au jeu de données disponible. Ces terminologies n'ont pas la même signification qu'en inférence Bayésienne car le PAC-Bayésien n'utilise pas nécessairement le théorème de Bayes.

L'apprentissage PAC-Bayésien se base sur des bornes supérieures empiriques qui contrôlent l'erreur de généralisation de  :  . Cette quantité est une extension naturelle de la notion d'erreur introduite précédemment quand des mesures sur   sont considérées. Grâce à cette notion d'erreur sur des mesures, on peut alors définir une la notion de classe PAC-Bayésienne apprenable de façon analogue à une classe PAC-apprenable.

En supposant un accès à un jeu de données d'entraînement  , un résultat classique de la théorie PAC-Bayésienne est la borne de McAllester [4], donnée ci-dessous dans le cadre particulier de la classification. Pour toute mesure a priori   indépendante de  , avec probabilité au moins   sur  , pour toute mesure a posteriori  ,

 

  désigne la divergence de Kullback-Leibler. La théorie PAC-Bayésienne est suffisamment flexible pour dépasser le cadre de l'apprentissage supervisé, ce qui permet de changer l'objectif d'apprentissage supervisé   pour   pour n'importe quelle fonction de perte   à valeurs dans  , couvrant ainsi d'autres domaines tels que l'apprentissage par renforcement [5]

Algorithme PAC-Bayésien modifier

Les bornes PAC-Bayésiennes sont majoritairement empiriques. Elles définissent ainsi des objectifs pratiques d'optimisation (et donc des algorithmes d'apprentissage) PAC-Bayésiens. Un exemple reconnu est l'objectif suivant, dérivé d'une borne d'Olivier Catoni[6], valide pour une mesure a priori   et une température inverse   fixées:

 

Cet objectif, lorsqu'il est minimisé sur l'ensemble des mesures sur  , possède une formulation explicite lié aux mesures de Gibbs (introduite, par exemple, dans le livre de Chafai et Malrieu [7]) et implique, par exemple la méthode de Monte-Carlo par chaînes de Markov pour une estimation pratique. Il peut être également considéré sur des sous-classes de cette collection de mesures et la phase d'optimisation peut requérir d'autres type d'outils comme l'optimisation convexe pour la classe des fonctions gaussiennes par exemple.

Notes et références modifier

  1. Voir Cours de Fabien Torre sur le modèle d'apprentissage PAC.
  2. (en) L.G. Valiant. A Theory of the Learnable, Communications of the ACM, 27(11), pp. 1134-1142, November 1984.
  3. a et b Haussler 1990
  4. McAllester 2003
  5. Fard 2012
  6. Catoni 2007
  7. Chafai 2016

Voir aussi modifier

Bibliographie modifier

  • M. Kearns,U. Vazirani An Introduction to Computational Learning Theory. MIT Press, 1994.
  • David Haussler, « Probably Approximately Correct Learning », dans Proceedings of the Eighth National Conference on Artificial Intelligence, (lire en ligne)
  • David McAllester, « Simplified PAC-Bayesian margin bounds », dans Learning Theory and Kernel Machines: 16th Annual Conference on Learning Theory and 7th Kernel Workshop 2003. Proceedings, (lire en ligne)
  • Djalil Chafai, « Mesures de Gibbs », dans Recueil de Modèles Aléatoires, (lire en ligne)
  • Mahdi Milani Fard, « PAC-Bayesian policy evaluation for reinforcement learning », dans ArXiv, (lire en ligne)
  • Olivier Catoni, « PAC-Bayesian supervised classification: the thermodynamics of statistical learning », dans ArXiv, (lire en ligne)



Articles connexes modifier

Liens externes modifier