Théorie de l'apprentissage statistique

La théorie de l'apprentissage statistique est un système d'apprentissage automatique à partir des domaines de la statistique et de l'analyse fonctionnelle[1],[2]. La théorie de l'apprentissage statistique traite du problème de la recherche d'une fonction prédictive basée sur des données. La théorie de l'apprentissage statistique a conduit à des applications dans des domaines tels que la vision par ordinateur, la reconnaissance de la parole, la bioinformatique.

Introduction

modifier

Les objectifs de l'apprentissage sont la prédiction et la compréhension. L'apprentissage relève de plusieurs catégories, y compris l'apprentissage supervisé, l'apprentissage non supervisé, l'apprentissage en ligne et l'apprentissage par renforcement. Du point de vue de la théorie de l'apprentissage statistique, l'apprentissage supervisé est le mieux approprié[3]. L'apprentissage supervisé consiste à apprendre à partir d'un ensemble de données de formation. Chaque point de la formation est une paire d'entrées-sorties, où l'entrée correspond à une sortie. Le problème d'apprentissage consiste à déduire la fonction qui mappe entre l'entrée et la sortie, de sorte que la fonction apprise peut être utilisée pour prédire la sortie d'une entrée future.

Selon le type de sortie, les problèmes d'apprentissage supervisés sont soit des problèmes de régression, soit des problèmes de classification. Si la sortie prend une plage continue de valeurs, c'est un problème de régression. En utilisant la loi d'Ohm comme exemple, une régression pourrait être effectuée avec la tension comme entrée et le courant comme sortie. La régression permettrait de trouver la relation fonctionnelle entre la tension et le courant   , tel que

 

Les problèmes de classification sont ceux pour lesquels la sortie sera un élément d'un ensemble discret. La classification est très courante pour les applications d'apprentissage automatique. Dans la reconnaissance faciale, par exemple, une image du visage d'une personne serait l'entrée, et l'étiquette de sortie serait le nom de cette personne.

Après l'apprentissage d'une fonction basée sur les ensembles de données d'apprentissage, cette fonction est validée sur un ensemble de données de test, qui n'apparaissaient pas dans l'ensemble de formation.

Description formelle

modifier

Soit   un espace vectoriel de toutes entrées possibles, et   l'espace vectoriel de toutes sorties possibles. La théorie de l'apprentissage statistique part du principe qu'il existe une distribution de probabilité inconnue sur l'espace produit  , i.e.il existe quelque inconnu  . L'ensemble de formation est composé de   partir de cette distribution de probabilité et notée

 

Tout   est un vecteur d'entrée à partir des données d'apprentissage, et   est la sortie qui lui correspond.

Dans ce formalisme, le problème d'inférence consiste à trouver une fonction   tel que  . Soit   un espace de versions   Appelé l'espace de versions. L'espace de versions est l'espace des fonctions que l'algorithme recherchera. Soit   la fonction objectif, une métrique pour la différence entre la valeur   et l'actuel valeur  . Le risque attendu est défini comme étant

 

La fonction cible, la meilleure fonction possible   qui peut être choisi, est donné par   qui satisfait

 

La distribution de probabilité   étant inconnu, il faut utiliser une approximation du risque attendu. Cette approximation se base sur l'ensemble de données d'apprentissage, un échantillon provenant de cette distribution de probabilité. On l'appelle le risque empirique

 

Un algorithme d'apprentissage qui choisit la fonction   minimisant le risque empirique est nommé minimisation du risque empirique.

Voir aussi

modifier

Références

modifier
  1. Trevor Hastie, Robert Tibshirani, Jerome Friedman (2009) The Elements of Statistical Learning, Springer-Verlag (ISBN 978-0-387-84857-0).
  2. Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar (2012) Foundations of Machine Learning, The MIT Press (ISBN 9780262018258).
  3. Tomaso Poggio, Lorenzo Rosasco, et al.