Ouvrir le menu principal
Détection de visage par la méthode de Viola et Jones.

La détection de visage est un domaine de la vision par ordinateur consistant à détecter un visage humain dans une image numérique. C'est un cas spécifique de détection d'objet, où l'on cherche à détecter la présence et la localisation précise d'un ou plusieurs visages dans une image. C'est l'un des domaines de la vision par ordinateur parmi les plus étudiés, avec de très nombreuses publications, brevets, et de conférences spécialisées. La forte activité de recherche en détection de visage a également permis de faire émerger des méthodes génériques de détection d'objet.

La détection de visage a de très nombreuses applications directes en vidéo-surveillance, biométrie, robotique, commande d'interface homme-machine, photographie, indexation d'images et de vidéos, recherche d'images par le contenu, etc. Elle permet également de faciliter l'automatisation complète d'autres processus comme la reconnaissance de visage ou la reconnaissance d'expressions faciales.

Sommaire

ProblématiqueModifier

La détection de visage cherche à détecter la présence et la localisation précise d'un ou plusieurs visages dans une image numérique ou une vidéo. C'est un sujet difficile, notamment dû à la grande variabilité d'apparence des visages dans des conditions non contraintes:

  • Variabilité intrinsèque des visages humains (couleur, taille, forme)
  • Présence ou absence de caractéristiques particulières (cheveux, moustache, barbe, lunettes...)
  • Expressions faciales modifiant la géométrie du visage
  • Occultation par d'autres objets ou d'autres visages
  • Orientation et pose (de face, de profil)
  • Conditions d'illumination et qualité de l'image
  • Présence de photos de visages qui seront prise comme des visages de personnes en vrais.

La détection de visage doit faire face à une forte variabilité intra-classe, et la plupart des méthodes de détection d'objet destinées aux objets rigides ne sont pas adaptées[1].

HistoriqueModifier

Les premiers essais datent du début des années 1970, et sont basés sur des méthodes à bases d'heuristiques. Ces méthodes sont très peu robustes, car elles font de nombreuses suppositions en se plaçant dans des cas très simples (visage de face, bonnes conditions d'illuminations, etc.)[2]. La recherche et les premières méthodes significatives se développent surtout à partir des années 1990[2]. L'augmentation de la puissance de calcul des ordinateurs permet notamment l'utilisation de méthodes statistiques et d'apprentissage plus complexes et sur de plus gros volumes de données, ce qui permet un net gain de performance. Elle est particulièrement importante car elle se distingue des précédentes méthodes de détection d'objet, auparavant limitées aux objets rigides, et donc avec moins de variabilité[1].

Un pas important est franchi en 2001 avec la publication de la méthode de Viola et Jones, la première méthode capable de détecter des visages en temps-réel. La méthode devient standard et est reprise et améliorée par de nombreux chercheurs[3]. C'est également à partir des années 2000 que les méthodes basées apparence, qui apprennent des modèles de visage à partir d'un ensemble d'images d'apprentissage, se révèlent généralement supérieures aux autres types d'approches[3].

Techniques de détectionModifier

PerformancesModifier

ExtensionsModifier

reconnaissance de visage, reconnaissance d'expressions

ApplicationsModifier

La détection de visage possède de très nombreuses applications directes et indirectes. Parmi les applications directes, la plus connue est sa présence dans de nombreux appareils photo numérique, où elle sert à effectuer la mise au point automatique sur les visages. C'est également une technique importante pour les interfaces homme-machine évoluées, afin de permettre une interaction plus naturelle entre un humain et un ordinateur[3].

La détection de visage est aussi utilisée en indexation d'images et recherche d'information, où elle peut être utilisée pour rechercher des images contenant des personnes, associer automatiquement un visage à un nom dans une page web[4], identifier les principales personnes dans une vidéo par clustering[5].

La détection de visage peut aussi servir à déterminer l'attention d'un utilisateur, par exemple face à un écran dans l'espace public, qui peut également, une fois le visage détecté, déterminer le sexe et l'âge de la personne afin de proposer des publicités ciblées[6]. Cela peut également servir à savoir si une personne est bien présente devant une télévision allumée, et dans le cas contraire mettre l'appareil en veille ou réduire la luminosité afin d'économiser de l'énergie[7].

De façon plus indirecte, la détection de visage est la première étape vers des applications plus évoluées, qui nécessitent la localisation du visage, comme la reconnaissance de visage, la reconnaissance d'expression faciales, l'évaluation de l'âge ou du sexe d'une personne[3], le suivi de visage ou l'estimation de la direction du regard et de l'attention visuelle[8],[6]

Notes et référencesModifier

  1. a b et c M.-H. Yang, D. J. Kriegman, and N. Ahuja. Detecting faces in images: A survey. IEEE Transactions on Pattern Analysis and Machine Intelligence, 24(1):34–58, 2002.
  2. a b et c E. Hjelmas and B. K. Low. Face detection: A survey. Computer Vision and Image Understanding, p. 236–274, September 2001.
  3. a b c d et e Cha Zhang et Zhengyou Zhang, A Survey of Recent Advances in Face Detection, Microsoft Research, 2010.
  4. Zhongfei Zhang;Srihari, R.K.; Rao, A. Face detection and its applications in intelligent and focused image retrieval, IEEE International Conference on Tools with Artificial Intelligence, 1999
  5. Ji Tao;Yap-Peng Tan, Face clustering in videos using constraint propagation, IEEE International Symposium on Circuits and Systems, 2008, p. 3246- 3249
  6. a et b Visual of Focus of attention demo and application
  7. Ryo Ariizumi, Shigeo Kaneda, Hirohide Haga, Energy saving of TV by face detection, international conference on PErvasive Technologies Related to Assistive Environments 2008
  8. Kevin Smith, Sileye O. Ba, Daniel Gatica Perez, Jean-Marc Odobez, Tracking the multi person wandering visual focus of attention. International conference on Multimodal interfaces, 2006

BibliographieModifier

  • Richard Szeliski, Computer Vision: Algorithms and Applications, Springer, (lire en ligne)  

Voir aussiModifier