En vision par ordinateur on désigne par détection d'objet (ou classification d'objet) une méthode permettant de détecter la présence d'une instance (reconnaissance d'objet) ou d'une classe d'objets dans une image numérique. Une attention particulière est portée à la détection de visage et la détection de personne. Ces méthodes font souvent appel à l'apprentissage supervisé et ont des applications dans de multiples domaines, tels la recherche d'image par le contenu ou la vidéo surveillance.

Détection de visage avec la méthode de Viola et Jones.

Problématique

modifier

Selon la terminologie usuelle[1] on peut distinguer la détection, de la localisation et de la reconnaissance d'objets :

  • détection (ou classification) : présence d'une instance de l'objet (« une voiture ») dans l'image
  • reconnaissance : identification d'une instance particulière (« la voiture de Michael Schumacher », « le visage de Gilles Deleuze »...)
  • localisation (ou parfois detection) : situation précise de l'instance (détectée ou reconnue) dans l'image (cadre englobant ou segmentation de la zone)

Pour des entités visuelles localisées (objet, visage, personne...), la détection et la localisation se confondent souvent. C'est différent pour des entités plus « abstraites » telles qu'intérieur/extérieur, jour/nuit, campagne/ville, etc. qui concernent plutôt la reconnaissance de scènes visuelles. Dans ce dernier cas, la localisation n'a pas toujours de sens puisque le concept est présent dans toute l'image.

La détection d'une classe d'objets est généralement considérée comme un problème plus difficile que la reconnaissance d'une instance particulière, puisqu'il faut identifier les caractéristiques communes à la classe en faisant abstraction de la variété des différentes instances au sein de ladite classe[2]. Cette variété peut être due à de multiples facteurs, notamment les conditions d'illumination ou le point de vue sous lequel a été prise la photo. Elle accroît encore dans le cas d'objets articulés (i.e non rigides) tels que les piétons ou les animaux.

Approche générale

modifier

L'approche générale pour détecter un objet dans une image (sans connaissance a priori sur les conditions de prise de vue) consiste en trois étapes :

Méthodes spécifiques

modifier

Des méthodes spécifiques ont été développées pour certains types d'objets, par exemple pour la détection de visage ou la détection de personne. Ces méthodes peuvent prendre en compte des caractéristiques spécifiques de l'objet comme le rapport largeur/hauteur, la présence des yeux et de la bouche dans le cas des visages, etc.

Mise en correspondance

modifier

La mise en correspondance vise à recaler les images (Exemple: SIFT)

Recherche à grande échelle

modifier

Quand les bases d'images sont grandes, les techniques de mise en correspondance deviennent inopérantes car trop gourmandes en calcul. La méthode bag-of-visterms consiste alors à agréger les détecteurs locaux selon un vocabulaire prédéfini, le dictionnaire. Inspiré de la technique connue depuis longtemps dans le domaine du texte (bag-of-words), elle a été proposée en 2003 pour la vidéo[3].

Voir aussi

modifier

Notes et références

modifier
  1. voir par exemple le site de la campagne internationale PascalVOC erreur modèle {{Lien archive}} : renseignez un paramètre « |titre= » ou « |description= »
  2. K. Murphy, A. Torralba, D. Eaton, W. T. Freeman, Object detection and localization using local and global features Lecture Notes in Computer Science (unrefeered). Sicily workshop on object recognition, 2005
  3. Josef Sivic, Andrew Zisserman, Video Google: A Text Retrieval Approach to Object Matching in Videos, international conference on computer vision 2003