Pyramide (traitement d'image)

En traitement d'images, la pyramide est une représentation multi-résolution d'une image. Elle permet de modéliser l'image à différentes résolutions, depuis l'image initiale jusqu'à une image très grossière. La pyramide d'images est souvent utilisée car elle permet à l'algorithme de traitement d'image de travailler depuis les détails jusqu'au « grossier ». Cet outil est notamment utilisé à des fins de segmentation d'image.

Exemple d'une pyramide d'image

Les principaux types de construction d'une pyramide d'images sont :

  • Gaussienne
  • Laplacienne
  • Irrégulière
  • Adaptative

Génération d'une pyramide modifier

Il existe deux principaux types de pyramides : passe-bas, et passe-bande.

Une pyramide passe-bas est réalisée en lissant l'image avec un filtre approprié pour ensuite la sous-échantillonner avec l'image lissée. On utilise généralement un facteur 2 le long de chaque direction. La procédure est ensuite répétée sur l'image résultante. Ce cycle est répété plusieurs fois. Chaque cycle de cette procédure résulte en une image plus petite avec un lissage plus important, mais avec une diminution de la densité de l'échantillonnage spatial (c'est-à-dire une diminution de la résolution de l'image). Illustré graphiquement, la représentation des images à différentes résolutions ressemble à une pyramide, avec l'image originale comme base et les images plus petites résultant de chaque cycle.

Une pyramide passe-bande est réalisée en faisant la différence entre les images dont les niveaux sont adjacents dans la pyramide avec une interpolation entre les niveaux de résolution adjacents (mise à l'échelle), ce qui permet le calcul des différences par pixel[1].

Noyaux de génération de pyramide modifier

De nombreux noyaux de lissage ont été proposés pour la création de pyramides[2],[3],[4],[5],[6],[7]. Parmi les différentes suggestions données, les noyaux binomiaux provenant des coefficients binomiaux se démarquent en tant que particulièrement pratiques et théoriquement bien fondés[3],[8],[9],[10]. Ainsi, avec pour une image en deux dimensions, nous pouvons appliquer un filtre binomial (normalisé) (14, 12, 14) typiquement, deux fois ou plus le long de chaque dimension spatiale, avant de sous-échantillonner par un facteur deux. Cette opération peut être effectuée autant de fois que souhaitée, menant à une représentation compacte et multi-résolution. Si elle est motivée par des exigences spécifiques, des échelles intermédiaires peuvent être faites dans lesquelles le sous-échantillonnage est laissé de côté, menant à des pyramides hybrides ou sur-échantillonnées[11]. Avec l'augmentation de la puissance de calcul des processeurs actuels, dans certaines situations, il est aussi possible d'utiliser de plus grands filtres de Gauss comme noyaux de lissage dans la générations des étapes de la pyramide.

Pyramide de Gauss modifier

Dans les pyramides de Gauss, les images résultats sont modifiées en utilisant une moyenne de Gauss (flou Gaussien) puis réduites. Chaque pixel contenant une moyenne locale qui correspond à un pixel voisin d'un niveau plus bas de la pyramide. Cette technique est utilisée surtout dans la synthèse de texture.

Pyramide de Laplace modifier

Les pyramides de Laplace sont très similaires aux pyramides de Gauss, mais sont calculées en sauvegardant la différence avec l'image floutée entre chaque niveau. Seul le plus petit niveau n'est pas une différence pour pouvoir reconstruire l'image en haute résolution utilisant les différences entre chaque niveau. Cette technique peut être utilisée en compression d'image[12].

Références modifier

  1. Peter J. Burt et Edward H. Adelson, « The Laplacian Pyramid as a Compact Image Code », IEEE Transactions on Communications, vol. 31,‎ , p. 532–540 (DOI 10.1109/TCOM.1983.1095851, lire en ligne [PDF])
  2. P. J. Burt, « Fast filter transform for image processing », Computer Graphics and Image Processing, vol. 16,‎ , p. 20–51 (DOI 10.1016/0146-664X(81)90092-7)
  3. a et b James L. Crowley, « A representation for visual information », Carnegie-Mellon University, Robotics Institute,‎ (lire en ligne)
  4. Peter Burt et Ted Adelson, « The Laplacian Pyramid as a Compact Image Code », IEEE Trans. Communications, vol. 9, no 4,‎ , p. 532–540 (lire en ligne)
  5. J. L. Crowley et A. C. Parker, « A representation for shape based on peaks and ridges in the difference of low-pass transform », IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 6, no 2,‎ , p. 156–170 (PMID 21869180, DOI 10.1109/TPAMI.1984.4767500)
  6. J. L. Crowley et A. C. Sanderson, « Multiple resolution representation and probabilistic matching of 2-D gray-scale shape », IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 9, no 1,‎ , p. 113–121 (DOI 10.1109/tpami.1987.4767876, lire en ligne)
  7. P. Meer, E. S. Baugher et A. Rosenfeld, « Frequency domain analysis and synthesis of image generating kernels », IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 9,‎ , p. 512–522 (DOI 10.1109/tpami.1987.4767939)
  8. Lindeberg, Tony, "Scale-space for discrete signals," PAMI(12), No. 3, March 1990, p. 234-254.
  9. Lindeberg, Tony. Scale-Space Theory in Computer Vision, Kluwer Academic Publishers, 1994, (ISBN 0-7923-9418-6) (see specifically Chapter 2 for an overview of Gaussian and Laplacian image pyramids and Chapter 3 for theory about generalized binomial kernels and discrete Gaussian kernels)
  10. See the article on multi-scale approaches for a very brief theoretical statement
  11. (en) « Real-time scale selection in hybrid multi-scale representations », sur www.nada.kth.se (consulté le )
  12. (en-US) P. Burt et E. Adelson, « The Laplacian Pyramid as a Compact Image Code », IEEE Transactions on Communications, vol. 31, no 4,‎ , p. 532–540 (ISSN 0096-2244, DOI 10.1109/tcom.1983.1095851, lire en ligne, consulté le )