Structural Similarity

Structural SIMilarity ou SSIM est une mesure de similarité entre deux images numériques.

Description modifier

Elle a été développée pour mesurer la qualité visuelle d'une image compressée, par rapport à l'image originale. L'idée de SSIM est de mesurer la similarité de structure entre les deux images, plutôt qu'une différence pixel à pixel comme le fait par exemple le PSNR. L'hypothèse sous-jacente est que l'œil humain est plus sensible aux changements dans la structure de l'image.

La métrique SSIM est calculée sur plusieurs fenêtres d'une image. La mesure entre deux fenêtres $x$ et $y$ de taille NxN est :

${\mathit {SSIM}}(x,y)=l(x,y).c(x,y).s(x,y)={\frac {(2\mu _{x}\mu _{y}+c_{1})(2\sigma _{x}\sigma _{y}+c_{2})(cov_{xy}+c_{3})}{(\mu _{x}^{2}+\mu _{y}^{2}+c_{1})(\sigma _{x}^{2}+\sigma _{y}^{2}+c_{2})(\sigma _{x}\sigma _{y}+c_{3})}}$

avec

$\mu _{x}$ la moyenne de $x$ ;
$\mu _{y}$ la moyenne de $y$ ;
$\sigma _{x}^{2}$ la variance de $x$ ;
$\sigma _{y}^{2}$ la variance de $y$ ;
$cov_{xy}$ la covariance de $x$ et $y$ ;
$c_{1}=(k_{1}L)^{2}$ , $c_{2}=(k_{2}L)^{2}$ et $c_{3}={c_{2} \over 2}$ trois variables destinées à stabiliser la division quand le dénominateur est très faible ;
$L$ la dynamique des valeurs des pixels, soit 255 pour des images codées sur 8 bits ;
$k_{1}$ = 0,01 et $k_{2}$ = 0,03 par défaut.

Pour l'évaluation de qualité d'une image, la formule précédente est appliquée sur la luminance uniquement. Typiquement, les grandeurs sont calculées sur des fenêtres de taille 8x8. La fenêtre courante peut se déplacer pixel par pixel sur l'ensemble de l’image. Cependant, les auteurs proposent de ne considérer qu'un sous-ensemble de ces fenêtres, par exemple en réduisant leur nombre d’un facteur deux dans les deux dimensions. Ceci permet de diminuer la complexité du calcul.

Structural dissimilarity (DSSIM) est une métrique dérivée de SSIM, elle est donnée par la formule suivante :

{\mathit {DSSIM}}(x,y)={\frac {1-{\mathit {SSIM}}(x,y)}{2}}

Discussions sur les performances modifier

Dans de nombreux cas, le SSIM surpasse significativement le MSE (Mean Squared Error) et ses dérivés en termes de précision, y compris dans des recherches menées par ses propres auteurs et d'autres ^[1]^,^[2]^,^[3]^,^[4]^,^[5]^,^[6]. Le SSIM est particulièrement performant face au MSE pour des distorsions qui n'affectent pas la structure de l'image (déplacement de la luminance, étirement du contraste...)^[7].

Des articles de recherche comme "A comprehensive assessment of the structural similarity index" par Richard Dosselmann et Xue Dong Yang montrent cependant que SSIM est en réalité moins précis qu'annoncé.

De plus, bien que SSIM soit inspiré de la perception visuelle humaine, sa formule montre qu'elle ne contient aucune modélisation élaborée du système visuel humain (SVH) et SSIM se base même sur des calculs non-perceptuels. Par exemple, le système visuel humain ne calcule pas de produit entre les valeurs moyennes des deux images.

Enfin, SSIM est conçu comme une mesure de qualité d'images fixes. SSIM ne contient aucun paramètre lié aux aspects temporels de la perception visuelle humaine et du jugement humain. Pourtant, certains^[Qui ?] utilisent SSIM pour mesurer la qualité de vidéos.

Notes et références modifier

↑ (en) Jacob Søgaard, Lukáš Krasula, Muhammad Shahid et Dogancan Temel, « Applicability of Existing Objective Metrics of Perceptual Quality for Adaptive Video Streaming », Electronic Imaging, vol. 28,‎ 14 février 2016, p. 1–7 (DOI 10.2352/ISSN.2470-1173.2016.13.IQSP-206, lire en ligne, consulté le 20 mai 2022)
↑ Lin Zhang, Lei Zhang, Xuanqin Mou et David Zhang, « A comprehensive evaluation of full reference image quality assessment algorithms », 2012 19th IEEE International Conference on Image Processing,‎ septembre 2012, p. 1477–1480 (DOI 10.1109/ICIP.2012.6467150, lire en ligne, consulté le 20 mai 2022)
↑ Zhou Wang et Qiang Li, « Information Content Weighting for Perceptual Image Quality Assessment », IEEE Transactions on Image Processing, vol. 20, n^o 5,‎ mai 2011, p. 1185–1198 (ISSN 1057-7149 et 1941-0042, DOI 10.1109/TIP.2010.2092435, lire en ligne, consulté le 20 mai 2022)
↑ Sumohana S. Channappayya, Alan C. Bovik, Constantine Caramanis et Robert W. Heath, « SSIM-optimal linear image restoration », 2008 IEEE International Conference on Acoustics, Speech and Signal Processing,‎ mars 2008, p. 765–768 (DOI 10.1109/ICASSP.2008.4517722, lire en ligne, consulté le 20 mai 2022)
↑ (en) Akshay Gore et Savita Gupta, « Full reference image quality metrics for JPEG compressed images », AEU - International Journal of Electronics and Communications, vol. 69, n^o 2,‎ février 2015, p. 604–608 (DOI 10.1016/j.aeue.2014.09.002, lire en ligne, consulté le 20 mai 2022)
↑ (en) Z. Wang et E. P. Simoncelli, « Maximum differentiation (MAD) competition: A methodology for comparing computational models of perceptual quantities », Journal of Vision, vol. 8, n^o 12,‎ 1^er septembre 2008, p. 8–8 (ISSN 1534-7362, PMID 18831621, PMCID PMC4143340, DOI 10.1167/8.12.8, lire en ligne, consulté le 20 mai 2022)
↑ Zhou Wang et A.C. Bovik, « Mean squared error: Love it or leave it? A new look at Signal Fidelity Measures », IEEE Signal Processing Magazine, vol. 26, n^o 1,‎ janvier 2009, p. 98–117 (ISSN 1053-5888, DOI 10.1109/MSP.2008.930649, lire en ligne, consulté le 20 mai 2022)

Voir aussi modifier

Sources modifier

(en) Z. Wang, A. C. Bovik, H. R. Sheikh and E. P. Simoncelli, "Image quality assessment: From error visibility to structural similarity," IEEE Transactions on Image Processing, vol. 13, no. 4, pp. 600-612, avril 2004.
(en) Loza et al., "Structural Similarity-Based Object Tracking in Video Sequences", Proceedings of the 9th International Conference on Information Fusion.
(en) Richard Dosselmann and Xue Dong Yang "A comprehensive assessment of the structural similarity index", https://link.springer.com/article/10.1007%2Fs11760-009-0144-1#page-1, DOI 10.1007/s11760-009-0144-1

Article connexe modifier

Liens externes modifier

Portail de l’imagerie numérique

[1] (en) Jacob Søgaard, Lukáš Krasula, Muhammad Shahid et Dogancan Temel, « Applicability of Existing Objective Metrics of Perceptual Quality for Adaptive Video Streaming », Electronic Imaging, vol. 28,‎ 14 février 2016, p. 1–7 (DOI 10.2352/ISSN.2470-1173.2016.13.IQSP-206, lire en ligne, consulté le 20 mai 2022)

[2] Lin Zhang, Lei Zhang, Xuanqin Mou et David Zhang, « A comprehensive evaluation of full reference image quality assessment algorithms », 2012 19th IEEE International Conference on Image Processing,‎ septembre 2012, p. 1477–1480 (DOI 10.1109/ICIP.2012.6467150, lire en ligne, consulté le 20 mai 2022)

[3] Zhou Wang et Qiang Li, « Information Content Weighting for Perceptual Image Quality Assessment », IEEE Transactions on Image Processing, vol. 20, n^o 5,‎ mai 2011, p. 1185–1198 (ISSN 1057-7149 et 1941-0042, DOI 10.1109/TIP.2010.2092435, lire en ligne, consulté le 20 mai 2022)

[4] Sumohana S. Channappayya, Alan C. Bovik, Constantine Caramanis et Robert W. Heath, « SSIM-optimal linear image restoration », 2008 IEEE International Conference on Acoustics, Speech and Signal Processing,‎ mars 2008, p. 765–768 (DOI 10.1109/ICASSP.2008.4517722, lire en ligne, consulté le 20 mai 2022)

[5] (en) Akshay Gore et Savita Gupta, « Full reference image quality metrics for JPEG compressed images », AEU - International Journal of Electronics and Communications, vol. 69, n^o 2,‎ février 2015, p. 604–608 (DOI 10.1016/j.aeue.2014.09.002, lire en ligne, consulté le 20 mai 2022)

[6] (en) Z. Wang et E. P. Simoncelli, « Maximum differentiation (MAD) competition: A methodology for comparing computational models of perceptual quantities », Journal of Vision, vol. 8, n^o 12,‎ 1^er septembre 2008, p. 8–8 (ISSN 1534-7362, PMID 18831621, PMCID PMC4143340, DOI 10.1167/8.12.8, lire en ligne, consulté le 20 mai 2022)

[7] Zhou Wang et A.C. Bovik, « Mean squared error: Love it or leave it? A new look at Signal Fidelity Measures », IEEE Signal Processing Magazine, vol. 26, n^o 1,‎ janvier 2009, p. 98–117 (ISSN 1053-5888, DOI 10.1109/MSP.2008.930649, lire en ligne, consulté le 20 mai 2022)

[1]

[2]

[3]

[4]

[5]

[6]

[7]