Distance de Jaro-Winkler

La distance de Jaro-Winkler mesure la similarité entre deux chaînes de caractères. Il s'agit d'une variante proposée en 1999 par William E. Winkler, découlant de la distance de Jaro (1989, Matthew A. Jaro) qui est principalement utilisée dans la détection de doublons.

Le résultat est normalisé de façon à avoir une mesure entre 0 et 1, donc 0 représente l'égalité des chaines comparées et 1, l'absence de similarité.

Cette mesure est particulièrement adaptée au traitement de chaînes courtes comme des noms ou des mots de passe.

Distance de Jaro modifier

La distance de Jaro entre les chaînes   et   est définie par :

 

où:

  •   est la longueur de la chaîne de caractères   ;
  •   est le nombre de caractères correspondants (voir ci-dessous);
  •   est le nombre de transpositions (voir ci-dessous).

Deux caractères identiques de   et de   sont considérés comme correspondants si leur éloignement (i.e. la différence entre leurs positions dans leurs chaînes respectives) ne dépasse pas :

 .

Le nombre de transpositions est obtenu en comparant le i-ème caractère correspondant de   avec le i-ème caractère correspondant de  . Le nombre de fois où ces caractères sont différents, divisé par deux, donne le nombre de transpositions.

Distance de Jaro-Winkler modifier

La méthode introduite par Winkler utilise un coefficient de préfixe   qui favorise les chaînes commençant par un préfixe de longueur   (avec  ). En considérant deux chaînes   et  , leur distance de Jaro-Winkler   est :

 

où :

  •   est la distance de Jaro entre   et  
  •   est la longueur du préfixe commun (maximum 4 caractères)
  •   est un coefficient qui permet de favoriser les chaînes avec un préfixe commun. Winkler propose pour valeur  

Exemples modifier

Soit deux chaînes   MARTHA et   MARHTA. Nous allons dresser leur table de correspondance. Ici, l'éloignement maximal vaut 6 / 2 - 1 = 2. Dans les cases jaunes de la table ci-dessous, on inscrira donc 1 lorsque les caractères sont identiques (il y a correspondance) et 0 sinon :

M A R T H A
M 1 0 0 0 0 0
A 0 1 0 0 0 0
R 0 0 1 0 0 0
H 0 0 0 0 1 0
T 0 0 0 1 0 0
A 0 0 0 0 0 1
  •   (nombre de 1 dans la table)
  •  
  •  
  • Les caractères correspondants sont {M,A,R,T,H,A} pour   et {M,A,R,H,T,A} pour  . En considérant ces ensembles ordonnés, on a donc 2 couples (T/H et H/T) de caractères correspondants différents, soit deux demi-transpositions. D'où  

La distance de Jaro est :

 

La distance de Jaro-Winkler avec   avec un préfixe de longueur   devient

 

Avec les chaînes   DWAYNE et   DUANE on trouve :

  •  
  •  
  •  
  •  

La distance de Jaro est :

 

Celle de Jaro-Winkler avec   :

 

Avec les chaînes   DIXON et   DICKSONX, on obtient :

D I X O N
D 1 0 0 0 0
I 0 1 0 0 0
C 0 0 0 0 0
K 0 0 0 0 0
S 0 0 0 0 0
O 0 0 0 1 0
N 0 0 0 0 1
X 0 0 0 0 0

On calcule l'éloignement maximum pour le critère de correspondance

 .
  •   (les deux X ne correspondent pas, car ils sont éloignés de plus de 3 caractères)
  •  
  •  
  •  

La distance de Jaro :

 

La distance de Jaro-Winkler avec   :

 

Notes et références modifier

  • (en) Jaro, M. A., « Advances in record linking methodology as applied to the 1985 census of Tampa Florida », Journal of the American Statistical Society, vol. 84, no 406,‎ , p. 414-420
  • (en) Jaro, M. A., « Probabilistic linkage of large public health data file », Statistics in Medicine, vol. 14,‎ , p. 491-498 (lire en ligne)
  • (en) Winkler, W. E., « The state of record linkage and current research problems », Statistics of Income Division, Internal Revenue Service Publication R99/04,‎ (lire en ligne)
  • (en) Winkler, W. E., « Overview of Record Linkage and Current Research Directions », Research Report Series, RRS,‎ (lire en ligne)

Liens externes modifier