Similarité lexicale

En linguistique, la similarité lexicale est la mesure du degré de ressemblance entre des séries de mots appartenant à deux langages donnés. Une similarité lexicale de 1 (ou 100 %) correspondrait à un recouvrement total entre les vocabulaires, tandis que 0 signifie qu'il n'y a pas de mots communs.

Il y a plusieurs façons de définir la similarité lexicale et les résultats varient en conséquence. Par exemple, la méthode de l’Ethnologue consiste à comparer un ensemble standardisé de listes de mots et à compter les formes qui présentent une similitude à la fois dans la forme et dans la signification. En utilisant une telle méthode, l'anglais a été évalué comme présentant une similitude lexicale de 60 % avec l'allemand et de 27 % avec le français.

La similarité lexicale peut être utilisée pour évaluer le degré de relation génétique entre deux langages. Des pourcentages supérieurs à 85 % indiquent habituellement que les deux langues comparées sont probablement des dialectes apparentés^[1].

La similarité lexicale constitue seulement une indication de l'intelligibilité mutuelle des deux langages, étant donné que cette dernière dépend aussi du degré de similitude phonétique, morphologique et syntaxique. Les variations dues aux différentes listes de mots utilisées ont aussi un effet là-dessus. Par exemple, la similitude lexicale entre le français et l'anglais est considérable dans les champs lexicaux relatifs à la culture, alors que leur similarité est plus restreinte quand il s'agit de mots de base (en termes de fonction). Contrairement à l'inter-intelligibilité, la similitude lexicale ne peut être que symétrique.

Langues indo-européennes modifier

Le tableau ci-dessous présente quelques valeurs de similarité lexicale pour des couples donnés de langues romanes, germaniques et slaves, telles que collectées et publiées par l'Ethnologue^[2].

Lang. code	Langue 1 ↓	Coefficients de similarité lexicale
		Catalan	Anglais	Français	Allemand	Italien	Portugais	Roumain	Romanche	Russe	Sarde	Espagnol
cat	Catalan	1	-	0,85	-	0,87	0,85	0,73	0,76	-	0,75	0,85
eng	Anglais	-	1	0,27	0,60	-	-	-	-	0,24	-	-
fra	Français	0,85	0,27	1	0,29	0,89	0,75	0,75	0,78	-	0,80	0,75
deu	Allemand	-	0,60	0,29	1	-	-	-	-	-	-	-
ita	Italien	0,87	-	0,89	-	1	0,80	0,77	0,78	-	0,85	0,82
por	Portugais	0,85	-	0,75	-	0,80	1	0,72	0,74	-	-	0,89
ron	Roumain	0,73	-	0,75	-	0,77	0,72	1	0,72	-	0,83	0,71
roh	Romanche	0,76	-	0,78	-	0,78	0,74	0,72	1	-	0,74	0,74
rus	Russe	-	0,24	-	-	-	-	-	-	1	-	-
srd	Sarde	0,75	-	0,80	-	0,85	-	0,83	0,74	-	1	0,76
spa	Espagnol	0,85	-	0,75	-	0,82	0,89	0,71	0,74	-	0,76	1
		Catalan	Anglais	Français	Allemand	Italien	Portugais	Roumain	Romanche	Russe	Sarde	Espagnol
Langue 2 →		cat	eng	fra	deu	ita	por	ron	roh	rus	srd	spa

Notes :

Les codes langue sont ceux de la norme ISO 639-3
L'Ethnologue ne précise pas avec quelle variante de la langue sarde la similarité lexicale a été calculée
"-" indique que les données de comparaison ne sont pas disponibles

Notes et références modifier

↑ Définition sur www.ethnologue.com
↑ Voir par exemple les données de similarité lexicale pour le Français, l'allemand, l'Anglais

[1] Définition sur www.ethnologue.com

[2] Voir par exemple les données de similarité lexicale pour le Français, l'allemand, l'Anglais

[1]

[2]