Similarité sémantique

La similarité sémantique est une notion définie entre deux concepts soit au sein d'une même hiérarchie conceptuelle, soit - dans le cas d'alignement d'ontologies - entre deux concepts appartenant respectivement à deux hiérarchies conceptuelles distinctes. La similarité sémantique indique que ces deux concepts possèdent un grand nombre d'éléments en commun (propriétés, termes, instances).

Dans le traitement du langage naturel modifier

Le traitement du langage naturel est un domaine de l'informatique et de la linguistique. L'analyse des sentiments, la compréhension du langage naturel et la traduction automatique (traduire automatiquement un texte d'une langue humaine à une autre) sont quelques-uns des principaux domaines dans lesquels elle est utilisée. Les grands modèles de langage peuvent apprendre des représentations de texte de haute qualité qui capturent des informations à la fois sémantiques et syntaxiques^[1].

Similarité sémantique vs. proximité sémantique modifier

D’un point de vue psychologie cognitive, les notions de proximité et de similarité sont bien distinctes. La théorie Gestaltiste^[2], fondée sur les travaux de ses trois fondateurs (K. Koffka,W. Köhler et M.Wertheimer), propose six lois fondamentales : loi de la bonne forme, loi de bonne continuité, loi de destin commun, loi de clôture, loi de proximité et loi de similarité.

La loi de similarité stipule que notre cerveau regroupe les éléments qui paraissent semblables, c'est-à-dire partageant un certain nombre de propriétés tant descriptives (perceptibles) que fonctionnelles. A contrario, la loi de proximité stipule que le cerveau regroupe les éléments qui apparaissent souvent ensemble, qui sont proches dans une même zone perceptive. C'est le cas des lettres qui forment un mot, des points qui forment une figure géométrique... Ce type de regroupement présente une certaine cohérence.

D’un point de vue ontologies, [Agirre et al. (2009)]^[3] estime que deux concepts sont similaires s’ils sont “géographiquement” à proximité l’un de l’autre dans une hiérarchie conceptuelle.

Ainsi, il y a similarité sémantique^[4] entre deux concepts (par exemple, Chien de cinéma et Chien de BD) si :

d'un point de vue intensionnel, les deux concepts partagent une grande proportion de leurs propriétés descriptives et fonctionnelles ;
d'un point de vue expressionnel, les deux concepts partagent une grande proportion des termes qui les dénotent (par exemple, Chien, Toutou, Clébard, etc.) ;
d'un point de vue extensionnel, les deux concepts partagent une grande proportion de leurs instances (par exemple Milou, Rantanplan, Idéfix, etc.).

Plusieurs outils sont utilisés pour la mesure de la similarité sémantique entre concepts tel que WNetSS API qui une API java manipulant une grande variété de mesures de similarité sémantique basées sur la ressource sémantique WordNet.

Notes et références modifier

↑ Neri Van Otten, « Top 7 Ways To Implement Document & Text Similarity In Python: NLTK, Scikit-learn, BERT, RoBERTa, FastText and PyTorch » , 19 décembre 2022
↑ Koffka, K. (1935). Principles of Gestalt Psychology. Routledge & Kegan Paul PLC. (ISBN 978-0710031211).
↑ Agirre, E., E. Alfonseca, K. Hall, J. Kravalova, M. Pasca, et A. Soroa (2009). A study on similarity and relatedness using distributional and wordnet-based approaches. In Proceedings of Human Language Technologies : The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, NAACL'09, Stroudsburg, PA, USA, pp. 19–27. Association for Computational Linguistics.
↑ Aimé, X., F. Furst, P. Kuntz, et F.Trichet (2011). Semiosem et proxima : mesures sémiotiques de similarité et de proximité conceptuelles. In Actes des 22^e journées francophones d'Ingénierie des Connaissances (IC'2011), 7e Plateforme AFIA, pp. 539–554. Presses de l’Université des Antilles et de la Guyane. (ISBN 9782748364231).

Voir aussi modifier

Articles connexes modifier

Liens externes modifier

(fr) websemantique.org
(en) WordSim353 - Similarity and Relatedness

Portail de l’informatique

[1] Neri Van Otten, « Top 7 Ways To Implement Document & Text Similarity In Python: NLTK, Scikit-learn, BERT, RoBERTa, FastText and PyTorch » , 19 décembre 2022

[2] Koffka, K. (1935). Principles of Gestalt Psychology. Routledge & Kegan Paul PLC. (ISBN 978-0710031211).

[3] Agirre, E., E. Alfonseca, K. Hall, J. Kravalova, M. Pasca, et A. Soroa (2009). A study on similarity and relatedness using distributional and wordnet-based approaches. In Proceedings of Human Language Technologies : The 2009 Annual Conference of the North American Chapter of the Association for Computational Linguistics, NAACL'09, Stroudsburg, PA, USA, pp. 19–27. Association for Computational Linguistics.

[4] Aimé, X., F. Furst, P. Kuntz, et F.Trichet (2011). Semiosem et proxima : mesures sémiotiques de similarité et de proximité conceptuelles. In Actes des 22^e journées francophones d'Ingénierie des Connaissances (IC'2011), 7e Plateforme AFIA, pp. 539–554. Presses de l’Université des Antilles et de la Guyane. (ISBN 9782748364231).

[1]

[2]

[3]

[4]