Similarité de texte

En Informatique, la mesure de similarité de textes vise à donner une valeur de similarité entre deux ensemble textuels (paragraphes ou documents).

L'échelle de mesure la plus compréhensive est de faire varier la valeur de similarité de 0 pour des textes sans aucun rapport entre eux à 1 pour des textes identiques.

Méthodes modifier

Peut reposer sur la distance en terme d'édition : le nombre d'ajouts ou retraits de caractères ou de mots nécessaires pour passer d'un texte à l'autre.

Peut être la différence sémantique entre les texte. Que ce soit la différence de vocabulaire en comparaisons de liste de mots non ordonné appelé bag of words, des comparaison de vocabulaire pondéré dont le plus connu est le modèle TF-IDF, ou des approches en réseau de neurones normalement récurant surtout fondé sur word2vec[1]. Convertir les mots par le word2vec permet d'interpréter bien plus d'information sur la sémantique des mots et donc potentiellement de considérer que des mots aux sens proches même si différents donnent plus de similarité entre les textes que des mots aux sens éloignées. (voir Plongement lexical)

Il est possible de faire des différences de bag-of-n-grams. C'est une méthode similaire à bag of words mais avec n-grams (plusieurs mots qui se suivent) à la place des mots[2]. Cela permet de conserver une forme d'ordre des mots local, tout en permettant de traiter des courtes expressions ou entités nommées de plusieurs mots. Néanmoins les résultats sont de bien plus haute dimensions étant donnée qu'il y a bien plus de manière de réunir des mots entre eux que de mots, ce qui peut entraîner des difficultés ou coût de traitement plus important.

Les textes peuvent également être comparé après conversion en vecteurs selon le modèle vectoriel.

La mesure de similarité de texte peut aussi être basé sur l'Analyse sémantique latente.

Histoire modifier

Références modifier

  1. (en) Quoc Le et Tomas Mikolov, « Distributed Representations of Sentences and Documents », Proceedings of the 31st International Conference on Machine Learning, PMLR,‎ , p. 1188–1196 (lire en ligne, consulté le ) :

    « dans l'Introduction »

  2. I. Lopez-Gazpio, M. Maritxalar, M. Lapata et E. Agirre, « Word n-gram attention models for sentence similarity and inference », Expert Systems with Applications, vol. 132,‎ , p. 1–11 (ISSN 0957-4174, DOI 10.1016/j.eswa.2019.04.054, lire en ligne, consulté le )

Articles connexes modifier