Ngram Viewer

Adresse	books.google.com/ngrams
Description	Service d’analyse Statistique
Commercial	Oui
Publicité	Non
Langue	Multilingue
Siège social	Mountain View ; États-Unis
Propriétaire	Google
Créé par	Google
Lancement	Juin 2010
État actuel	En activité
	modifier

Ngram Viewer est une application linguistique proposée par Google, permettant d’observer l’évolution de la fréquence d’un ou de plusieurs mots ou groupes de mots à travers le temps dans les sources imprimées. L’outil est entré en service en 2010. La dernière mise à jour de ce moteur de recherche web date de février 2020^[1].

Le terme « ngram » désigne dans ce contexte une suite de « n » mots^[2], ce qui est un cas particulier de la notion de n-gramme.

Principe de fonctionnement

L’outil Ngram de Google repose sur la base de données textuelles de Google Livres. Les textes issus de Google Livres sont classés en fréquence de séquences de mots (appelées ngrams) par année d’édition, chaque séquence de mots est alors affectée d’un « poids ».

Lorsque l'utilisateur demande une comparaison de plusieurs séquences de mots, l'outil trace alors des courbes permettant de comparer leur fréquence d'usage au cours du temps.

Intérêt et limites

Exemple d'informations affichées par Ngram Viewer avec l'évolution des occurrences des mots "progrès", "découverte", "invention" et "innovation" de 1800 à 2000.

L’intérêt de Ngram est essentiellement de réaliser des études historico-linguistiques ou socio-culturelles^[3], dites culturomistes^[4].

L’outil contient les limites suivantes (en particulier pour le français). Avant 1790, les « s » au milieu des mots s’écrivaient encore « ſ » (dit s long), les imparfaits « ait » s’écrivaient « oit », et ces quelques spécificités ainsi qu’une typographie irrégulière compromettent la pertinence de la reconnaissance optique de caractères (OCR) sur des ouvrages du XVI^e siècle au XVIII^e siècle. Ainsi l’équipe du projet d’OCRisation de la Bibliothèque nationale de France considère que, sans une intervention humaine dans le processus de numérisation, on ne peut faire de recherches en plein texte fiables dans des ouvrages datant d’avant 1800^[5]. Cette analyse a toutefois été revue depuis : les faux positifs ou faux négatifs représentent un pourcentage souvent faible par rapport à l'ensemble des données. En outre, Google Ngram sert à esquisser des tendances dans l'emploi d'un terme et non à donner des chiffres absolus et précis d'utilisation^[6].

Un autre défaut réside dans le fait qu’un ouvrage peu édité est aussi représenté qu’un ouvrage à large diffusion. Par ailleurs, la fréquence d’utilisation d’un mot dans un même texte risque à nouveau de donner une pondération trop importante à ce mot, en particulier s’il est rare^{[réf. nécessaire]}.

Notes et références

↑ (en) « Google Books Ngram Viewer », sur Google Livres (consulté le 14 janvier 2021).
↑ (en) https://books.google.com/ngrams/info
↑ (en) S. Roth, "Fashionable functions. A Google ngram view of trends in functional differentiation (1800-2000)", International Journal of Technology and Human Interaction, volume 10, numéro 2, 2004, p. 34-58 [lire en ligne].
↑ « Le cours des mots à travers les siècles », sur Sciences et avenir, 20 décembre 2010 (consulté le 27 octobre 2021).
↑ « Projet de numérisation des archives de la BnF »^{(Archive.org • Wikiwix • Archive.is • Google • Que faire ?)} [PDF], publié en 2006.
↑ Schuwey, Christophe, Interfaces : l'apport des humanités numériques à la littérature, Neuchatel, Alphil, 2019 (ISBN 978-2-88950-027-7 et 2-88950-027-6, OCLC 1119598143).

Voir aussi

Articles connexes

Googlefight où la comparaison des fréquences des expressions est faite sur Internet et non un corpus de textes imprimés.
Gallica
Europeana
Internet Archive

Lien externe

Site officiel

[1] (en) « Google Books Ngram Viewer », sur Google Livres (consulté le 14 janvier 2021).

[2] (en) https://books.google.com/ngrams/info

[Roth_2014-3] (en) S. Roth, "Fashionable functions. A Google ngram view of trends in functional differentiation (1800-2000)", International Journal of Technology and Human Interaction, volume 10, numéro 2, 2004, p. 34-58 [lire en ligne].

[4] « Le cours des mots à travers les siècles », sur Sciences et avenir, 20 décembre 2010 (consulté le 27 octobre 2021).

[5] « Projet de numérisation des archives de la BnF »^{(Archive.org • Wikiwix • Archive.is • Google • Que faire ?)} [PDF], publié en 2006.

[6] Schuwey, Christophe, Interfaces : l'apport des humanités numériques à la littérature, Neuchatel, Alphil, 2019 (ISBN 978-2-88950-027-7 et 2-88950-027-6, OCLC 1119598143).

[1]

[2]

[3]

[4]

[5]

[6]