Stylométrie

domaine de la linguistique utilisant des outils statistiques pour décrire les propriétés stylistiques d'un texte

La stylométrie[note 1] est un domaine de la linguistique qui utilise la statistique pour décrire les propriétés stylistiques d'un texte. Elle est utilisée pour identifier le style d'un auteur, par exemple, celui de textes anciens ou un auteur anonyme dans le domaine judiciaire.

Histoire modifier

La stylométrie a traversé les époques et les siècles. Peut-être inspirée par Pythagore (« Tout est nombre »), elle a véritablement débuté avec le logicien anglais Auguste de Morgan, avant de se développer grâce à l'informatique moderne[2]. La première utilisation du terme stylométrie serait due à Lutoslawski[3],[4].

La stylométrie prend sa forme moderne en avec Frederick Mosteller de l’université de Harvard et David Wallace, de l’université de Chicago qui publient un article fondateur dans le journal de l’American Statistical Association[5],[1].

La stylométrie s'est également développée en France depuis, notamment avec Jean-Paul Benzécri, Charles Bernet, Étienne Brunet, Charles Muller et Jean-Marie Viprey[1]. Elle est enseignée notamment à l'École des Chartes[1].

Méthodes modifier

La stylométrie suit une approche quantitative. Elle recense les unités objectivées d’un texte. Selon le point de vue linguistique, ces unités varient. Le vocabulaire porteur du sens est naturellement le plus étudié[6] ; il implique un lemmatiseur pour ramener les formes lexicales aux entrées du dictionnaire, et sa richesse limite le nombre des occurrences. Les catégories grammaticales sont examinées[7] à l'aide d'un étiqueteur grammatical. Ponctuation, espacements et lettres véhiculent des structures archaïques et inconscientes du langage, fait de sons et d’émotions ; objectifs et profus, les caractères constituent une ressource non négligeable[8].

De ces unités, les statistiques textuelles retiennent traditionnellement les fréquences d’apparition : le texte est appréhendé du point de vue du vocabulaire. Pour les structures syntaxiques, une première méthode consiste à segmenter un texte en morceaux, puis à suivre les évolutions des fréquences ; le découpage demande de la finesse, a fortiori la comparaison de deux architectures différentes. Prolongeant la marche vers l’infiniment petit, l'enregistrement de chaque occurrence appréhende un rythme fondateur en matière d'art[9].

Usages modifier

Les Federalist Papers modifier

En , Frederick Mosteller et David Wallace établissent qui, d'Alexander Hamilton et de James Madison, a précisément écrit les divers articles des Federalist Papers qui promouvaient la constitution américaine, et publiés conjointement sous le pseudonyme de « Publius ». Alors que la recherche sur les mots de contenu (par exemple : « guerre »[note 2]) est un échec, l'usage de mots outils (tel que « et »[note 3], « alors », « sur ») est révélateur : Hamilton utilise souvent « upon » (sur), Madison presque jamais, Hamilton se sert beaucoup de « to », Madison de « by », etc.[5],[1]

QAnon modifier

En , deux équipes mettent en œuvre différents algorithmes de stylométrie pour identifier de manière indépendante les mêmes deux auteurs à l'origine des textes anonymes de QAnon[10].

Patrimoine bibliographique modifier

La stylométrie a été utilisée pour identifier des textes d'Homère et de Platon[3], des pièces de Corneille et Molière, des poèmes de Shakespeare, le manuscrit de Voynich.

Les deux chartistes Florian Cafiero et Jean-Baptiste Camps confirment en 2019 la paternité des œuvres de Molière, dont le doute subsistait au profit de Corneille[11],[12],[13].

Petr Plecháč corrobore en 2020 que John Fletcher a aidé Shakespeare à écrire Henri VIII[14],[15],[1].

La stylométrie, en janvier 2023, a permis d'identifier l'Espagnol Lope de Vega comme étant l'auteur de l'œuvre La Francesa Laura à partir d'un manuscrit rédigé des années après sa mort[16].

Juridique modifier

Dans le cadre de l'Affaire Grégory, les conclusions en [17] d'une expertise en stylométrie commandée par la juge Claire Barbier à la société suisse OrphAnalytics en resserrent les soupçons sur cinq corbeaux et une autrice principale. Les avocats et leurs parties demeurent divisés quant à l'emploi de cette technique[18].

Aux États-Unis, de telles analyses linguistiques se pratiquent dans les tribunaux depuis les travaux pionniers de Roger Shuy dans l'identification du Unabomber[19] et de Patrick Juola (en) dans l'identification de l'auteur de The Cuckoo's Calling. Les deux chartistes Florian Cafiero et Jean-Baptiste Camps se positionnent en faveur de son usage dans les affaires judiciaires en France rappelant que la technique de la stylométrie n'est ni rare, ni étrangère, ni nouvelle, tout en admettant qu'elle n'est pas infaillible, et que les courts textes étudiés dans le cadre de l'affaire Grégory connus par les médias se prêtent mal à l'analyse statistique en raison de nombreux suspects, raison pour laquelle les résultats doivent en être scrutés avec attention[1]. A contrario, Claude-Alain Rothen et sa société OrphAnalytics adoptent une approche génomique[20] apte à analyser des textes courts.

Bibliographie modifier

  • Paul Tannery, « La stylométrie ses origines et son présent », Revue Philosophique de la France et de l'Étranger, vol. 47,‎ , p. 159–169 (ISSN 0035-3833, lire en ligne, consulté le )
  • Bernard Gicquel, Stylistique littéraire et informatique, Arras, Artois presses université, , 134 p. (ISBN 2-910663-31-0 et 978-2-910663-31-5, OCLC 41302243, lire en ligne)
  • Wincenty Lutosławski, Principes de stylométrie appliqués à la chronologie des œuvres de Platon, E. Leroux,
  • Valérie Beaudouin, « Contribution de la métrique à la stylométrie », JADT 2004 : 7es Journées internationales d’Analyse statistique des Données Textuelles,‎ , p. 12 (lire en ligne)
  • Andrei V. Zenkov, « A Method of Text Attribution Based on the Statistics of Numerals », Journal of Quantitative Linguistics, vol. 25, no 3,‎ , p. 256–270 (ISSN 0929-6174, DOI 10.1080/09296174.2017.1371915, lire en ligne, consulté le )
  • [Tribune] Florian Cafiero et Jean-Baptiste Camps, « L’irruption de la stylométrie dans l’affaire Grégory promet de sérieuses controverses », Le Monde.fr,‎ (lire en ligne, consulté le )

Notes et références modifier

Notes modifier

  1. À ne pas confondre avec la stylographie, qui consiste à dessiner avec un stylo[1].
  2. war (en anglais)
  3. and (en anglais)

Références modifier

  1. a b c d e f et g Cafiero et Camps (2020).
  2. Holmes David, « "The Evolution of Stylometry in Humanities Scholarship" », Digital Scholarship in the Humanities, Oxford Journals,‎ (lire en ligne)
    (traduction française)
  3. a et b W. Lutoslawski, « Principes de stylométrie appliqués à la chronologie des œuvres de Platon », Revue des Études Grecques, vol. 11, no 41,‎ , p. 61–81 (ISSN 0035-2039, DOI 10.3406/reg.1898.5847, lire en ligne, consulté le )
  4. Adam Pawłowski et Artur Pacewicz, « Wincenty Lutosławski (1863–1954) », Historiographia Linguistica, vol. 31, nos 2-3,‎ , p. 423–447 (ISSN 0302-5160 et 1569-9781, DOI 10.1075/hl.31.2.10paw, lire en ligne, consulté le )
  5. a et b Frederick Mosteller et David L. Wallace, « Inference in an Authorship Problem », Journal of the American Statistical Association, vol. 58, no 302,‎ , p. 275–309 (ISSN 0162-1459, DOI 10.2307/2283270, lire en ligne, consulté le )
  6. Brunet Etienne, Le vocabulaire français de 1789 à nos jours, Champion,
  7. Longrée Dominique, Luong Xuan, Mellet Sylvie, « Temps verbaux, axe syntagmatique, topologie textuelle : analyses d’un corpus lemmatisé », Lexicometrica,‎ (lire en ligne)
  8. Markov Andreï, « Un exemple de recherche statistique sur le texte d’Eugène Onéguine illustrant la liaison des épreuves en chaînes », Bulletin de l’Académie Impériale des Sciences, Saint-Pétersbourg,‎
  9. Vonfelt Stephan, La musique des lettres : Variations sur Yourcenar, Tournier et Le Clézio (thèse), Université de Toulouse, (lire en ligne)
  10. (en-US) David D. Kirkpatrick, « Who Is Behind QAnon? Linguistic Detectives Find Fingerprints », The New York Times,‎ (ISSN 0362-4331, lire en ligne, consulté le )
  11. (en) Florian Cafiero et Jean-Baptiste Camps, « Why Molière most likely did write his plays », Science Advances, vol. 5, no 11,‎ , eaax5489 (ISSN 2375-2548, PMID 31807702, PMCID PMC6881153, DOI 10.1126/sciadv.aax5489, lire en ligne, consulté le )
  12. Florian Cafiero et Jean-Baptiste Camps, « Molière est bien l'auteur de ses œuvres », Pour la science, no 507,‎ , p. 54-58
  13. Frédéric Lewino, « Définitivement, Corneille n'a pas écrit les pièces de Molière ! », sur Le Point, (consulté le )
  14. (en) Petr Plecháč, « Relative contributions of Shakespeare and Fletcher in Henry VIII: An analysis based on most frequent words and most frequent rhythmic patterns », Digital Scholarship in the Humanities,‎ , fqaa032 (ISSN 2055-7671 et 2055-768X, DOI 10.1093/llc/fqaa032, lire en ligne, consulté le )
  15. Adrienne Rey, « L'IA révèle ce que Shakespeare n'a pas écrit, et qui l'a fait à sa place », sur korii., (consulté le )
  16. « Avec l'aide de l'intelligence artificielle, Lope de Vega, dramaturge espagnol majeur, identifié comme l'auteur d'une pièce d'après un manuscrit écrit des années après sa mort », sur Newsendip. De l'actu internationale, (consulté le )
  17. 20 Minutes, « Affaire Grégory : Pour les experts en « stylométrie », le principal corbeau, c’est Jacqueline Jacob », (consulté le )
  18. Jean-Michel Décugis, Vincent Gautronneau, Jérémie Pham-Lê, Geoffroy Tomasovitch, Timothée Boutry, « Affaire Grégory : nouvelles auditions, expertise incriminante… l'enquête est relancée », sur leparisien.fr, (consulté le )
  19. (en-US) Condé Nast, « Words on Trial », sur The New Yorker, (consulté le )
  20. Marie Puren, « Le corbeau de l'affaire Grégory pourra-t-il être démasqué grâce à la stylométrie? », sur Slate.fr, (consulté le )

Voir aussi modifier

Liens externes modifier

Sur les autres projets Wikimedia :

  • « Lexicometrica », Revue électronique de l'Université de Paris