Concordancier multilingue

texte placé à côté de sa traduction ou de ses traductions
(Redirigé depuis Concordancier bilingue)

Un concordancier multilingue est un outil informatique permettant de gérer des corpus parallèles. Par métonymie, le concordancier multilingue désigne aussi ces corpus.

Description modifier

Un corpus parallèle est un ensemble de groupes de textes qui, deux à deux, dans chaque groupe, sont des traductions mutuelles. L'Acquis communautaire européen est un exemple où chaque groupe comporte un texte pour chacune des langues officielles de l'Union européenne. L'ensemble des groupes désignent les lois régissant la communauté européenne.

De nombreux corpus sont bilingues. Le corpus anglais↔français de l'Hansard du parlement canadien en est un exemple connu car il fut l'un des premiers à être numérisés et mis à la disposition des chercheurs en linguistique. Dans ces cas, les outils sont des concordanciers bilingues.

Depuis, ces corpus sont plus nombreux et accessibles (voir la liste des liens externes). Leur origine est :

  • l'obligation de publier dans un certain nombre de langues officielles pour les organisations internationales,
  • les États ayant plusieurs langues officielles,
  • les publications de journaux dans plusieurs langues,
  • la traduction des livres,
  • la documentation des logiciels.

Les corpus parallèles numérisés sont une source importante pour tous les outils de traductique. À partir de ces corpus,

  • on peut exploiter directement les documents, en recherchant un mot ou une expression et afficher son occurrence dans le texte source et aligner le texte cible sur le même passage ; l'avantage est de montrer l'expression dans son contexte complet ;
  • en segmentant les phrases des documents et en alignant les phrases, on peut produire une mémoire de traduction ou des corpus d'entraînement pour la traduction automatique ;
  • en analysant les co-occurrences des termes dans les documents entre les différentes langues, on peut construire un lexique multilingue.

Voir aussi modifier

Liens internes modifier

Bibliographie modifier

  • B. Habert, A. Nazarenko, A. Salem, Les linguistiques de corpus, Armand Colin, 1997
  • I. Dan Melamed, Empirical Methods for exploiting parallel text, The MIT Press 2001

Liens externes modifier

Corpus parallèles
Outils