Groupe d'étude pour la traduction automatique et le traitement automatisé des langues et de la parole

Groupe d'étude pour la traduction automatique et le traitement automatisé des langues et de la parole
Histoire
Fondation
2007
Cadre
Code
UMR 5217
Type
Domaine d'activité
Siège
Bâtiment IMAG - 700 avenue centrale
38400 Saint-Martin-d'Hères
Pays
Coordonnées
Organisation
Chercheurs
14
Chercheurs associés
2
Doctorants
12
Direction
François Portet
Organisation mère
Affiliation
Site web
Géolocalisation sur la carte : Grenoble-Alpes Métropole
(Voir situation sur carte : Grenoble-Alpes Métropole)
Géolocalisation sur la carte : France
(Voir situation sur carte : France)

Le groupe d'étude pour la traduction automatique et le traitement automatisé des langues et de la parole (GETALP) est une équipe de recherche du laboratoire d'informatique de Grenoble, provenant de la fusion en 2007 du GETA (Groupe d'Étude pour la Traduction Automatique), lui-même issu du premier laboratoire français de traduction automatique, le Centre d'Études sur la Traduction Automatique (CETA), créé le , et du GEOD (Groupe d'Étude sur l'Oral et le Dialogue), lui-même issu d'une équipe de l'ICP (Institut de la Communication Parlée), et créé en 1995 comme équipe fondatrice du laboratoire CLIPS.

Historique modifier

Les informations historiques allant jusqu'aux années 1990 sont essentiellement reprises d'un article de Jacqueline Léon de 2002, mis sur le Web en 2007[1].

1959 : le CETA modifier

En 1959, l'intérêt du CNRS pour les recherches en traduction automatique se confirme avec une demande en traduction automatique du russe, en documentation automatique, en analyse numérique et en automatisme.

À cette fin, il faut équiper en calculateurs électroniques deux ou trois super-centres, Paris, Grenoble et Toulouse, auxquels est confiée l'étude des problèmes prioritaires.

Le CETA est finalement créé le par une convention entre le CNRS, la DEFA (Direction des études et fabrications d'armement) et le CASDEN (Comité d'action scientifique de défense du centre d'exploitation scientifique et technique du ministère de la Défense). Il est créé au sein du Laboratoire de calcul numérique de l'Institut Blaise-Pascal du CNRS. Il a pour mission « l'étude et la conception d'une méthode pour la traduction automatique notamment du russe en français et l'étude de l'organisation générale d'une machine pour cette fin ».

Le directeur du laboratoire de calcul numérique, René de Possel, et son sous-directeur, André Lentin, par ailleurs membre fondateur de l'ATALA (Association pour le traitement automatique des langues), joueront un rôle important dans l'interaction entre mathématiques appliquées, langages formels et linguistique. Ils sont tous deux membres du conseil scientifique du CETA[1].

LE CETA est ensuite réparti en deux sections : le CETAP à Paris et le GETAG à Grenoble.

Le CETAP modifier

L'armée est, à plusieurs titres, partie prenante dans l'affaire. Le CETAP bénéficie des locaux du Laboratoire central de l'armement (LCA) au Fort de Montrouge à Arcueil. Son directeur, Aimé Sestier, né en 1920, est ingénieur militaire en chef, chef de la section des machines à calculer du LCA.

Les ingénieurs et le personnel technico-administratif appartiennent au LCA. Les linguistes, sept slavistes et deux germanistes, sont rémunérés par le CNRS.

L'abandon du travail en linguistique fondamentale va progressivement conduire Aimé Sestier à démissionner et à dissoudre le CETAP en [2].

1960 : le CETAG modifier

Grenoble est à cette époque l'un des principaux lieux d'implantation de l'informatique en France. C'est à Grenoble qu'est fondée l'AFCAL (Association française de calcul) en 1957, et Jean Kuntzmann y crée la revue Chiffres en 1958.

La seconde section du CETA est alors créée à Grenoble. Et c'est au laboratoire de calcul de la faculté des sciences, avec le soutien du professeur Jean Kuntzmann qu'est créé le CETAG sous la direction de Bernard Vauquois.

Le CETAG comprend en 1960, quatre spécialistes de russe, une technicienne germaniste, et une technicienne spécialiste de japonais. En ce qui concerne les informaticiens, le directeur de la programmation a sous ses ordres deux programmeurs. Le groupe compte également deux ingénieurs mathématiciens préparant un doctorat de mathématiques appliquées.

Après la dissolution du CETAP, ne reste donc plus que le groupe de Grenoble, qui, tout en continuant à être rattaché à l'Institut Blaise-Pascal, devient laboratoire propre du CNRS en 1963, en gardant le nom de CETA.

1971 : le GETA modifier

Malgré la crise induite par le rapport ALPAC (en), le CETA tient bon. Ses crédits sont augmentés et ses locaux agrandis. Toutefois, il faut pondérer cette impression de prospérité : le CETA se porte très bien en 1967, mais moins bien en 1971, date à laquelle, à la suite de conflits internes liés à l'après-68, il perdra son statut privilégié de laboratoire propre du CNRS et donnera naissance à 3 groupes de recherche associés au CNRS. L'un, avec Gérard Veillon, Jacques Courtin et Ernest Grandjean (puis Augustin Lux et plus tard Yves Chiaramella), lancera les recherches en Intelligence Artificielle (IA) à Grenoble. Le second, dirigé par Jacques Rouault (et les tenants d'un "pivot II"), se lancera dans l'informatique documentaire, et le troisième, appelé GETA, continuera les travaux en Traduction Automatique (TA), en tant qu'URA du CNRS, toujours dirigée par Bernard Vauquois (avec une très forte équipe de russisants, et des thésards comme Jacqueline Vaissière, Jacques Chauché, et Christian Boitet). Le GETA n'héritera donc en 1971 que d'une partie des forces, chercheurs et moyens du CETA. Malgré cela, cette stabilité permit aux recherches en TA à Grenoble de prendre un second souffle et de réaliser dès le début des années 1970 Ariane-78, un générateur de systèmes de TA ou de TAO, et un "multiniveau fondé sur la méthode de transfert, considéré comme un des plus importants et des plus influents de l'époque. Il s'agissait alors non plus, comme entre 1961 et 1970, de traduction automatique (TA) sans préédition ni postédition, que nous appelons aujourd'hui TA du veilleur, mais de traduction automatisée par ordinateur (TAO), offrant un environnement de révision, que nous appelons TA du réviseur. La période 1961-1970 se caractérise par l'application éclairée de la théorie des langages formels et de leur compilation au problème de la TA, ainsi que par l'intégration de théories linguistiques de pointe, avec en particulier le passage par un "langage pivot" hybride (terme dû à Sebastian Shaumyan (en)), où les lexèmes sont des familles dérivationnelles (dites unités lexicales) d'une langue naturelle, alors que les attributs et les relations sont purement sémantiques, et donc interlingues[3].

De 1971 à 1980, le GETA, se tournant vers la TA du réviseur, élabora et expérimenta une nouvelle méthodologie de la TAO (Traduction Assistée par Ordinateur) par approche transfert multiniveau et un générateur de systèmes de TAO (Ariane-78).

De 1981 à 1987-88, le GETA participa activement à des transferts de technologie vers l'industrie, tout en réalisant en interne un système "préopérationnel" russe-français pour la DRET, plusieurs études pour le projet Eurotra[4], et en aidant divers groupes étrangers à construire des maquettes ou des prototypes de systèmes de TA. Le système Ariane-78 fut profondément remanié et étendu, et donna naissance à Ariane-G5.

Le GETA a été dirigé par Bernard Vauquois jusqu'à son décès en 1985. Le GETA a été membre de la fédération IMAG pendant toute l'existence de cette dernière: directement en tant qu'URA de 1986 à 1995 (dirigée par Christian Boitet et François Peccoud), puis indirectement en tant qu'équipe du CLIPS (dirigée par Christian Boitet) de 1995 à 2007. Depuis 2007, c'est une équipe du TGL "LIG", dirigée par Hervé Blanchon.

La disparition de Bernard Vauquois le 30/9/1985, au milieu du Projet National TAO, dans lequel sa participation était très importante, fut un grand choc. De 1986 à 1990, l'équipe s'efforça de mener à bien les diverses actions en cours, tout en se restructurant et en diminuant son activité de développement et d'expérimentation en vraie grandeur au profit d'une recherche plus fondamentale. À partir de 1988-90, considérant que le transfert technologique sur la TAO du réviseur avait été effectué, le GETA réorienta sa recherche vers la TAO individuelle, qui comporte deux volets, la TAO du traducteur et la TAO du rédacteur.

François Peccoud, à l'époque Professeur à l'université Pierre-Mendès-France - Grenoble II, devint codirecteur du GETA de 1985 à 1991, puis directeur de 1991 à 1995 (sabbatique de Christian Boitet à ATR au Japon en 1992-93) avant de devenir président de l'Université de technologie de Compiègne en [5].

1995 : rattachement au CLIPS modifier

En 1995 fut fondé le laboratoire CLIPS (Communication Langagière et Interaction Personne Système). Celui-ci regroupa 6 équipes dont le GETA et GEOD (Groupe d'Étude sur l'Oral et le Dialogue). Le GETA devint une équipe de recherche de ce nouveau laboratoire (une UMR). Ce sera l'occasion pour le GETA de déménager dans les locaux du CLIPS. La distance n'est pas très grande (50 m) mais le changement suffit malheureusement à perdre l'organisation de la bibliothèque. Depuis cette époque, les personnels CNRS du GETA partant à la retraite ne seront plus remplacés. Le CLIPS fut toujours membre de la fédération IMAG pendant toute son existence. L'équipe GETA du CLIPS a été dirigée pendant toute l'existence du CLIPS (1995-2007) par Christian Boitet [6], Professeur à l'université Joseph-Fourier - Grenoble 1.

Cette intégration au CLIPS était motivée par deux raisons principales: (1) le rééquilibrage entre ITA CNRS et enseignants-chercheurs, ces derniers devenant majoritaires tant à cause de départs à la retraite qu'aux recrutements de MC (Hervé Blanchon, Gilles Sérasset) ou à des arrivées par mobilité (François Tcheou, Étienne Blanc, Georges Fafiotte, Jean-Claude Durand, Mutsuko Tomokiyo) avait abouti à une composition plus standard pour une équipe universitaire ; (2) surtout, la possibilité de lancer des recherches sur le thème encore inexploré en France de la TA de dialogues bilingues oraux, grâce à la présence dans un même laboratoire du GETA, jusqu'alors spécialisé en TA de l'écrit, et du GEOD, équipe constituée par Jean Caelen à partir de membres de l'ICP spécialistes de reconnaissance de parole et de dialogue, en particulier Jean-François Sérignat, qui devint directeur du GEOD en 2000, quand Jean Caelen devint directeur du CLIPS.

Les pionniers dans ce domaine étaient à l'époque le laboratoire ATR-SLT au Japon, qui avait invité Christian Boitet 4 mois en 1988 et un an en 1992-93. ATR avait monté un consortium dit "CSTAR" avec CMU, KU (Karlsruhe) et Siemens (Munich) pour faire les premières expériences transcontinentales trilingues en (système Asura). À la faveur d'un contrat de recherche "MIDDIM" (Multimodal Interactive Disambiguation / Désambiguïsation Interactive Multimodale), le CLIPS fut présenté à ATR, et le duo GETA+GEOD, joint au LATL (Genève) et à l'EPFL (Lausanne) fut admis comme partenaire pour le français du nouveau consortium "CSTAR-II", juste après l'ETRI (Corée) et l'IRST (Italie).

Dans le cadre de ce projet, le GEOD construisit le reconnaisseur de parole RAPHAEL pour le français, en utilisant la boîte à outils JANUS de CMU, qui fut amélioré et porté à cette occasion (Jean-François Sérignat, Dominique Vaufreydaz). La synthèse du français fut confiée aux deux groupes suisses, tandis que le GETA s'occupait de l'enconversion des transcriptions produites par la reconnaissance vers un format interface (IF) de nature pragmatico-sémantique.

L'IMAG finança ce projet en tant que "projet IMAG C*". Hervé Blanchon assura la direction de la partie "traitement du français", et Jean-Philippe Guilbaud écrivit un enconvertisseur français-IF en Ariane-G5. Le projet fut mené à bonne fin, avec des démonstrations publiques en 5 langues entre États-Unis, Japon, Corée, Italie et France, le jeudi .

Fin 1996, le GETA commença en parallèle à travailler sur le projet Universal Networking Language (UNL), initié par l'Université des Nations unies. Ce projet repose sur un "pivot anglo-sémantique", qui est un langage formel de graphes. Un "graphe UNL" est constitué de nœuds portant chacun un "mot universel" (UW) -- nous préférons le terme de "lexème interlingue"—accompagné de traits interlingues sémantico-pragmatique, et d'arcs portant chacun une relation sémantique (parmi une liste de 41). Un des nœuds porte l'attribut "@entry" et est dit "nœud d'entrée dans le graphe". Un UW est composé d'un "mot-vedette ("headword"), en général un mot ou un idiome anglais, et sur une liste de restrictions sémantiques. En fait, un graphe UNL peut être un hypergraphe (notion de "scope": un scope est un sous-graphe connexe par arcs en négligeant l'orientation, dont les arcs portent une étiquette de scope comme :01, :02, etc., et dont un nœud porte l'attribut "@entry").

Ce n'était pas tout à fait un retour à l'architecture linguistique "à pivot" des années 1960, car le langage UNL n'est pas un pivot "hybride", mais un pivot "pur", c'est-à-dire muni d'un "espace lexical" autonome. Ainsi, une traduction passant par UNL comporte nécessairement deux "transferts lexicaux", alors qu'avec un pivot hybride il n'y en a qu'un.

Le projet UNL n'est pas uniquement destiné à construire des systèmes de TA multilingues: son but plus général est de favoriser l'éclosion d'un véritable multilinguisme[7].

2007 : le GETALP (fusion du GETA et du GEOD) dans le "très grand laboratoire" (TGL) LIG modifier

Le premier , les laboratoires qui composaient la fédération IMAG, dont le CLIPS, ont été dissous et les équipes de recherche se sont réparties dans de nouveaux laboratoires dont le Laboratoire d'informatique de Grenoble (LIG). À cette occasion, les équipes GETA et GEOD ont fusionné pour donner naissance à l'actuelle équipe GETALP, dirigée par Hervé Blanchon, Maître de conférences habilité de l'université Pierre-Mendès-France - Grenoble II [8]. Le GETALP a donc intégré le LIG dès sa fondation.

Depuis 2007, le GETALP a progressivement abandonné le thème de recherche "dialogue", car Jean Caelen, son porteur principal, a quitté le groupe pour se consacrer à l'équipe Multicom et à l'Institut Carnot. Par contre, plusieurs axes se sont beaucoup développés, dont (1) le traitement du signal de parole dans l'habitat intelligent pour la santé (Michel Vacher, François Portet), (2) le traitement (reconnaissance, traduction) des langues et couples de langues peu dotés (Laurent Besacier, Mathieu Mangeot, Vincent Berment, et plusieurs thésards vietnamiens et cambodgiens), et (3) la TA probabiliste spécialisée à des sous-langages observés (ex: manuels techniques).

2011 : lancement de AXiMAG modifier

L'équipe développe le concept de passerelle d'accès multilingue interactif à des sites Web (iMAG, interactive Multilingual Access Gateway). Une iMAG dédiée à un site S contient une "mémoire de traductions" (MT) et une "base lexicale multilingue" dédiées à S, ou plutôt au sous-langage de S. Une iMAG-S permet de naviguer dans S dans une autre langue que celle(s) du site original S. L'idée essentielle, d'après les concepteurs (Christian Boitet et Valérie Bellynck), est que les visiteurs de S peuvent améliorer les traductions "en contexte", grâce à une palette de "contribution". Contrairement à Google Translate, la page change instantanément, et la traduction améliorée ("postéditée") est conservée et utilisée si le même "segment" source est trouvé plus tard, dans la même page ou dans une autre.

En 2011, AXiMAG[9], une jeune pousse "en émergence" a été créée entre le GETALP et la société de valorisation Floralis[10], filiale de l'université Joseph-Fourier - Grenoble 1. AXiMAG proposera des services par abonnement et des prestations spécifiques autour du concept d'iMAG. Il est possible de voir des « exemples de passerelles iMAG ». La création effective en tant que SARL ou SAS est prévue dans le cadre du projet ANR-émergence Traouiero en cours (2011-2012).

2016 : déménagement au bâtiment IMAG modifier

Le bâtiment IMAG, dont le nom fait référence à l'ancienne fédération IMAG a été construit dans le cadre de l'opération campus en partenariat public-privé (PPP) entre le groupe GCC et la communauté Université Grenoble-Alpes. Il est constitué de 15 000 m² de bureaux, un centre de données de 200 m² et un espace public comprenant un auditorium de 100 places, une grande salle de séminaires de 100 places, une salle de démonstration et un centre de documentation. Il héberge trois laboratoires : le LIG, le Laboratoire Jean Kuntzmann et Verimag. L'intérêt principal du déménagement pour l'équipe GETALP se situe dans le fait que toute l'équipe a été regroupée sur un seul étage contrairement aux anciens bâtiments.


Aujourd'hui, le GETALP compte 14 enseignants-chercheurs issus des 3 établissements universitaires de l'académie de Grenoble (dont 12 informaticiens et 2 linguistes), 3 ingénieurs de recherche (dont 2 informaticiens et 1 linguiste), 1 collaborateur bénévole, 1 linguiste invitée, 12 doctorants, 2 post-docs et 7 visiteurs et stagiaires.

Activités de recherche modifier

Le but des travaux du GETALP est de contribuer de façon significative à l’émergence d’une informatique ubilingue, dans le contexte du développement de l’informatique ubiquitaire. Cet objectif nécessite de mener à bien des recherches à caractère souvent pluridisciplinaire, en informatique, en linguistique et psycholinguistique, en sémantique (lien avec les ontologies), en pragmatique (pour le dialogue), et en traitement de l’oral[11].

L'équipe GETALP est actuellement organisée autour de six thèmes de recherche principaux : 1 : Traduction automatique (TA) et automatisée (TAO); 2 : Traitement automatique des langues (TALN) et plates-formes associées; 3 : Collecte et construction de ressources linguistiques; 4 : Multilinguisme dans les systèmes d’information; 5 : Reconnaissance automatique de la parole, des locuteurs, des sons et des dialectes; 6 : Analyse sonore et interaction dans les environnements perceptifs.

Les activités de ces thèmes de recherche partagent cinq défis :

  • rendre l’informatique multilingue et "ubilingue"
  • informatiser les langues peu dotées[12] et peu écrites en adaptant des ressources existantes
  • rendre la communication langagière multimodale (texte, parole, geste)
  • trouver et implémenter des méthodes et outils d’évaluation liés à la tâche
  • utiliser l'interaction contributive pour collecter des ressources, améliorer des traductions et communiquer avec "sens garanti".

Notes et références modifier

  1. a et b Le CNRS et les débuts de la traduction automatique en France http://histoire-cnrs.revues.org/3461
  2. 50 ans d'histoire de l'ATALA http://www.atala.org/ATALA-cinquante-ans
  3. Histoire du GETA http://www.getalp.org/xwiki/bin/view/Main/HistoryGETA
  4. Anne-Marie Loffler-Laurian, La traduction automatique, Éditions Septentrion, Paris, 1998 (ISBN 978-2859395025), 156 p.
  5. CV de François Peccoud https://ged.aeres-evaluation.fr/guest.php?sole=Y&app=AERES_DIFFCV&action=AERES_DIFFCV_DOWNLOAD_CV&id=83748
  6. Études françaises, Marie Lebert, Entretien avec Christian Boitet http://www.etudes-francaises.net/entretiens/boitet.htm
  7. Description du projet UNL, consulté sur www.getalp.org le 20 août 2011
  8. Page personnelle de Hervé Blanchon http://www-clips.imag.fr/geta/herve.blanchon/
  9. Site Web de AXiMAG http://www.aximag.fr/
  10. Site Web de la société Floralis http://www.floralis.fr
  11. Présentation du GETALP http://www.getalp.org/
  12. Thèse de Vincent Berment http://tel.archives-ouvertes.fr/docs/00/04/68/93/PDF/tel-00006313.pdf

Voir aussi modifier

Articles connexes modifier

Liens externes modifier