Langage documentaire

angages artificiels créés pour indexer des documents.

Les langages documentaires sont des langages artificiels créés pour indexer des documents. Ils permettent de représenter « de manière univoque les notions identifiées dans ces documents et dans les demandes des utilisateurs, en prescrivant une liste de termes ou d'indices, associée à des règles d'utilisation »[1]. Ils sont utilisés dans les outils de repérage de l'information, comme les catalogues de bibliothèques ou de centres documentaires, ou encore dans les banques de données.

Définition modifier

Un langage documentaire peut être défini comme un « procédé conventionnel de représentation des informations d’un document sous une forme condensée et normalisée. Langage artificiel, constitué de représentations de notions et de relations entre ces notions et destiné, dans un système documentaire, à formaliser les données contenues dans les documents et dans les demandes des utilisateurs[2] » (AFNOR).

Un langage documentaire doit faciliter le repérage des documents par sujet et aider à la recherche de l'information. il se différencie du langage naturel en répondant notamment à des ambiguïtés de ce dernier comme la synonymie, la polysémie et l'homonymie.

Un langage documentaire a trois fonctions principales :

  • il normalise la représentation des sujets par des documents,
  • l'utilisateur peut ainsi faire des liens entre les sujets voisins,
  • le choix définitif du document est facilité par la présentation du contenu des documents sélectionnés [2].

Typologie des langages documentaires modifier

On peut distinguer trois types de langages documentaires[3] :

Ce sont les familles de langages documentaires dites « historiques ». Les classifications, les répertoires de vedettes-matière et thésaurus seront développés plus bas.

Critères de la typologie des langages documentaires modifier

La typologie peut reposer sur deux critères :

  • Le premier critère est la structure du langage qui peut être hiérarchique (classifications) ou combinatoire (vedettes-matière ou thésaurus).
  • Le deuxième critère est la coordination des concepts : le langage peut être pré-coordonné (classifications, vedettes-matières) ou post-coordonné (thésaurus)[2].

La structure du langage modifier

L'indexation peut-être définie comme un « processus destiné à représenter, au moyen des termes ou indices d’un langage documentaire ou au moyen des éléments d’un langage libre, les notions caractéristiques du contenu d’un document (ressource, collection) ou d’une question, en vue d’en faciliter la recherche, après les avoir identifiées par l’analyse. Les combinaisons possibles des notions identifiées sont représentées explicitement (indexation précoordonnée) ou non (indexation postcoordonnée) en fonction des possibilités du langage documentaire utilisé[4] ».

Deux méthodes peuvent être utilisées pour l'indexation, une méthode synthétique ou analytique.

La démarche synthétique conduit à une indexation systématique et induit à langage à structure hiérarchique comme les classifications. La démarche analytique conduit à une indexation analytique ou alphabétique et induit à un langage à structure analytique ou combinatoire comme les vedettes-matière ou les thésaurus.

Une classification a une structure arborescente. Chaque notion est située dans une branche précise et un niveau précis. Tout est divisé en classe et sous classe. L'indexation est faite en langage codé.

Les langages à structure analytique ou combinatoire présentent des concepts juxtaposés . L'indexation est généralement faite par une intersection de concepts (d'où l'expression combinatoire).

Les deux méthodes présentent des inconvénients : dans le cas des classifications, les documents sont dispersés selon des points de vue. La méthode analytique rassemble des sujets mais dispersent les disciplines et les domaines voisins[2].

Langages pré-coordonnés et post-coordonnés modifier

Dans les langages documentaires, il faut lier les concepts. Ce lien peut être fait au moment de l'indexation ou au moment de la recherche documentaire. Les vedettes-matière et les classifications sont des langages pré-coordonnés alors que les thésaurus sont des langages post-coordonnés[2].

Exemples de langage documentaire modifier

Les classifications modifier

L'Association des professionnels de l'information et de la documentation (ADBS) a défini ainsi la classification : « Langage documentaire permettant l’organisation d’un ou plusieurs domaines de la connaissance en un système ordonné de classes et sous-classes. Celles-ci ainsi que leurs relations peuvent être représentées par les indices d’une notation. Ces indices sont explicités par un libellé textuel. Différents critères peuvent être choisis pour différencier les classifications : le mode de division et de structuration (classification à facettes) ; la notation décimale ou alpha-numérique ; la couverture des domaines de la connaissance traités (classification encyclopédique telles la CDU et la classification de Dewey, spécialisée ou sectorielle) ; leur structure et organisation (classification hiérarchique), etc[5]».

Le principe fondamental des classifications est le quadrillage des connaissances. Tout repose sur des domaines découpés en sous-domaines, eux-mêmes découpés. La structure est donc hiérarchique. Clarté et précision sont exigées. Les relations hiérarchiques sont préétablies et cela peut rendre le langage rigide et figé. Ce type de langage est beaucoup employé dans les bibliothèques[2].

Les listes des vedettes-matière modifier

Il s'agit de langages documentaires à structure analytique. Ce sont des indexations alphabétiques. Les sujets sont donc identifiés par ordre alphabétique[2]. Pour plus de cohérence, des listes d'autorité sont définies. Il s'agit de l' « ensemble des vedettes-matière, des descripteurs et des mots-clés utilisés pour représenter les concepts et les sujets dont traitent les documents constituant une collection documentaire particulière ou institutionnelle[6] ». Les termes des listes d'autorités doivent obligatoirement être utilisés dans le catalogage.

Les vedettes-matière se composent d'un seul mot ou une expression. La vedette principale (tête de vedette) résume l'essentiel du sujet les vedettes secondaires sont des subdivisions[2].

Les thésaurus modifier

Les thésaurus sont des vocabulaires contrôlés et dynamiques. Ils se composent de termes obéissant à des règles terminologiques propres et reliés entre eux par des relations sémantiques. Ces langages sont combinatoires et post-coordonnés. Les recherches sont contrôlées par des descripteurs[2]. Le descripteur est choisi parmi un ensemble de synonyme pour représenter un concept sans ambiguïté[6]. L'indexation se fait au niveau de chaque concept élémentaire, représenté par un descripteur. Un thésaurus est donc un index de concepts. Il n'y a pas d'ordre de classement, celui-ci est souvent alphabétique. Il s'agit de représenter des relations entre des concepts. Ces relations peuvent être basées sur l'équivalence (du non-descripteur vers le descripteur et inversement), sur la hiérarchie (rapport de supériorité et de subordination, d'un terme générique à un terme spécifique et inversement) ou associatives. Les associations permettent d'élargir la recherche. En général, dans un thésaurus, un descripteur peut renvoyer à plusieurs termes spécifiques mais à un seul terme générique[2].

Les thésaurus sont surtout utilisés dans les centres documentaires, ils sont variés. Ils se basent sur les thésaurus lexicographiques, ou dictionnaires analogiques, qui présentent les mots avec les mots de sens proches, sans indiquer aussi précisément la nature des relations entre les termes.

Historique et perspectives modifier

Origine et évolution des langages documentaires modifier

L'augmentation des informations pousse à la réorganisation des connaissances. À la fin du XIXe siècle, il était nécessaire de faciliter l'accès aux ouvrages[7].

Les classifications sont les langages documentaires les plus anciens, leur origine remonte à la fin du XIXe siècle, liées au développement des sciences et techniques. Parmi les classifications, on peut citer la classification décimale de Dewey ou la classification décimale universelle (C.D.U.) de Paul Otlet[2]. Les listes de vedettes-matière sont apparues avec l'accélération de la publication au début du XXe siècle. Les thésaurus sont quant à eux liés au développement de l'informatique à la fin des années 1950. Il fallait des systèmes compacts, les indexations post-coordonnées sont la nouveauté.

C'est Jacques Maniez qui a identifié les trois types de langages documentaires évoqués plus haut (classifications, vedettes-matière et thésaurus). Ces trois classes sont encore vivantes, les deux premières sont plutôt utilisées par les bibliothèques et la dernière par les documentalistes[7]. RAMEAU (Répertoire d'Autorités Matières Encyclopédiques Alphabétique et Unifié) est un exemple français de répertoire de vedettes-matière[2].

L'analyse documentaire a connu une évolution lente et régulière jusqu'aux années 1950. La recherche automatisée dans les années 1960 et la mise en ligne des catalogues de bibliothèque dans les années 1970 poussent à certains changements. Dans les années 1990, avec la démocratisation d'internet, un réexamen des méthodes d'analyse documentaire. Mais pour Michèle Hudon, les spécialistes n'ont pas vraiment saisi l'occasion d'innover[6].

Avenir et défis des langages documentaires modifier

Les langages documentaires doivent aujourd'hui s'intégrer dans un monde connecté. Certains auteurs ont jugé le passage à Internet peu convaincant. En effet, l'usage reste plutôt réservé à des spécialistes[7].

Des tentatives de nouveaux langages documentaires ont été menés au cours du XXe siècle avec la volonté d'introduire une syntaxe permettant d'assembler de manière normalisée les éléments du langage documentaire pour reconstruire les sujets des documents traités ou recherchés. Ces nouveaux langages seraient alors les véritables langages documentaires et les anciens seraient des lexiques documentaires. Les nouvelles expériences n'ont pas vraiment été concrétisées[7].

Si la nécessité d'un contrôle terminologique de l'expression du sujet est fermement établie, elle n'a jamais vraiment été confirmée expérimentalement. Des expériences d'évaluation furent menées dans les années 1960 mais il fut difficile de départager langages contrôlés et langage libre. La recherche libre se développe mais elle oblige l'utilisateur à faire un travail intellectuel préalable[7].

En réalité, les évolutions du World Wide Web dans les années 2000 ont engendré des artefacts qui par leurs fonctions et leurs structures peuvent se rapprocher des langages documentaires. Néanmoins, ils ne sont pas issus des mêmes communautés. Viennent donc les taxonomies et les ontologies. On pourrait résumer les taxonomies à des thésaurus enrichis aux structures plus complexes. Les ontologies sont des ressources de nature diverse, parfois elles incluent les langages documentaires et les taxonomies, parfois elles sont considérées comme des langages documentaires[8].

On observe peu de remises en question des langages classiques et le World Wide Web n'a pas été une ouverture concluante. Il y a aujourd'hui une nécessité d'élaborer des interfaces et des guides d'utilisation pour des usages plus intuitifs. L'analyse documentaire est encore réservée à des professionnels et la classification et la condensation font appel à des processus cognitifs complexes[9]. Le passage à l'informatique n'est donc pas total.

Notes et références modifier

  1. Association des professionnels de l'information et de la documentation. Langage documentaire. In Vocabulaire de la documentation. http://www.adbs.fr/langage-documentaire-17593.htm?RH=OUTILS_VOC
  2. a b c d e f g h i j k et l « Introduction à l’indexation, cours en ligne d’Alexandre Serres, URFIST Bretagne-Pays de Loire » (consulté le )
  3. Maniez, Jacques. Actualité des langages documentaires : fondements théoriques de la recherche d’information. Paris : ADBS Éditions, 2002.
  4. « Définition de l'Association des professionnels de l'information et de la documentation (ADBS) vue sur la page "Indexation documentaire, langages analytiques, classifications..." » (consulté le )
  5. « Définition de l'Association des professionnels de l'information et de la documentation, vue sur la page "Indexation documentaire, langages analytiques, classifications..." » (consulté le )
  6. a b et c Michèle Hudon, Analyse et représentation documentaires : Introduction à l'indexation, à la classification et à la condensation des documents, PRESSES UNIVERSITE QUEBEC, , 332 p. (lire en ligne)
  7. a b c d et e Bruno Menon, « Les langages documentaires Un panorama, quelques remarques critiques et un essai de bilan », Documentaliste-Sciences de l'Information,‎ 2007, vol. 44, n°1, p. 18-28 (lire en ligne)
  8. Bruno Menon, « Les langages documentaires Un panorama, quelques remarques critiques et un essai de bilan », Documentaliste-Sciences de l'Information,‎ 2007, vol. 44, n°1, p.18-28 (lire en ligne)
  9. Michèle Hudon, Analyse et représentation documentaires : Introduction à l'indexation, à la classification et à la condensation des documents, PRESSES UNIVERSITE QUEBEC, , 332 p.