Dictionnaire de sinogrammes

Un dictionnaire de sinogrammes est un dictionnaire dans une langue écrite à l'aide de sinogrammes comme les différents dialectes du chinois ou le japonais.

Leur particularité tient à l'absence d'alphabet composant les sinogrammes donc à l'absence d'ordre alphabétique. L'ordre de classement dans un dictionnaire de sinogrammes utilise :

un classement primaire selon les « clefs » qui entrent dans la composition des sinogrammes et sont suffisamment peu nombreux (214 clefs dans les dictionnaires classiques, 187 pour les caractères simplifiés) pour se voir fixer un ordre de classement arbitraire ;
un classement secondaire par nombre de traits composant le sinogramme.

Nombre de caractères

L'un des plus célèbres dictionnaires chinois – le 康熙字典 Kāngxī zìdiǎn, Dictionnaire de caractères de Kāngxī, paru en 1717 et publié par Kāngxī, second empereur de la dynastie 清 Qīng (1644-1911) – en recense quelque 47 000. Des dictionnaires plus récents, comme le 中華字海 Zhōnghuá zì hǎi vont au-delà, avec plus de 85 000 caractères. Le projet Unihan d'inventaire des caractères CJK en avait recensé près de 100 000 en 2008, le plan "CJK Unified Ideographs" - qui contient les plus courants, dès la version 1.0 de Unicode - contient un peu plus de 20 000 glyphes du domaine chinois, japonais et coréen, entre les points de code Unicode U+4E00 et U+9FA5.

En fait, ces inventaires de formes graphiques comptabilisent des hapax, des erreurs, des variantes ou des raretés.

Dans l'usage courant, en connaître entre 2 000 et 4 000 suffit à lire la presse et la littérature courante. Les lettrés et les calligraphes peuvent en maîtriser plus de 8 000. Le plus grand dictionnaire occidental, le Dictionnaire chinois-français Ricci (voir bibliographie) en comptabilise 13 500, et le fameux "Couvreur" de l'ordre de 20 000. Le travail de recherche considérable que représente ce dictionnaire permet de penser que cela représente le nombre de caractères réellement utilisés et attestés depuis l'Antiquité chinoise jusqu'à nos jours : en effet, les « monstres », hapax et variantes trop rares ont été ignorés.

Dans son ouvrage (signalé en bibliographie) Viviane Alleton cite les chiffres suivants :

80 000 caractères différents est le nombre total (mais fantasmé) de caractères en chinois. Jamais aucune époque n'en a connu tant ; les dictionnaires actuels qui atteignent de tels nombres répertorient en fait des caractères que plus personne n'utilise ou d'emploi très rare ;
9000 caractères suffisent à lire à peu près tout texte (il sera cependant toujours possible de rencontrer, très rarement, un caractère qu'on ne connaît pas) ;
2000 caractères sont censés suffire aux ouvriers ; c'est le taux moyen d'alphabétisation. Le recours à un dictionnaire sera cependant encore nécessaire ;
1500 pour les paysans (ces chiffres sont ceux fixés par les standards d'alphabétisation) ;
1000 caractères permettent de lire 90 % des caractères utilisés dans les publications courantes.

En effet les caractères (on le verra plus loin) se combinent fréquemment pour former les lemmes (« mots » d'une langue).

Rechercher un caractère dans un dictionnaire

Par la graphie

Exemple d'index dans un dictionnaire. Les clefs dans la marge divisent la page en sections classées par nombre de traits.

Pour indexer et retrouver les sinogrammes, la plupart des dictionnaires utilisent des clefs mais certains dictionnaires modernes recourent à d'autres méthodes. La méthode la plus courante est celle de Mei Yingzuo, par "clefs et nombre de traits" : les caractères sont d'abord triés par clefs et - pour chaque clef - par nombre croissant de traits nécessaires pour tracer le reste.

Avec cette méthode de classement, pour retrouver un caractère dans un dictionnaire, il faut :

Identifier ce qui constitue le plus probablement la clef ;
Trouver dans le dictionnaire la section correspondant à cette clef ;
Compter le nombre de traits élémentaires dans ce qui reste du caractère;
Trouver la page où sont rangés les caractères qui ont ce nombre de traits additionnels;
Trouver dans cette zone le caractère concerné.

En pratique, il est rare que l'on trouve du premier coup, et la recherche se poursuit avec d'autres hypothèses sur le nombre de traits additionnels ou sur la clef à retenir.

Par exemple, voyons ce qu'il en est pour le caractère 信, dont les éléments simples sont "homme" (人 à gauche, sous sa forme de clef) et "mot" (言 à droite). Ce caractère signifie la confiance, la sincérité, l'association d'idée étant : la parole d'un homme en qui on peut se fier. Ici, la clef est celle de l'homme (人), et il y a sept traits supplémentaires dans le tracé de ce qui reste (言) car le carré du bas se trace en trois coups de pinceau. Pour retrouver ce caractère, on recherchera dans l'index des clefs à quelle page se trouve la clef de l'homme, puis à partir de cette page, quelle est celle où sont rangés les sinogrammes comportant sept traits supplémentaires. Si la clef est la bonne (ce qui n'est pas assuré pour les caractères complexes) et si le décompte des traits supplémentaires est correct (ce qui est souvent un problème pour les caractères mal connus), le sinogramme recherché sera quelque part dans la liste.

Un caractère composé peut comprendre plusieurs éléments de caractère servant de clefs. Empiriquement, le caractère retenu comme clef est plus fréquemment celui de gauche, ou au sommet, ou qui entoure... mais c'est très loin d'être une règle générale. Par exemple, 信 sera plus naturellement rangé sous la clef de gauche 人 que sous celle de droite 言, et 套 est indexé par sa partie supérieure 大 et non sa partie inférieure 長. De plus, chaque dictionnaire a ses particularités, et on ne peut pas être certain qu'un caractère donné sera classé de la même manière dans deux dictionnaires différents.

Pour faciliter ce type de recherche, les dictionnaires complètent parfois la liste des clefs en ajoutant aux formes canoniques les formes simplifiées qui apparaissent dans les compositions. Ainsi, le caractère 心 peut apparaître avec les caractères à quatre traits, et par ailleurs sa forme simplifiée 忄, qui sert dans les compositions, apparaîtra avec les caractères à trois traits. Avec ce système, un utilisateur débutant n'a même plus besoin de savoir que les caractères 心 et 忄 sont étymologiquement les mêmes. Cependant, cette connaissance est très rapidement indispensable pour retrouver des caractères rares.

Pour faciliter les recherches, les dictionnaires font parfois un double classement : un caractère apparaît à la fois sous sa clef canonique et sous l'élément complémentaire. Ainsi, de nombreux dictionnaires classent le caractère 義 à la fois sous la clef 羊 (partie du haut) et sous 戈 (partie du bas).

Certains dictionnaires classent les caractères suivant d'autres méthodes graphiques comme celle des quatre coins. À chaque caractère est attribué un code de 4 à 5 chiffres et les codes sont classés par ordre croissant.

Par la prononciation

En plus des tables de nombre de traits et de clés situés en début de dictionnaire, dans les dictionnaires de la république populaire de Chine les pages de définitions présentent les caractères classés par ordre alphabétique d'après leur translittération en pinyin. Chaque phonème est ensuite classé en fonction du ton, dans l'ordre de classification des 5 tons (4 + absence de ton). Il y a aussi des dictionnaires qui trient les caractères suivant la méthode Bopomofo.

Si un mot est composé de plusieurs caractères, il sera classé après la définition du premier caractère qui le compose.

Il existe aussi des dictionnaires pour d'autres langues chinoises que le mandarin. Les caractères peuvent y être classés suivant d'autres transcriptions.

Sinogrammes sur ordinateur

Article détaillé : Saisie du chinois sur ordinateur.

Les claviers chinois auraient-ils dix mille touches ? En fait, il est très facile et rapide d'écrire en chinois sur un ordinateur, pour peu qu'on connaisse sur le bout des doigts un des systèmes de transcription phonétique (pinyin, bopomofo…) qui jouent le rôle d'interface. Pour chaque phonème (ou succession de phonèmes) entré, une liste de caractères est proposée (les homonymes étant nombreux), qu'on choisit ensuite. Un peu d'entraînement permet d'écrire sensiblement plus vite qu'en français, par exemple, où le nombre de lettres à taper est plus grand.

Avec des dictionnaires électroniques, il est même possible de rechercher des caractères par référence croisée. Avec cette nouvelle méthode que rend possible l'informatisation (et dont vous pouvez faire l'essai sur Jim Breen's WWWJDIC Server), l'utilisateur peut sélectionner tous les composants simples d'un caractère sur une table, et l'ordinateur lui présentera les sinogrammes composés de ces éléments. Avec l'exemple précédent, si l'on recherche les caractères contenant à la fois 羊 et 戈, on trouvera directement onze caractères ( 義, 儀, 嶬, 羲, 犠, 礒, 蟻, 艤, 議, 曦 et 犧) et il n'y a plus qu'à sélectionner le bon. Ainsi, il n'est plus nécessaire de deviner quelle est la clef, ou de compter le nombre de traits, et les recherches sont beaucoup plus rapides.

Et si même cela parait trop compliqué, l'informatique permet désormais une tout autre approche : la reconnaissance graphique des caractères. Certains programmes permettent en effet de tracer approximativement un caractère inconnu (il n'est même pas nécessaire de connaître les règles de la calligraphie chinoise) et de se voir proposer une liste de caractères approchants, et leurs significations. Il est possible de tester cette méthode sur le site de Nciku (non commercial), qui offre d'ailleurs bien d'autres possibilités, telles qu'un dictionnaire visuel, mais hélas pour le moment seulement en anglais.

Sur le Wiktionnaire

Par exemple, le projet de dictionnaire de Wikimedia, le Wiktionnaire, propose plusieurs méthodes de recherche pour les idéogrammes. La plus classique est d'identifier le radical du caractère dans la page qui y est consacrée :

Listes de radicaux.

Cette page met en avant les radicaux les plus fréquemment rencontrés (ce qui permet d'y accéder plus rapidement), puis donne l'intégralité des radicaux, classés par nombre de traits. Pour faciliter les recherches, la page présente pour chaque nombre de traits non seulement les radicaux proprement dits, mais également les formes réduites ou variantes de ceux-ci. Ainsi, le radical fréquent 水 (eau), radical de quatre traits dans sa forme pleine, est également présenté sous sa forme réduite 氵, beaucoup plus fréquente, dans la liste des formes à trois traits.

Chaque radical renvoie ensuite à une page séparée, où les caractères composés sont classés par nombre de traits supplémentaires. Par exemple, si l'on identifie le caractère 工 comme composant supplémentaire, on ira chercher dans la liste de la section « 水+3 » pour retrouver le caractère 江.

Le Wiktionnaire fonctionne également comme un dictionnaire accessible par formes, sans nécessairement passer par des clefs.

Par exemple, devant le caractère complexe 櫡, il est facile même pour un débutant d'identifier les quatre formes 木 (clef de l'arbre), 竹 (clef du bambou), 耂 (forme réduite de la clef 老, vieux), et 日 (clef du soleil, mais cette dernière clef peut facilement se confondre avec la clef 曰, dire, qui lui est très proche). En supposant que le débutant ne retrouve pas le caractère dans la liste des composés de 木 (car pour une raison mystérieuse, elle est comptée comme 木+15 traits alors qu'un décompte normal en compte 14...), il peut chercher à recomposer le caractère étape par étape.

Ici, la clef 老 associé à 日 (quatre traits supplémentaires) donne le caractère 者 (activité professionnelle). Et s'il n'identifie pas la clef relativement rare 老, la page du caractère 日 indique qu'en composition (mais pas en position de clef) il figure sous 耂 pour former ce même caractère 者.
La page consacrée à ce caractère 者 indique dans quels caractères il figure « en composition », et il apparaît bien sous la clef du bambou dans le caractère 箸 (baguettes).
Et à la page de ce dernier, on retrouve comme unique composé le caractère 櫡.

Cette approche ne fonctionne cependant que lorsque les caractères intermédiaires existent. Dans l'exemple précédent, même sans identifier la clef, la forme de quatre traits 耂 (qui n'a pas d'existence indépendante) montre sur sa page qu'elle ne peut que se trouver qu'au-dessus d'un autre caractère. Elle ne peut donc pas être sous la clef 竹, toujours située au-dessus du sinogramme, et il est inutile de chercher un composé de ce type. Elle est bien ici au-dessus de 日, ce qui permet encore une fois d'identifier le caractère intermédiaire 者.

Les sinogrammes y sont également indexés :

Par la méthode des quatre coins (pour laquelle il faut évidemment connaître la méthode des quatre coins) ;
Par code de saisie suivant la méthode cangjie ;
Par nombre de traits (mais pour des cas désespérés, il vaut mieux consulter la liste des caractères difficiles à trouver) ;
Par prononciation, cette prononciation étant donnée pour le mandarin et étant notée en pinyin. Cette dernière approche est spécifique au chinois mandarin, les autres méthodes permettant de retrouver les sinogrammes indépendamment des langues les utilisant.

Variantes graphiques

La recherche dans les dictionnaires est compliquée par l'existence de variantes graphiques.

Les clefs peuvent faire l'objet de variantes, qui modifient le nombre de traits de manière parfois importante. Ainsi :

La clef de l'herbe 艸, qui comporte normalement six traits, est habituellement représentée sous sa forme simplifiée = 艹, qui ne comprend que trois traits.
De plus, cet élément de caractère peut parfois se représenter sous la forme variante ⻀, qui comprend quatre traits.

La conséquence sur les classifications dans les dictionnaires est double, suivant que l'on recherche la clef, ou un caractère particulier :

Confronté à un caractère comportant le graphisme 艹 ou ⻀ comme clef potentielle, le lecteur devra identifier que cet élément de caractère peut en réalité désigner la clef 艸, et que le caractère doit être recherché dans la série correspondant à cette clef : sous la rubrique "six traits" plus quelque chose. Si le dictionnaire utilisé a été complaisant, et propose sous une clef simplifiée 艹 de trois traits une partie de ces caractères, il restera à déterminer si un caractère habituellement tracé sous la forme rare ⻀ a été réduit à sa forme plus usuelle 艹, ou figure (de manière très anormale) sous une forme spécifique ⻀, ou figure sous la clef intégrale 艸, ou a été simplement omis de la classification.
Si cet élément de caractère n'est pas la clef, il reste à déterminer sous quel nombre de traits la variante observée a été enregistrée. Ce peut être sous trois traits (la simplification habituelle 艹), quatre traits (la même, dans la variante plus rare ⻀), ou six traits (la forme pleine 艸).

Sachant que l'une ou l'autre des formes peut être utilisée dans n'importe quel caractère comportant cet élément, la recherche d'un caractère particulier doit tenir compte des variantes graphiques potentielles pour n'importe lequel des éléments de caractère qu'on y reconnaît.

Références et liens

Article(s) connexe(s)

Dictionnaire en ligne

Wiktionary français, anglais
Dictionnaire Chinois Français recherche par caractère chinois, pinyin ou français.
Dictionnaire Chinois, exercices, grammaire chinoise Dictionnaire français, anglais, chinois basé sur un autre dictionnaire, CFDICT.
Dictionnaire français chinois bilangue chinois-français et français-chinois. Possibilité de générer des modèles de calligraphie à partir des résultats.
Recherche directe des caractères composés sur Jim Breen's WWWJDIC Server
(en) Zhongwen.com dictionnaire étymologique permettant la recherche par clé, nombre de trait, prononciation ou d'après la traduction en anglais. Il est en chinois traditionnel afin de comprendre l'étymologie, mais les caractères simplifiés sont également donnés en référence.
(en) le site de Nciku un ensemble de dictionnaire, de guides de conversation, de reconnaissance de caractères, et de nombreux autres outils d'apprentissage de la langue.
(en) le site de Yellowbridge analogue au précédent (et peut-être encore plus riche), mais plus axé sur la culture chinoise.
(en) Chinese Tools de nombreux outils dont un dictionnaire et un traducteur chinois.

Dictionnaire électronique libre

Stardict. Logiciel libre avec dictionnaires chinois simplifié et traditionnels, généralistes ou spécialisés, chinois⇔français et chinois⇔anglais. OS: UNIX (GNU/Linux, BSD, Solaris, PDA sous GNU/Linux…, MS-Windows, port Darwin pour MacOS X.