Discussion:Codage des caractères

Autres discussions [liste]

Admissibilité
Neutralité
Droit d'auteur
Article de qualité
Bon article
Lumière sur
À faire
Archives
Commons

Cet article est indexé par les projets Informatique, Typographie et Télécommunications.

Les projets ont pour but d’enrichir le contenu de Wikipédia en aidant à la coordination du travail des contributeurs. Vous pouvez modifier directement cet article ou visiter les pages de projets pour prendre conseil ou consulter la liste des tâches et des objectifs.

**Évaluation** de l’article « **Codage des caractères** »
Avancement	Importance
Bon début	Élevée	Informatique (discussion • critères • liste • stats • hist. • comité • stats vues)
	Élevée	Typographie (discussion • critères • liste • stats • hist. • comité • stats vues)
	Moyenne	Télécommunications (discussion • critères • liste • stats • hist. • comité • stats vues)

Cet article comporte une liste de tâches suggérées :

modifier • suivre • rafraîchir • aide

Votre aide est la bienvenue pour corriger les liens, présents dans l'article, vers les pages d'homonymie GBK , UTF ⇒ Quelques explications pour effectuer ces corrections. -- 18 mars 2020 à 02:03 (CET)

Désaccord de pertinence modifier

Je pense que l'articles contient plusieurs informations fausses ou peu claires, par exemple :

L'ASCII ne date pas des premiers jours de l'informatique et il n'est pas évident qu'il fut le plus utilisé dès son apparition.
=E9 est un échappement MIME, je ne suis pas sûr que ce soit comparable à un codage de caractère. C'est plutôt un moyen de représenter un octet avec des caractères, l'inverse du sujet de l'article...
Unicode est plein de pièges et de subtilités, mieux vaut ne pas s'avancer comme en prétendant que chaque caractère possède un unique code entier.
La distinction entre le répertoire (comme Unicode) et le codage en bits proprement dit (UTF-8, UTF-16) me semble parfois un peu floue.

Je pense que les précisions nécessaires seront apportées à force de relecture, je laisse le bandeau pour les encourager et avertir le visiteur innocent. Marc Mongenet 21 fev 2005 à 01:04 (CET)

Pour le point 3, je ne suis pas d'accord. En effet, même si de nombreux caractères sont homographes (identiques visuellement), que certains sont des combinaisons d'autres, etc., chaque caractère Unicode est unique au moins sémantiquement, et cela en raison de la distinction glyphe-caractère opérée par le consortium. Pour le 1, 2 et 4, c'est pas moi ! lol --m·delahaye 21 fev 2005 à 01:52 (CET)

Après vérification, si c'est moi, pour le 4, mais pour mon excuse la nomenclature d'Unicode est très compliquée. Unicode est bien un codage de caractères (merci BenoitL pour la correction) au sens où il fait correspondre un numéro à un caractère. Il intégre un répertoire de caractères (ensemble de caractères non ordonné) au sens où il permet de coder un certain nombre de caractères. UTF-8 et UTF-16 sont quant à eux des formes de codage de caractères (Character Encoding Forms). En sachant qu'on peut rajouter une couche supplémentaire sur tout ça le modèle de codage de caractères... donc à priori c'est correcte mais flou il est vrai. --m·delahaye 21 fev 2005 à 02:39 (CET)

Pour le point 3, j'ai un petit doute. L'article dit « le répertoire complet d'Unicode contient plus de 100 000 caractères, chacun possédant un unique code entier ». On pourrait comprendre que le e minuscule accent aigu possède un unique code entier en Unicode, alors qu'on peut sémantiquement faire un e minuscule accent aigu avec des combinaisons, non ? En outre il me semble avoir lu que le standard Unicode considère les caractères accentués (on dit diacritiques ?) repris de ISO-8859-x comme des caractères « de compatibilité » qui ne devraient idéalement pas être utilisés car redondants. Ce qui renforcerait cette idée de code non unique dans le standard même. Je n'ai cependant fait que survoler le standard Unicode il y a quelques semaines et je ne suis donc pas sûr de ce que j'avance. Marc Mongenet 21 fev 2005 à 15:16 (CET)

Dans le TR#17, c'est expliqué en détail (sûrement trop), mais la FAQ répond à ta question : « Unicode provides a unique encoding for every character ». Pour l'histoire des caractères de compatibilité, oui il y en a mais pas ceux là... Pour Unicode, E+` n'est pas È ! Un caractère de compatibilité est en fait en général un caractère auquel on associe un glyphe qui n'est qu'une variante d'un caractère ou d'un groupe de caractère, par exemple la ligature fi (dans les livres bien imprimés le f et le i sont liés). Tous ces caractères font partie d'une zone de compatibilité, qu'on ne doit pas utiliser en dehors de l'implémentation de l'Unicode dans un logiciel et dans les polices de caractères. C'est pourquoi je pense que pour le commun des mortels et surtout à l'article Codage de caractères et non à l'article Unicode, on peut dire que Unicode fournit un code unique à chaque caractère. J'en tiens pour preuve tout le tapage qu'il y a eu autour de l'unification CJK.

Effectivement, vu ainsi, ça paraît tout à fait pertinent. Marc Mongenet 21 fev 2005 à 22:22 (CET)

mots-clef absents modifier

Dernier commentaire : il y a 15 ans1 commentaire1 participant à la discussion

numéri* {-sation,-sé,-que, etc.} --Jérôme Potts (d) 3 septembre 2008 à 03:38 (CEST)Répondre

texte qui peut être intéressant pour cet article modifier

Dernier commentaire : il y a 13 ans1 commentaire1 participant à la discussion

Bonjour. Je copie ici un texte que j'ai retiré de l'article code. Je ne l'ai pas recopié dans l'article car il me semble très mal rédigé. Cordialement, Freewol (d) 23 août 2010 à 15:47 (CEST)Répondre
PS : pour les auteurs de ce texte, voir l'historique de l'article code
PPS : si le texte devait être copié dans l'article, il faudrait coller ce bandeau sur cette page de discussion pour faire les choses correctement {{auteurs crédités après scission|code|23 aout 2010|56404797}}

texte en question modifier

Pour un ordinateur, un texte est une chaîne de caractères qui contient des codes, des caractères alphabétiques et des caractères dits de contrôle. La représentation des caractères est relativement simple pour la langue anglaise, mais dans un premier temps, le codage des accents, présents dans certaines langues européennes, comme le français, et des langues utilisant un autre alphabet a posé problème. Dans le contexte de la mondialisation, la possibilité d'encoder et donc de représenter de nombreuses langues est un enjeu majeur pour la communication et le commerce. Il existe plusieurs normes de codage, dont l'une des plus connues est le code ASCII (American Standard Code for Information Interchange). Les caractères y sont codés sur 8 bits, il y a donc 256 places disponibles dans le jeu de caractères. Le problème est que chaque constructeur a utilisé des places différentes pour coder les caractères accentués. C’est pourquoi la réussite d'un échange avec cette norme de codage dépend du matériel utilisé et du pays dans lequel on se trouve. Émetteur et récepteur doivent avoir le même code. D'autres normes, comme ISO 8859-1 et Unicode, ont permis un système de codage plus complet et plus unifié.

EBCDIC modifier

La section historique me semble évasif sur l' Extended Binary Coded Decimal Interchange Code...

Sections manquantes modifier

Il me semble que l'article pourrait être enrichi des sections suivantes:

logiciels de conversion: logiciel existants de conversion d'encodage
échange: problématique d'échange de données (fichiers, mails) lorsque différents encodages sont utilisés
compatibilité: dépendance/compatibilité des logiciels à certains encodages spécifiques ou pas...
généralités: ce qu'est un caractère, par exemple d'un point de vue unicode (caractères de contrôle, espaces, lettres, etc...)
représentation sous-jacentes: comment est représenté un caractère: un nombre fixe ou variable d'octets par caractère, avec quelques exemples...

Histoire longue modifier

J'ai complété un peu la section histoire, mais à présent, elle fait trois pages sur un écran graphique de 1000 colonne et 1900 lignes...

Je suggère donc de déplacer cette section dans un nouvel article: Histoire du codage des caractères et de ne laisser ici qu'un succin résumé qui aborde les points essentiels:

l'avant bit (les morses)
l'apport du Tetex (5 bits et échappement)
l'apport des cartes perforées (dépassement de la limite des cinq bits)
l'apport des six bits (octal/BCD) réduisant le nombre de buts des cartes perforées et apportant la notion de caractères multi-code-unit
l'apport de l'ASCII qui a réussi a eclipsé ses prédécésseurs
l'apport des caractères 8 bits, par l'EBCDIC
l'apparition des caractères nationaux 8 bits, et leurs diverses évolutions, notamment IBM, Windows et ISO
les diverses entreprise de codage des caractères internationaux
l'émérgence d'Unicode

Si l'on renvoie vers l'article détaillé Histoire du codage des caractères, je ne pense pas qu'il soit nécessaire de mettre beaucoup plus de lignes à ce sujet ici...

Mais auparavent, il faudrait compléter l'article sur autre chose que de l'histoire!

Qu'en pensez-vous?

j'ai besoin d'une réponse modifier

Dernier commentaire : il y a 11 ans1 commentaire1 participant à la discussion

−− −·−− −· ·− −− · ·· ··· −·· ·−−− ·− −− · ·−·· −··· · −· −−·· · ·−· ·− ·−· ·− c'est quoi ça ?

Voir Morse (alphabet). JackPotte ($♠) 24 février 2013 à 11:21 (CET)Répondre

Ajouter un sujet