Discussion:Codage des caractères

Dernier commentaire : il y a 11 ans par JackPotte dans le sujet j'ai besoin d'une réponse
Autres discussions [liste]
  • Admissibilité
  • Neutralité
  • Droit d'auteur
  • Article de qualité
  • Bon article
  • Lumière sur
  • À faire
  • Archives
  • Commons

Désaccord de pertinence modifier

Je pense que l'articles contient plusieurs informations fausses ou peu claires, par exemple :

  1. L'ASCII ne date pas des premiers jours de l'informatique et il n'est pas évident qu'il fut le plus utilisé dès son apparition.
  2. =E9 est un échappement MIME, je ne suis pas sûr que ce soit comparable à un codage de caractère. C'est plutôt un moyen de représenter un octet avec des caractères, l'inverse du sujet de l'article...
  3. Unicode est plein de pièges et de subtilités, mieux vaut ne pas s'avancer comme en prétendant que chaque caractère possède un unique code entier.
  4. La distinction entre le répertoire (comme Unicode) et le codage en bits proprement dit (UTF-8, UTF-16) me semble parfois un peu floue.

Je pense que les précisions nécessaires seront apportées à force de relecture, je laisse le bandeau pour les encourager et avertir le visiteur innocent. Marc Mongenet 21 fev 2005 à 01:04 (CET)

Pour le point 3, je ne suis pas d'accord. En effet, même si de nombreux caractères sont homographes (identiques visuellement), que certains sont des combinaisons d'autres, etc., chaque caractère Unicode est unique au moins sémantiquement, et cela en raison de la distinction glyphe-caractère opérée par le consortium. Pour le 1, 2 et 4, c'est pas moi ! lol --m·delahaye 21 fev 2005 à 01:52 (CET)
Après vérification, si c'est moi, pour le 4, mais pour mon excuse la nomenclature d'Unicode est très compliquée. Unicode est bien un codage de caractères (merci BenoitL pour la correction) au sens où il fait correspondre un numéro à un caractère. Il intégre un répertoire de caractères (ensemble de caractères non ordonné) au sens où il permet de coder un certain nombre de caractères. UTF-8 et UTF-16 sont quant à eux des formes de codage de caractères (Character Encoding Forms). En sachant qu'on peut rajouter une couche supplémentaire sur tout ça le modèle de codage de caractères... donc à priori c'est correcte mais flou il est vrai. --m·delahaye 21 fev 2005 à 02:39 (CET)
Pour le point 3, j'ai un petit doute. L'article dit « le répertoire complet d'Unicode contient plus de 100 000 caractères, chacun possédant un unique code entier ». On pourrait comprendre que le e minuscule accent aigu possède un unique code entier en Unicode, alors qu'on peut sémantiquement faire un e minuscule accent aigu avec des combinaisons, non ? En outre il me semble avoir lu que le standard Unicode considère les caractères accentués (on dit diacritiques ?) repris de ISO-8859-x comme des caractères « de compatibilité » qui ne devraient idéalement pas être utilisés car redondants. Ce qui renforcerait cette idée de code non unique dans le standard même. Je n'ai cependant fait que survoler le standard Unicode il y a quelques semaines et je ne suis donc pas sûr de ce que j'avance. Marc Mongenet 21 fev 2005 à 15:16 (CET)
Dans le TR#17, c'est expliqué en détail (sûrement trop), mais la FAQ répond à ta question : « Unicode provides a unique encoding for every character ». Pour l'histoire des caractères de compatibilité, oui il y en a mais pas ceux là... Pour Unicode, E+` n'est pas È ! Un caractère de compatibilité est en fait en général un caractère auquel on associe un glyphe qui n'est qu'une variante d'un caractère ou d'un groupe de caractère, par exemple la ligature fi (dans les livres bien imprimés le f et le i sont liés). Tous ces caractères font partie d'une zone de compatibilité, qu'on ne doit pas utiliser en dehors de l'implémentation de l'Unicode dans un logiciel et dans les polices de caractères. C'est pourquoi je pense que pour le commun des mortels et surtout à l'article Codage de caractères et non à l'article Unicode, on peut dire que Unicode fournit un code unique à chaque caractère. J'en tiens pour preuve tout le tapage qu'il y a eu autour de l'unification CJK.
Effectivement, vu ainsi, ça paraît tout à fait pertinent. Marc Mongenet 21 fev 2005 à 22:22 (CET)

mots-clef absents modifier

texte qui peut être intéressant pour cet article modifier

Bonjour. Je copie ici un texte que j'ai retiré de l'article code. Je ne l'ai pas recopié dans l'article car il me semble très mal rédigé. Cordialement, Freewol (d) 23 août 2010 à 15:47 (CEST)Répondre
PS : pour les auteurs de ce texte, voir l'historique de l'article code
PPS : si le texte devait être copié dans l'article, il faudrait coller ce bandeau sur cette page de discussion pour faire les choses correctement {{auteurs crédités après scission|code|23 aout 2010|56404797}}

texte en question modifier

Pour un ordinateur, un texte est une chaîne de caractères qui contient des codes, des caractères alphabétiques et des caractères dits de contrôle. La représentation des caractères est relativement simple pour la langue anglaise, mais dans un premier temps, le codage des accents, présents dans certaines langues européennes, comme le français, et des langues utilisant un autre alphabet a posé problème. Dans le contexte de la mondialisation, la possibilité d'encoder et donc de représenter de nombreuses langues est un enjeu majeur pour la communication et le commerce. Il existe plusieurs normes de codage, dont l'une des plus connues est le code ASCII (American Standard Code for Information Interchange). Les caractères y sont codés sur 8 bits, il y a donc 256 places disponibles dans le jeu de caractères. Le problème est que chaque constructeur a utilisé des places différentes pour coder les caractères accentués. C’est pourquoi la réussite d'un échange avec cette norme de codage dépend du matériel utilisé et du pays dans lequel on se trouve. Émetteur et récepteur doivent avoir le même code. D'autres normes, comme ISO 8859-1 et Unicode, ont permis un système de codage plus complet et plus unifié.

La section historique me semble évasif sur l' Extended Binary Coded Decimal Interchange Code...

Sections manquantes modifier

Il me semble que l'article pourrait être enrichi des sections suivantes:

  • logiciels de conversion: logiciel existants de conversion d'encodage
  • échange: problématique d'échange de données (fichiers, mails) lorsque différents encodages sont utilisés
  • compatibilité: dépendance/compatibilité des logiciels à certains encodages spécifiques ou pas...
  • généralités: ce qu'est un caractère, par exemple d'un point de vue unicode (caractères de contrôle, espaces, lettres, etc...)
  • représentation sous-jacentes: comment est représenté un caractère: un nombre fixe ou variable d'octets par caractère, avec quelques exemples...

Histoire longue modifier

J'ai complété un peu la section histoire, mais à présent, elle fait trois pages sur un écran graphique de 1000 colonne et 1900 lignes...

Je suggère donc de déplacer cette section dans un nouvel article: Histoire du codage des caractères et de ne laisser ici qu'un succin résumé qui aborde les points essentiels:

  • l'avant bit (les morses)
  • l'apport du Tetex (5 bits et échappement)
  • l'apport des cartes perforées (dépassement de la limite des cinq bits)
  • l'apport des six bits (octal/BCD) réduisant le nombre de buts des cartes perforées et apportant la notion de caractères multi-code-unit
  • l'apport de l'ASCII qui a réussi a eclipsé ses prédécésseurs
  • l'apport des caractères 8 bits, par l'EBCDIC
  • l'apparition des caractères nationaux 8 bits, et leurs diverses évolutions, notamment IBM, Windows et ISO
  • les diverses entreprise de codage des caractères internationaux
  • l'émérgence d'Unicode

Si l'on renvoie vers l'article détaillé Histoire du codage des caractères, je ne pense pas qu'il soit nécessaire de mettre beaucoup plus de lignes à ce sujet ici...

Mais auparavent, il faudrait compléter l'article sur autre chose que de l'histoire!

Qu'en pensez-vous?

j'ai besoin d'une réponse modifier

−− −·−− −· ·− −− · ·· ··· −·· ·−−− ·− −− · ·−·· −··· · −· −−·· · ·−· ·− ·−· ·− c'est quoi ça ?

Voir Morse (alphabet). JackPotte ($) 24 février 2013 à 11:21 (CET)Répondre
Revenir à la page « Codage des caractères ».