Important : cette prise de décision s'est conclue le 9 mars 2004 par l'adoption par consensus de l'UTF-8 comme système d'encodage du Wikipédia francophone. Pour tout commentaire, ou demande de réouverture du débat, utiliser la page de discussion associée, ou laisser un message sur le Bistro de Wikipédia.

Problèmes et arguments

J'ai jeté un coup d'œil à la FAQ et je ne l'ai pas trouvé. Comme est-ce qu'on fait à faire des entrées avec des lettres Unicode. Sur it.wiki et en.wiki cela marche sans problème. Par contre ici si j'éssaie de éditer "Gdańsk" je me retrouve à éditer "Gda".

Les regles dans ce cas là disent Gdansk -> Gdańsk [Gdansk c'est REDIRECT pour Gdańsk] n'est-ce pas? Ou c'est le nom français ?!?!

Bonne nuit à tout le monde, Schopenhauer 27 fév 2004 à 03:13 (CET)

j'ai fait cette malheureuse expérience moi aussi (avec lautari, bein visiblement il faut éviter, (mettre le titre Gdansk) et dans tes textes tu met Gdańsk... mais je me demande comment il font sur le wiki russe ou chinois :p iubito 27 fév 2004 à 05:56 (CET)
Certains Wikipédia sont entièrement en Unicode, nous, nous le sommes que partiellement. En fait, on peux créer un titre Unicode en utilisant les codes HTML &#xxxx; (comme ici : テスト) mais l'affichage du titre ne ce fera pas correctement. En fait, il y a deux solutions :
  • passer à l'Unicode complet (ce qui rend le site inaccessible aux navigateurs/OS ne supportant pas Unicode),
  • continuer a utiliser les titres latin-1 (comme [[Gdansk|Gdańsk]] ).
Pour l'instant, c'est la seconde solution qui est privilégié. Aineko 27 fév 2004 à 06:20 (CET)

Je pense qu'on devrait enfin passer à Unicode. Yann 27 fév 2004 à 10:22 (CET)

Je ne pense pas qu'il soit intéligent de passé entierement a l'Unicode si cela peut nous coupé de certain utilisateur. Traeb

Je veux aussi passer enfin à l'unicode. Que ceux qui n'ont pas un navigateur unicode et qui n'ont pas la possibilité d'en installer un (internet explorer, Netscape > 4.7, mozilla, lynx, safari, et bien d'autres ...) lèvent la main. Qu'on ne m'oppose pas l'argument comme quoi les vieilles machines ne peuvent pas avoir un navigateur unicode parce que c'est faux (lynx fonctionne très bien sur des antiquités) ... bon peut-être quelques vieux macs. Je voudrais voir les stats de squid pour savoir quelle est la proportion de navigateurs non compatibles en ce moment. L'unicode nous faciliterait énormément la vie, je braille depuis un an pour qu'on passe en unicode. Il est temps que ça commence enfin à bouger :) Med 27 fév 2004 à 12:17 (CET)

et que fera t on pour tous les articles foutus en l air par des navigateurs non fonctionnels ? Tu répareras tout a la main derrière les gens ? ant

En fait pas seulement le wiki chinois est en Unicode, aussi le wiki italien. Cela, e.g., it:Gdańsk existe. Je crois de toute façon que tout le monde a un navigateur utf-8 et si ce n'est pas le cas c'est un choix d'une personne qui connait bien comment résoudre le problème (je crois pas que le neuneu utilisent links ou similaires...).
Schopenhauer 27 fév 2004 à 15:34 (CET)
Anthere, la solution est très simple : modification interdite. On leur envoie un message poli et explicatif et on leur pointe une liste donnant les très nombreux navigateurs qui supportant l'UTF-8. Ils ne faut pas bloquer le progrès et pénaliser tout le monde parce qu'une infime minorité est rétrograde. Med 27 fév 2004 à 17:25 (CET)
cette solution est inacceptable de mon point de vue. Nous pouvons aussi bénéfier d'apports d'éditeurs n'ayant *pas* accès à des bécanes modernes. Je ne suis pas d'accord pour que nous laissions tomber un principe clé de Wikipédia, qui est l'ouverture à tous. Si tu veux absolumment l'utf8, alors tu t'engage à corriger derrière eux. A moment donné, les programmeurs avaient evoqué la possibilité de faire une transfo du type de codage, lors de la reconnaissance d'un navigateur ne reconnaissant pas wikipedia. Pourquoi ne pas partir dans cette direction la ? ant
Bon, tout d'abord il n'y a pas besoin d'avoir un ordinateur dernier cri pour avoir un navigateur supportant l'UTF-8. Il m'arrive régulièrement d'utiliser des ordi vieux de 5-6-7 ans et mozilla tourne a une vitesse supportable dessus (j'ai pas dit rapide). Un ordi plus vieux s'en tire sans problème avec lynx, cet argument n'est donc pas valable.
Après, si les développeurs ont le temps de développer le changement de charset à la volée, je suis évidemment pour. Med 29 fév 2004 à 01:24 (CET)
Quid des utilisateurs qui ont un accès, mais pas le contrôle de la machine, et ne peuvent donc installer de navigateur utf8 ? (ex: à la fac, dans certaines sociétés, etc)
Et tu crois que les gens qui savent à peine utiliser un ordinateur (une très grande proportion d'utilisateurs, au moins de Windows, qui représente une grande partie des utilisateurs) vont même penser à vouloir prendre la peine d'aller chercher un navigateur et l'installer ? Je pense que non, clairement.
Ryo 29 fév 2004 à 09:11 (CET)
Très simple, ils téléchargent Firefox et ils le décompressent. Aucune installation nécessaire. Sinon à la fac soit ils ont windows donc ça gère l'UTF-8 soit ils ont un Unix et mozilla d'installé et donc ça gère l'UTF-8. Et je le répète, pour windows, le problème ne se pose pas. Windows (et donc IE) gère l'UTF-8 depuis très longtemps. Sinon, apportez moi des chiffres montrant que ça pénaliserait une proportion non totalement négligeable des utilisateurs. Med 29 fév 2004 à 11:02 (CET)
Bien sûr, dis à Tata d'installer Firefox, elle va être contente :)
Bon, ces débats s'enlisent. Je suis ok pour passer en utf8, mais à une condition: tu, Med (puisque tu insistes très fort pour passer en utf8 :)), corriges les pages cassées par les navigateurs pas compatibles. S'il n'y en a pas, tant mieux pour toi ^_-
Ça te paraît honnête, comme deal ? (et qu'en pensent les autres, d'ailleurs ?)
Ryo 29 fév 2004 à 11:25 (CET)

Je suis d'accord avec Med. Je pense que ne pas utiliser Unicode pose plus de problèmes qu'il n'en résoud. Personne n'a fournit une liste des navigateurs qui ne supporte pas Unicode, encore moins une proportion des utilisateurs qui en ont un. AMA cela ne posera pas plus de problèmes que les nouveaux. S'il des contributeurs utilisant un navigateur non conforme se présentent, se sera aussi l'occasion de les aider à changer de navigateur. Ant, ton navigateur peut-il utiliser Unicode ? Yann 29 fév 2004 à 12:24 (CET)


Tous les wikipedias utilisent UTF-8 sauf une toute petite poignée: en, es, fr, de, da, sv, nl (peut-être s'agit-il des premiers passés en PhaseIII?), et ça pose pas mal de problèmes, car ces wikipedias là sont supposés utiliser iso-8859-1, mais de nombreux navigateurs interpretent ça comme du windows-1252, ce qui crée des problèmes sans fin pour les caractères ?(oe), ?(OE), ?(euro), ?(z<), ?(Z<), ?(s<), ?(S<), ½(1/2), ¼(1/4) et ¾(3/4) (et aussi des signes tipographiques utilisés en cp1252 et absents en iso-8859-1). L'argument des "navigateurs ne supportant pas utf-8" est un faux arguments; d'abord de tels navigateurs sont rarissimes, on pourrait tout aussi bien arguer qu'il y a des gens qui font du "telnet 80"... mais, surtout, un navigateur qui est incapable de lire une page en utf-8 sera aussi incapable d'interpreter les entités html genre &#xyz; ou confondra allégremment cp1252 et iso-8859-1
Quoi qu'il en soit, le wikipédia français ne peut pas utiliser iso-8859-1, c'est une erreur, car iso-8859-1 ne permets pas d'écrire en français correct, puisqu'il lui manque le ? (e dans l'o), ce mauvais choix technique a comme consequence qu'on est obligé d'écrire "oeuf", "boeuf" etc dans les titres, alors que, tant qu'il n'y aura pas de réforme de l'orthographe, ces mots ne s'écrivent pas ainsi mais ?uf, b?uf,... Je ne serais pas contre l'utilisation de windows-1252, mais iso-8859-1 est un très mauvais choix.
UTF-8 est un choix encore meilleur; non pas que ce soit necessaire pour le français, mais de nombreux articles incluent des caractères non latins (par exemple les excellents articles sur le gotique ou la série d'articles sur l'alphabet et la culture arabe, ou ceux sur le japon, etc. Je trouve que cela apporte un réel plus. En utilisant utf-8 le texte est lisible en clair; mais en n'utilisant pas utf-8 cela deviens totalement illisible, il est impossible d'éditer normalement un article sur le Japon contenant des mots en japonais pour quelqu'un connaissant le japonais, on ne voit qu'une bouillie infâme de chiffres.
A noter aussi que je n'ai eu vent d'aucun problème d'encodage pour des wikipedia qui utilisent exlcusivement et de façon extensive utf-8 (celles en chinois, japonais, russe, coréen, arabe, perse, hebreu, grec, turc,...) Alors que j'en vois très régulièrement sur les wikipédias français et anglais qui n'utilisent pas encore utf-8. C'est qu'il existe des navigateurs qui savent lire une page utf-8, mais qui, lorsqu'ils lisent une page iso-8859-1 estiment que ce n'est pas de l'utf-8 (logique) et en filtrent tout ce qui n'est pas iso-8859-1. Et ces navigateurs là font beaucoup plus de dégâts que ceux qui "ne supportent pas unicode" Srtxg 1 mar 2004 à 12:16 (CET)

J'appuie bien sûr entièrement les propos de Pablo : j'ai déjà fait souvent part de ma frustration à devoir passer par les entités html dès que je tape un article. J'utilise plus que très souvent des caractères étendus (dans la majorité de mes articles, en fait) et devoir tout coder est fatigant. De plus, cela ne permet pas des corrections aisées car... allez corriger un accent dans un texte en grec quand le source n'affiche que des suites d'entités. J'avais lancé une discussion dans la liste Wikipédia-Fr, mais les mêmes arguments reviennent sans cesse. Il me semble qu'il faudrait voter, comme le propose Anthe/ê/è/é/ηre. Vu que certains d'entre nous font déjà la chasse aux articles mal codés (parce qu'il n'est pas rare qu'un éditeur code en brut des œ, des ou des qui, pour des raisons que je ne m'explique pas, passent très bien mais sont transformés en ? dès qu'un navigateur respectueux des jeux de caractères passe derrière), je ne pense pas que les quelques cas de pages en utf-8 pouvant être abîmées par de rares navigateurs soulèvent des problèmes insurmontables. Vincent 1 mar 2004 à 13:53 (CET)
Je sais pas si c'est fait exprès ou non, Vincent, mais t'as cassé des caractères spéciaux, justement :)
Ryo 1 mar 2004 à 14:01 (CET)
C'est normal. Les caractères en question ont été codés en brut alors qu'ils ne peuvent l'être dans un texte en latin-1 (comme œ). C'est un bon signe : mon navigateur respecte donc bien les normes des jeux de caractères et il ne tolère pas les erreurs de codage. Pour ta part, cependant, tu as supprimé des insécables, alors que ces caractères sont parfaitement légaux.... Vincent 1 mar 2004 à 14:10 (CET)
Je les vois pas, ces insécables... Du texte est effectivement en rouge, mais ça apparaît identique à gauche & à droite.
Pour info, Mozilla 1.6
Ryo 1 mar 2004 à 14:36 (CET)
Normal, une espace insécable a l'&oeig;il d'une espace normale. Rien ne les distingue, se ce n'est que seule l'espace insécable empêche des ponctuations de passer à la ligne. Je passe très souvent après des éditeurs qui les effacent sans le savoir (je me suis écrit un script pour automatiser cela). Vincent 1 mar 2004 à 15:08 (CET)
Quand cette page était dans le bistro, les oe de ton texte (Srtxg) étaient OK, tu as édité, et boum! on a des ?
c'est l'ISO ou c'est ton navigateur qui fait ça ?
C'était une contradiction avec la norme ISO-8859-1, que mon navigateur a résolue ainsi. Si les caractères avaient été correctement codés, cela ne serait pas arrivé, de même que si nous avions été en UTF-8, du reste. Cette histoire appuie fort bien mes propos : rester en latin-1 est très gênant car les caractères interdits en latin-1 (sauf si on les code sous forme d'entités) sont fréquents en français. Vincent 1 mar 2004 à 14:14 (CET)
sinon pour les facs et grandes entreprises, j'en connais qui tournent sur windows avec Netscape 4.7 et peuvent pas changer ! ça supporte l'UTF-8?
iubito 1 mar 2004 à 14:05 (CET)
NS4 supporte l'utf-8 en lecture mais pas en écriture. Cependant on n'a pour ainsi dire aucune visite de NS4 (voir mon post plus bas). Sinon, pourquoi il ne peuvent pas changer? Firefox ne nécessite aucune installation. Et partout où je me suis baladé, il y avait au moins un mozilla de dispo.

Med 1 mar 2004 à 14:08 (CET)

bein l'IUT où j'étais (y'a 2 ans mais ça m'étonnerai qu'ils aient tout changé leur parc info depuis :p), y'avait deux salles avec du IE6, mais tout le reste c'était du windows NT4/NS4.7, et pas la peine d'installer un prog ou quoi que ce soit, au reboot une config standard était remise (excepté un répertoire "travail" où on mettait nos fichiers pendant les TPs... et en cas de plantage c'était pas perdu). Alors d'ici à ce que plusieurs installent un logiciel dans ce répertoire de travail, et que les autres soient au courant... On était bien arrivé petit à petit à installer un bloc-note amélioré pour coder nos TP en java, mais beaucoup l'ignorait. iubito 1 mar 2004 à 14:19 (CET)
bon mais à vrai dire moi le NS4 je m'en tape, un truc tout buggé....! Mais dans mes programmes PHP je viens de trouver la solution, si j'écrit en brut les caractères russes ou chinois... ça marche pas toujours, que je lui dise charset=utf-8 ou iso8859-1, que les navigateurs (moz, opéra et ie6) choisissent automatiquement ou en choix manuel... ça merdait toujours! alors j'ai trouvé la fonction miracle qui encode tout en entités &#xxxx; et là ça marche comme sur des roulettes! peu importe l'en-tête charset= , la config du navigateur :), c'est par ici tout en bas de la page :). Et quand je fais un site avec base de données (par exemple celui-ci ça a jamais voulu marcher correctement avec charset=utf-8, mais impec avec iso8859, même quand j'édite mes textes qui ont des caractères russes :)
arf c'est chaud l'unicode et compagnie, il suffit de trouver le truc qui marche, après c'est bon... mais parfois on galère :p. Je pense quand même que je voterai pour... iubito 1 mar 2004 à 14:34 (CET)
C'est justement ce qu'on veut éviter. On veut passer en utf-8 pour se débarrasser des entités du style &xxxxx;. Avec NS4 ça fonctionne sans passer par là. Il suffit juste de lui dire que c'est de l'unicode. Med 1 mar 2004 à 14:37 (CET)

Alors c'est très simple, nous allons lister les personnes favorables à l'utf8. En cas de problème, ces personnes s'engagent

  1. à réparer les éventuels articles abimés
  2. à expliquer au neuneu (j'ai bien noté le terme, je vous remercie au passage) comment débobiner la tataboite pour pouvoir upgrader leurs navigateurs.

Pour ce qui est d'interdire l'accès aux navigateurs non adhoc, c'est hors de question; et j'ai confiance dans les développeurs pour ne pas laisser faire cela; le deal est la...si effectivement, on ne rencontre plus aucun navigateur posant problème, nickel. Si par contre, on en rencontre un, vous vous engagez à solutionner le problème pour l'utilisateur. Si tout ce passe bien, vous n'aurez rien à faire, s'il y a un problème, vous assumez :-) Numéro 6

Anthere, je me suis renseigné hier auprès de Shaihulud qui m'a gentilment communiqué le nombre de Netscape 4 qui se sont connectés à wikipédia jeudi dernier (donc dans la semaine, on voit ce que les gens utilisent au travail) et dimanche. Le résultat : 0! Ceux qui sont contre l'utf-8 pour une histoire de navigateurs non compatibles se montent la tête tout seul. Tu noteras aussi que je n'ai _jamais_ demandé qu'on interdise l'accès aux vieux navigateurs, j'ai seulement demandé qu'on leur interdise la modification car cela casserait tout (d'ailleurs s'ils sont suffisamment intelligents ils verront bien dans leur fenêtre d'édition que quelque chose ne va pas (oui, j'ai essayé avec NS4 pour voir ce que ça donne)). Si je décide d'utiliser un navigateur non utf-8 tu demanderas à ce qu'on ne migre pas parce que je ne veux pas utiliser autre chose, uniquement pour moi? (parce qu'on est dans cette situation). Pour résumer l'argument des navigateurs ne tient pas debout. Quelles sont les autres objections maintenant? Med 1 mar 2004 à 13:26 (CET)
Anthere, on pourrait aussi prendre le problème a l'envers et dire que ceux qui ne sont pas pour la passage a l'UTF8 doivent s'engager
  1. à réparer les éventuels articles abîmés par les navigateurs qui ne respecte pas le codage actuel,
  2. à expliquer aux neuneu pourquoi y a plein de &#abcd; dans les articles et pourquoi les titres non français sont transformé en caractères extraterrestre.
Personnellement, je trouve que la version actuelle est bien moins sur que le sera la version UTF8. Aineko 2 mar 2004 à 15:02 (CET)

Note : la Wikipédia espéranto utilise nécessairement l'Unicode à cause de ses consonnes à chapeau (ĉ ĝ ĥ ĵ ŝ ŭ) et le programme donne cette facilité que l'on peut taper les combinaisons cx gx hx jx sx ux qui se transforment automatiquement dans les caractères souhaités. De pareilles astuces pouraient être utilisées pour les o + e = ?. le passage à Unicode ici aussi me semblerait un excellent progrès. Je me suis aussi cassé les dents parfois sur des liens interlangues rendus épineux par le Latin-1 (iso-8859-1.) Père Duchesne 1 mar 2004 à 12:43 (CET)

Actuellement, quand j'édite une page pour corriger un mot japonais, ca donne un truc du genre & #12354;& #12356;& #12358;& #12360;& #12362; & #12363;& #12365;& #12367;& #12369;& #12371;& #12288;& #12364;& #12366;& #12368;& #12370;& #12372; ... y a plus qu'a s'aracher les cheveux pour retrouver la faute :o/ Aineko 1 mar 2004 à 16:23 (CET)

Je me souviens lors de mes débuts sur mac, en 99, IE 4 et NS 4 étaient installés en standart, supportant l'Unicode, mais ce n'était pas le réglage par défaut. De fait, même avec des logiciels compatibles, de nombreuses personnes vont casser de la présentation archeos 4 mar 2004 à 08:59 (CET)


Opinions

Êtes-vous pour ou contre le passage de latin-1 à utf-8 et, le cas échéant, êtes-vous prêt à corriger les pages qui pourraient être abîmées par d'anciens navigateurs ? Pour ceux désirant rester en latin-1, êtes-vous prêt(e) à corriger les pages qui seraient mal encodées (œ ...) par des utilisateurs ne connaissant pas les restrictions de latin-1?

Pour

  1. Kelson
  2. Vincent (et je corrige sans problème) ;
  3. Med ;
  4. Ʀinaldum mais je ne corrige rien du tout ! (bon ok, si j'en trouve je les corrigerai)
  5. iubito moi non plus je corrige rien ! aller... moi aussi :p
  6. Greudin
  7. Yann
  8. Alibaba : les liens cassés par le latin-1 sont bien plus ch... (cf. ville maltaise de Għargħur transformée en Għargħur ou en G?arg?ur juste parce que W:fr ne supporte pas l'UTF-8 !) que ceux cassés par l'UTF-8.
  9. Aineko : je réparerai les pages que je trouverai
  10. Ryo, mais je garantis pas de réparer beaucoup de pages... par contre je veux pouvoir mettre des caractères japonais dans les noms de pages :)
  11. Ashar Voultoiz
  12. ℓisllk et en plus on pourra écrire ℕ tel quel dans les articles de maths sans avoir à passer par TeX
  13. Yggdras, même si je viens d'arriver. Par contre, pour la réparation, ca risque d'être dur
  14. Arnaudus, je peux réparer ce que je vois, et je ne vois pas pourquoi on s'interdirait le passage vers une technologie moderne à cause de quelques navigateurs réactionnaires.
  15. jeffdelonge en esperant qu'on gagnera en internationalisation sans perdre en accessibilité . je corrigerai ce que je verrai. message d'avertissement ou pédagogique nécessaire
  16. Φido, on ne devrait pas avoir trop de réparations à faire, et peut-être certaines peuvent-elles être confiées à des robots ?
  17. Beatnick si on reste aujourd'hui en iso, on y restera encore longtemps
  18. JX Bardant 2 mar 2004 à 12:14 (CET) : je réparerai
  19. Treanna 2 mar 2004 à 13:24 (CET)
  20. Traroth 2 mar 2004 à 15:10 (CET). Evidemment, si je trouve des erreurs, qu'elles soient dues au probleme de compatibilité de vieux navigateurs avec l'UTF-8 ou non, je les corrige. Y en a qui ne le font pas ? Denoncez vous !
  21. Gnu thomas
  22. Koxinga 2 mar 2004 à 21:32 (CET) complètement pour
  23. ZeroJanvier 3 mar 2004 à 00:41 (CET) Vive la modernité!
  24. MagicTom 3 mar 2004 à 23:56 (CET) Pour ! Garder le latin-1 serait aussi logique qu'utiliser de l'art ASCII à la place des images ;-) vive le progrès !
  25. Florent 4 mar 2004 à 08:01 (CET) / Je ne les traquerai pas, mais si je tombe sur une erreur, je la corrigerai evidemment. D'ailleurs, si la mesure passe, il serait bon de mettre un How-to corriger les erreurs d'encodage !
  26. archeos 4 mar 2004 à 08:57 (CET): je réparerai aussi, de toute façon quand on corrige l'orthographe, autant corriger tout ce qu'on trouve
  27. phma 7 mar 2004 à 13:46 (CET) Les Wikitravels sont tous à UTF8 et ça marche bien.

Contre

Neutre

  1. heMmeR (pathologiquement méfiant).

Obiwan Kenobi


Clôture du débat

Si personne n'y voit d'inconvénients, le débat sera clos dans une semaine, c'est-à-dire le 9 mars 2004.