Quand une page est stockée dans le serveur en format Unicode UTF-8, mais affichée dans le navigateur par erreur en mode de caractère uni-octet, abusivement appelé ASCII, ie, en charset=windows-1252, ce caractère Unicode UTF-8 prend deux places.
Essayez le caractère é Unicode: il est doublé en é
Il était une fois dans l'Ouest de la Chine... il faisait froid en hiver.
Au contraire si votre page est stockée dans le serveur web en format ANSI/ASCII, mais affichée dans le navigateur du client par erreur en mode de caractère multi-octet UTF-8, appelé Unicode, en mode Unicode UTF-8, ie, en charset=UTF-8, ce caractère ASCII devient plus mince encore pour devenir un diamant point d'interrogation ou carr矇 vide, comme s'il n'est pas assez costaud pour occuper même une seule place dans le monde Unicode qui est multi-octet.
En r癡gle g矇n矇rale, quand votre fichier est en codage plus petit, plus maigre que le codage du navigateur �� l'affichage, le diamant point d'interrogation ou carr矇 vide � appara簾t.
Essayez le caractère é ASCII: il est réduit en diamant point d'interrogation ou carr矇 vide �.
Il �tait une fois dans l'Ouest de la Chine... il faisait froid en hiver.
Il est utile de pr矇ciser que tous les caract癡res ASCII du code 0 �� 127 gardent toujours les m礙mes codes sans changement quelque soit le codage des caract癡res, ASCII, GBK, Unicode...
Tous les caract癡res ASCII 矇tendus du code 0 �� 255 (2**8=256, uni-octet, mono-byte) peuvent 礙tre stock矇s soit dans un fichier ASCII, soit en format Unicode UTF-8. Le contraire n'est pas vrai, les caract癡res multi-octet (multi-byte) avec un code sup矇rieur ou 矇gal �� 256, qui ne peuvent 礙tre conserv矇s que dans un fichier Unicode comme UTF-8, ou bien dans un format sp矇cifique (code page pays) tel le GBK pour les id矇ogrammes chinois.
Sur le web, un caract癡re Unicode peut en outre s'exprimer en code entit矇 HTML, ainsi stock矇 dans un fichier du codage ASCII. Par exemple, l'id矇ogramme 霂� signifiant Langue, peut 礙tre stock矇 en mode ASCII par la cha簾ne 语, compos矇e uniquement des ampersand &, di癡se #, suivi par des chiffres du num矇ro d矇cimal de ce caract癡re en Unicode, et termin矇 par un point-virgule ;.
銝剖𤙴摨𥪜笆鈭箇掩雿𨅯枂颲�憭抒�韐∠讃嚗�
La Chine doit faire une contribution relativement grande �� l'Humanit矇 !
��𢲲臾夥𩜠� 媢��� 塈�媯�𩜠� 堛�堹�𩜠� 塈堻�𣖻戒�塈堛 塈�堥堭 ��堥奡堭�𢲲�!
�惧解�訄邿 迡郋郅迠迮郇 �迡迮郅訄��� 訇郋郅�𧄍�覜� 赲郕郅訄迡 赲 �箮菩鉼憶紹萃箮萃��赲郋!
�𠱥翁諄� 庛帢 ��峟�庰庣 彖帢 ��弮帣峎弇庰庣 �庰�庣���𤥻�庰�怷 ��庢彖 帢彖庛��亁��𤥻�庢�帢!
銝剖𤙴�臭犖憿𠺶�怠之�溻�芾甜�讃�鉝�𨰜�艾�譌�𨬭�𨰻��嚗�
�禟=訸� �訸� 蛌蚳�𤤯紥� �䮎𡷫𤤯𧵦� �𧵦䖅蟁𤤯抿𤤯�!
鄐𠼭�鄐� 鄐桌冗鄐兒今 鄐厢冗鄐戈凶 鄐𨫼�� 鄐耜凶鄐� 鄐𥐰�� 鄐眇丑鄐潼冗 鄐能�肀�鉮丹鄐擒尹 鄐𨫼什鄐兒冗 鄐𠼭冗鄐嫩凶鄐�!
鉊�葭鉊跃�鉊抉腦鉊�萼鉆�鉊徇�凼腹鉊菽葵鉆�葷鉊跃腦鉆�葷鉊﹤腹鉊耜�鉊�鉊嗣�凼�跃�鉊𠒎虞鉆�葉鉊﹤�跃虜鉊拈腺鉊𢺋葡鉊𨫼葩!
��宖� 堥塈�龮� 堻�䂴� 堥�龮楮臾旋� 堥�� 塈�堻塈� 堭塈!
China shall make a relatively great contribution to the Man Kind!
Cette page est stock矇e dans le disque dur en format UTF-8 sans BOM. Mais je vous propose de l'afficher en diff矇rents codages. Elle peut devenir illisible si le codage diff癡re trop. Il faut revenir en UTF-8 si vous avez mal �� la t礙te. Testez vous-m礙me sur votre navigateur en cliquant sur les liens suivants:
[D矇tection Auto] (auto) | Arabe (ISO-8859-6) | Arabe (Windows-1256) | ASCII Europe Occidentale (ISO-8859-1) | ASCII Europe Occidentale (Windows-1252) | Baltique (ISO-8859-4) | Baltique (Windows-1257) | Celtique (ISO-8859-14) | Chinois Simplifi矇 (GB18030) | Chinois Simplifi矇 (GB2312) | Chinois Simplifi矇 (GBK) | Chinois Simplifi矇 (HZ) | Chinois Traditionnel (Big5) | Cor矇en (EUC-KR) | Cyrillique (ISO-8859-5) | Cyrillique (KOI8-R) | Cyrillique (KOI8-U) | Cyrillique (Windows-1251) | Estonien (ISO-8859-13) | Europe Centrale (ISO-8859-2) | Europe Centrale (Windows-1250) | Europe Sud (ISO-8859-3) | Grec (ISO-8859-7) | Grec (Windows-1253) | H矇breu (Windows-1255) | H矇breu (ISO-8859-8) | H矇breu (ISO-8859-8-l) | Japonais (EUC-JP) | Japonais (ISO-2022-JP) | Japonais (Shift_JIS) | Latin 9 (ISO-8859-15) | Nordic (ISO-8859-10) | Roumain (ISO-8859-16) | Tha簿 (TIS-620) | Turc (ISO-8859-9) | Turc (Windows-1254) | Unicode (UTF-16LE) | Unicode (UTF-8) | Vietnamien (Windows-1258).