HTML Encodage (Jeux de caractères)
L'attribut charset HTML
Pour afficher correctement une page HTML, un navigateur web doit savoir quel jeu de caractères utiliser.
Le jeu de caractères est spécifié dans la balise <meta> :
<meta charset="UTF-8"> La spécification HTML encourage les développeurs web à utiliser le jeu de caractères UTF-8.
UTF-8 couvre presque tous les caractères et symboles du monde !
En savoir plus :
Le jeu de caractères ASCII
L'ASCII était le premier standard d'encodage de caractères pour le web.
Il définissait 128 caractères latins différents qui pouvaient être utilisés sur Internet :
- Lettres anglaises (a-z et A-Z)
- Chiffres (0-9)
- Certains caractères spéciaux : ! $ + - ( ) @ < > . # ?
Le jeu de caractères ANSI
L'ANSI (Windows-1252) était le premier jeu de caractères Windows :
- Identique à l'ASCII pour les 127 premiers caractères
- Caractères spéciaux de 128 à 159
- Identique à l'UTF-8 de 160 à 255
<meta charset="Windows-1252"> Le jeu de caractères ISO-8859-1
Le jeu de caractères par défaut pour HTML 4 était ISO-8859-1 .
Il supportait 256 caractères :
- Identique à l'ASCII pour les 127 premiers caractères
- N'utilise pas les caractères de 128 à 159
- Identique à l'ANSI et à l'UTF-8 de 160 à 255
Exemple HTML 4
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1"> Exemple HTML 5
<meta charset="ISO-8859-1"> Le jeu de caractères UTF-8
- Identique à l'ASCII pour les valeurs de 0 à 127
- N'utilise pas les caractères de 128 à 159
- Identique à l'ANSI et à 8859-1 de 160 à 255
- Continue de la valeur 256 à 10 000 caractères
<meta charset="UTF-8"> En savoir plus :
Caractères HTML UTF-8
ABCD abcd 0123 ?#$%
ĀĂĄ ĆĈĊ ĒĔĖĘ
ƀƁƂƃƄƅ ƆƇƈ ƉƊƋƌ
ⱠⱡⱢ ⱣⱤ ⱥⱦ ⱧⱨⱩ
Ꜧꜧ ꜨꜩꜪꜫ ꜬꜭꜮꜯ
ꬰꬱ ꬲꬳꬴ ꬵꬶ ꬷꬸꬹ
ɖɜɣ ɘɫɛ ɱɷɞ
pʰ pʱ pʲ pʳ
àáâã èéêẽ òóôõ
‰ ‱ ⁒ ‼ ⁇ ⁈ ⁉ ⁎ ⁑ ⁂
C⁰ Cⁱ C⁴ C⁵ C₆ C₇ C₈
⠓⠑⠇⠇⠕ ⠺⠕⠗⠇⠙