HTML Encodage (Jeux de caractères)

L'attribut charset HTML

Pour afficher correctement une page HTML, un navigateur web doit savoir quel jeu de caractères utiliser.

Le jeu de caractères est spécifié dans la balise <meta> :

<meta charset="UTF-8">

La spécification HTML encourage les développeurs web à utiliser le jeu de caractères UTF-8.

UTF-8 couvre presque tous les caractères et symboles du monde !

Croissance du Web Unicode

Le jeu de caractères ASCII

L'ASCII était le premier standard d'encodage de caractères pour le web.

Il définissait 128 caractères latins différents qui pouvaient être utilisés sur Internet :

  • Lettres anglaises (a-z et A-Z)
  • Chiffres (0-9)
  • Certains caractères spéciaux : ! $ + - ( ) @ < > . # ?

Le jeu de caractères ANSI

L'ANSI (Windows-1252) était le premier jeu de caractères Windows :

  • Identique à l'ASCII pour les 127 premiers caractères
  • Caractères spéciaux de 128 à 159
  • Identique à l'UTF-8 de 160 à 255
<meta charset="Windows-1252">

Le jeu de caractères ISO-8859-1

Le jeu de caractères par défaut pour HTML 4 était ISO-8859-1 .

Il supportait 256 caractères :

  • Identique à l'ASCII pour les 127 premiers caractères
  • N'utilise pas les caractères de 128 à 159
  • Identique à l'ANSI et à l'UTF-8 de 160 à 255

Exemple HTML 4

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">

Exemple HTML 5

<meta charset="ISO-8859-1">

Le jeu de caractères UTF-8

  • Identique à l'ASCII pour les valeurs de 0 à 127
  • N'utilise pas les caractères de 128 à 159
  • Identique à l'ANSI et à 8859-1 de 160 à 255
  • Continue de la valeur 256 à 10 000 caractères
<meta charset="UTF-8">


Caractères HTML UTF-8

Latin de base

ABCD abcd 0123 ?#$%

Latin étendu A

ĀĂĄ ĆĈĊ ĒĔĖĘ

Latin étendu B

ƀƁƂƃƄƅ ƆƇƈ ƉƊƋƌ

Latin étendu C

ⱠⱡⱢ ⱣⱤ ⱥⱦ ⱧⱨⱩ

Latin étendu D

Ꜧꜧ ꜨꜩꜪꜫ ꜬꜭꜮꜯ

Latin étendu E

ꬰꬱ ꬲꬳꬴ ꬵꬶ ꬷꬸꬹ

Extensions IPA

ɖɜɣ ɘɫɛ ɱɷɞ

Modificateurs d'espacement

pʰ pʱ pʲ pʳ

Marques diacritiques

àáâã èéêẽ òóôõ

Ponctuation générale

‰ ‱ ⁒ ‼ ⁇ ⁈ ⁉ ⁎ ⁑ ⁂

Exposants et indices

C⁰ Cⁱ C⁴ C⁵ C₆ C₇ C₈

Braille

⠓⠑⠇⠇⠕ ⠺⠕⠗⠇⠙