English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية

Manuale di riferimento HTML

Completo manuale dei tag HTML

Set di caratteri HTML

Il set di caratteri determina come i byte che rappresentano il testo del documento HTML vengono tradotti in caratteri leggibili. Può interpretare i numeri o i riferimenti a caratteri esadecimali ("〹" o "ሴ") secondo il codice punto ISO 10646, che è coerente con la versione 2.0 dello standard Unicode e indipendente dal set di caratteri selezionato.

Set di caratteri HTML

Per visualizzare correttamente una pagina HTML, il browser deve sapere quale set di caratteri utilizzare.

Il set di caratteri utilizzato nelle prime fasi del World Wide Web era ASCII. L'ASCII supporta i numeri da 0 a 9, l'alfabeto maiuscolo e minuscolo inglese e alcuni caratteri speciali.

Manuale completo di ASCII.

Poiché molti paesi utilizzano caratteri che non appartengono all'ASCII, il set di caratteri predefinito dei browser moderni è ISO-8859-1.

Manuale completo di ISO-8859-1.

Se il sito web utilizza un set di caratteri diverso da ISO-8859-1, deve essere specificato nel tag <meta>.

Set di caratteri ISO

Il set di caratteri ISO è una serie di set di caratteri standard definiti dall'Organizzazione internazionale per la standardizzazione (ISO) per diversi alfabeti/languages.

Di seguito è elencato i diversi set di caratteri utilizzati in tutto il mondo:

Set di caratteriDescrizioneAmbito di utilizzo
ISO-8859-1Parte 1 dell'alfabeto latinoAmerica del Nord, Europa occidentale, America Latina, Mar dei Caraibi, Canada, Africa
ISO-8859-2Parte 2 dell'alfabeto latinoEuropa orientale
ISO-8859-3Parte 3 dell'alfabeto latinoSE Europa, lingua universale, altre categorie variate
ISO-8859-4Alfabeto latino parte 4Scandinavo/Baltico (e altre parti non incluse in ISO-8859-1)
ISO-8859-5Latin/Cyrillic parte 5Lingue che utilizzano l'alfabeto slavo antico, come il bulgaro, il bielorusso, il russo e il macedone
ISO-8859-6Latin/Arabic parte 6Lingue che utilizzano l'alfabeto arabo
ISO-8859-7Latin/Greek parte 7Greco moderno e simboli matematici derivati dal greco
ISO-8859-8Latin/Hebrew parte 8Lingue che utilizzano l'ebraico
ISO-8859-9Latin 5 parte 9Turco. Oltre al carattere turco che sostituisce il testo islandese, il resto è lo stesso di ISO-8859-1.
ISO-8859-10Latin 6Lapponese, Tedesco, Inglese Nordamericano
ISO-8859-15Latin 9 (noto anche come Latin 0)Simile a ISO 8859-1, il simbolo dell'euro e altri caratteri hanno sostituito alcuni simboli meno utilizzati
ISO-2022-JPLatin/Japanese parte 1Giapponese
ISO-2022-JP-2Latin/Japanese parte 2Giapponese
ISO-2022-KRLatin/Korean parte 1Coreano

Lo standard Unicode

Poiché tutti i set di caratteri elencati hanno limiti di capacità e non sono compatibili con ambienti multilingue, la Lega Unicode ha sviluppato lo standard Unicode.

Lo standard Unicode copre tutti i caratteri, i segni e i simboli del mondo.

Indipendentemente dalla piattaforma, programma o linguaggio, Unicode può gestire, archiviare e scambiare dati testuali.

La Lega Unicode

La Lega Unicode ha sviluppato lo standard Unicode. Il loro obiettivo è sostituire i set di caratteri esistenti con il formato di trasformazione Unicode standard (UTF).

Lo standard Unicode ha avuto successo, è stato implementato in XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML e è supportato da molti sistemi operativi e tutti i browser moderni.

La Lega Unicode collabora con organizzazioni leader nello sviluppo di standard, come ISO, W3C e ECMA.

Unicode può essere compatibile con diversi set di caratteri. Il metodo di codifica più comune è UTF-8 e UTF-16:

Set di caratteriDescrizione
UTF-8I caratteri in UTF-8 possono essere lunghi da 1 a 4 byte. UTF-8 può rappresentare qualsiasi carattere dello standard Unicode. UTF-8 è retrocompatibile con ASCII. UTF-8 è la codifica preferita per le pagine web e le email.
UTF-16Il formato di conversione Unicode a 16 bit è una codifica Unicode variabile che può codificare l'intero elenco di istruzioni Unicode. UTF-16 viene principalmente utilizzato negli sistemi operativi e ambienti, come Windows 2000/XP/2003/Vista/CE di Microsoft e l'ambiente di byte code Java e .NET.

Suggerimento: I primi 256 caratteri del set di caratteri Unicode corrispondono ai 256 caratteri dell'ISO-8859-1.

Suggerimento: Tutti i processor HTML 4 supportano UTF-8, mentre tutti i processor XHTML e XML supportano UTF-8 e UTF-16!