Manuale di riferimento HTML

Completo manuale dei tag HTML

Manuale di riferimento ASCII HTML Abbinamenti di colori HTML

Set di caratteri HTML

Il set di caratteri determina come i byte che rappresentano il testo del documento HTML vengono tradotti in caratteri leggibili. Può interpretare i numeri o i riferimenti a caratteri esadecimali ("〹" o "ሴ") secondo il codice punto ISO 10646, che è coerente con la versione 2.0 dello standard Unicode e indipendente dal set di caratteri selezionato.

Set di caratteri HTML

Per visualizzare correttamente una pagina HTML, il browser deve sapere quale set di caratteri utilizzare.

Il set di caratteri utilizzato nelle prime fasi del World Wide Web era ASCII. L'ASCII supporta i numeri da 0 a 9, l'alfabeto maiuscolo e minuscolo inglese e alcuni caratteri speciali.

Manuale completo di ASCII.

Poiché molti paesi utilizzano caratteri che non appartengono all'ASCII, il set di caratteri predefinito dei browser moderni è ISO-8859-1.

Manuale completo di ISO-8859-1.

Se il sito web utilizza un set di caratteri diverso da ISO-8859-1, deve essere specificato nel tag <meta>.

Set di caratteri ISO

Il set di caratteri ISO è una serie di set di caratteri standard definiti dall'Organizzazione internazionale per la standardizzazione (ISO) per diversi alfabeti/languages.

Di seguito è elencato i diversi set di caratteri utilizzati in tutto il mondo:

Set di caratteri	Descrizione	Ambito di utilizzo
ISO-8859-1	Parte 1 dell'alfabeto latino	America del Nord, Europa occidentale, America Latina, Mar dei Caraibi, Canada, Africa
ISO-8859-2	Parte 2 dell'alfabeto latino	Europa orientale
ISO-8859-3	Parte 3 dell'alfabeto latino	SE Europa, lingua universale, altre categorie variate
ISO-8859-4	Alfabeto latino parte 4	Scandinavo/Baltico (e altre parti non incluse in ISO-8859-1)
ISO-8859-5	Latin/Cyrillic parte 5	Lingue che utilizzano l'alfabeto slavo antico, come il bulgaro, il bielorusso, il russo e il macedone
ISO-8859-6	Latin/Arabic parte 6	Lingue che utilizzano l'alfabeto arabo
ISO-8859-7	Latin/Greek parte 7	Greco moderno e simboli matematici derivati dal greco
ISO-8859-8	Latin/Hebrew parte 8	Lingue che utilizzano l'ebraico
ISO-8859-9	Latin 5 parte 9	Turco. Oltre al carattere turco che sostituisce il testo islandese, il resto è lo stesso di ISO-8859-1.
ISO-8859-10	Latin 6	Lapponese, Tedesco, Inglese Nordamericano
ISO-8859-15	Latin 9 (noto anche come Latin 0)	Simile a ISO 8859-1, il simbolo dell'euro e altri caratteri hanno sostituito alcuni simboli meno utilizzati
ISO-2022-JP	Latin/Japanese parte 1	Giapponese
ISO-2022-JP-2	Latin/Japanese parte 2	Giapponese
ISO-2022-KR	Latin/Korean parte 1	Coreano

Lo standard Unicode

Poiché tutti i set di caratteri elencati hanno limiti di capacità e non sono compatibili con ambienti multilingue, la Lega Unicode ha sviluppato lo standard Unicode.

Lo standard Unicode copre tutti i caratteri, i segni e i simboli del mondo.

Indipendentemente dalla piattaforma, programma o linguaggio, Unicode può gestire, archiviare e scambiare dati testuali.

La Lega Unicode

La Lega Unicode ha sviluppato lo standard Unicode. Il loro obiettivo è sostituire i set di caratteri esistenti con il formato di trasformazione Unicode standard (UTF).

Lo standard Unicode ha avuto successo, è stato implementato in XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML e è supportato da molti sistemi operativi e tutti i browser moderni.

La Lega Unicode collabora con organizzazioni leader nello sviluppo di standard, come ISO, W3C e ECMA.

Unicode può essere compatibile con diversi set di caratteri. Il metodo di codifica più comune è UTF-8 e UTF-16:

Set di caratteri	Descrizione
UTF-8	I caratteri in UTF-8 possono essere lunghi da 1 a 4 byte. UTF-8 può rappresentare qualsiasi carattere dello standard Unicode. UTF-8 è retrocompatibile con ASCII. UTF-8 è la codifica preferita per le pagine web e le email.
UTF-16	Il formato di conversione Unicode a 16 bit è una codifica Unicode variabile che può codificare l'intero elenco di istruzioni Unicode. UTF-16 viene principalmente utilizzato negli sistemi operativi e ambienti, come Windows 2000/XP/2003/Vista/CE di Microsoft e l'ambiente di byte code Java e .NET.

Suggerimento: I primi 256 caratteri del set di caratteri Unicode corrispondono ai 256 caratteri dell'ISO-8859-1.

Suggerimento: Tutti i processor HTML 4 supportano UTF-8, mentre tutti i processor XHTML e XML supportano UTF-8 e UTF-16!

Manuale di riferimento ASCII HTML Abbinamenti di colori HTML