English | 简体中文 | 繁體中文 | Русский язык | Français | Español | Português | Deutsch | 日本語 | 한국어 | Italiano | بالعربية
Il set di caratteri determina come i byte che rappresentano il testo del documento HTML vengono tradotti in caratteri leggibili. Può interpretare i numeri o i riferimenti a caratteri esadecimali ("〹" o "ሴ") secondo il codice punto ISO 10646, che è coerente con la versione 2.0 dello standard Unicode e indipendente dal set di caratteri selezionato.
Per visualizzare correttamente una pagina HTML, il browser deve sapere quale set di caratteri utilizzare.
Il set di caratteri utilizzato nelle prime fasi del World Wide Web era ASCII. L'ASCII supporta i numeri da 0 a 9, l'alfabeto maiuscolo e minuscolo inglese e alcuni caratteri speciali.
Poiché molti paesi utilizzano caratteri che non appartengono all'ASCII, il set di caratteri predefinito dei browser moderni è ISO-8859-1.
Manuale completo di ISO-8859-1.
Se il sito web utilizza un set di caratteri diverso da ISO-8859-1, deve essere specificato nel tag <meta>.
Il set di caratteri ISO è una serie di set di caratteri standard definiti dall'Organizzazione internazionale per la standardizzazione (ISO) per diversi alfabeti/languages.
Di seguito è elencato i diversi set di caratteri utilizzati in tutto il mondo:
Set di caratteri | Descrizione | Ambito di utilizzo |
---|---|---|
ISO-8859-1 | Parte 1 dell'alfabeto latino | America del Nord, Europa occidentale, America Latina, Mar dei Caraibi, Canada, Africa |
ISO-8859-2 | Parte 2 dell'alfabeto latino | Europa orientale |
ISO-8859-3 | Parte 3 dell'alfabeto latino | SE Europa, lingua universale, altre categorie variate |
ISO-8859-4 | Alfabeto latino parte 4 | Scandinavo/Baltico (e altre parti non incluse in ISO-8859-1) |
ISO-8859-5 | Latin/Cyrillic parte 5 | Lingue che utilizzano l'alfabeto slavo antico, come il bulgaro, il bielorusso, il russo e il macedone |
ISO-8859-6 | Latin/Arabic parte 6 | Lingue che utilizzano l'alfabeto arabo |
ISO-8859-7 | Latin/Greek parte 7 | Greco moderno e simboli matematici derivati dal greco |
ISO-8859-8 | Latin/Hebrew parte 8 | Lingue che utilizzano l'ebraico |
ISO-8859-9 | Latin 5 parte 9 | Turco. Oltre al carattere turco che sostituisce il testo islandese, il resto è lo stesso di ISO-8859-1. |
ISO-8859-10 | Latin 6 | Lapponese, Tedesco, Inglese Nordamericano |
ISO-8859-15 | Latin 9 (noto anche come Latin 0) | Simile a ISO 8859-1, il simbolo dell'euro e altri caratteri hanno sostituito alcuni simboli meno utilizzati |
ISO-2022-JP | Latin/Japanese parte 1 | Giapponese |
ISO-2022-JP-2 | Latin/Japanese parte 2 | Giapponese |
ISO-2022-KR | Latin/Korean parte 1 | Coreano |
Poiché tutti i set di caratteri elencati hanno limiti di capacità e non sono compatibili con ambienti multilingue, la Lega Unicode ha sviluppato lo standard Unicode.
Lo standard Unicode copre tutti i caratteri, i segni e i simboli del mondo.
Indipendentemente dalla piattaforma, programma o linguaggio, Unicode può gestire, archiviare e scambiare dati testuali.
La Lega Unicode ha sviluppato lo standard Unicode. Il loro obiettivo è sostituire i set di caratteri esistenti con il formato di trasformazione Unicode standard (UTF).
Lo standard Unicode ha avuto successo, è stato implementato in XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML e è supportato da molti sistemi operativi e tutti i browser moderni.
La Lega Unicode collabora con organizzazioni leader nello sviluppo di standard, come ISO, W3C e ECMA.
Unicode può essere compatibile con diversi set di caratteri. Il metodo di codifica più comune è UTF-8 e UTF-16:
Set di caratteri | Descrizione |
---|---|
UTF-8 | I caratteri in UTF-8 possono essere lunghi da 1 a 4 byte. UTF-8 può rappresentare qualsiasi carattere dello standard Unicode. UTF-8 è retrocompatibile con ASCII. UTF-8 è la codifica preferita per le pagine web e le email. |
UTF-16 | Il formato di conversione Unicode a 16 bit è una codifica Unicode variabile che può codificare l'intero elenco di istruzioni Unicode. UTF-16 viene principalmente utilizzato negli sistemi operativi e ambienti, come Windows 2000/XP/2003/Vista/CE di Microsoft e l'ambiente di byte code Java e .NET. |
Suggerimento: I primi 256 caratteri del set di caratteri Unicode corrispondono ai 256 caratteri dell'ISO-8859-1.
Suggerimento: Tutti i processor HTML 4 supportano UTF-8, mentre tutti i processor XHTML e XML supportano UTF-8 e UTF-16!