Che cos’è e a cosa serve lo standard Unicode in informatica

L’Unicode è uno standard informatico che permette ai computer di rappresentare in maniera consistente e di manipolare i testi espressi nella maggior parte delle lingue del mondo. Questo standard altro non è che un sistema di codifica che assegna ad ogni carattere usato per la scrittura dei testi non il segno grafico ma un numero univoco, detto codepoint; tutto questo è fatto in una maniera che è indipendente dalla lingua, dalla piattaforma informatica e dal software utilizzati. In questo standard sono codificati i caratteri che sono utilizzati in quasi tutte le lingue vive ed in alcune di quelle morte, oltre ai simboli matematici e chimici, ai segni cartografici, ad alcuni ideogrammi, ai simboli musicali, ecc.

Che cos'è e a cosa serve lo standard Unicode in informatica

L’Unicode comprende quasi tutti i sistemi di scrittura attualmente utilizzati, fra i quali si citano, come esempio, gli alfabeti arabo, Braille, cirillico, greco, cinese Han (ideogrammi Hanzi e Hanja), fonetico internazionale, latino (base ed esteso), tibetano, ecc. In aggiunta a quelli citati, sono disponibili i glifi appartenenti a molte lingue morte quali gli alfabeti cuneiforme, l’antico italico (etrusco, osco e umbro), l’antico persiano, il fenicio, ecc.

Lo standard consiste in un repertorio di oltre 107.000 caratteri che coprono 90 lingue; esso comprende inoltre tutta una serie di proprietà dei caratteri, quali minuscole e maiuscole, ed una serie di regole per la normalizzazione, la decomposizione, il confronto, il rendering (rappresentazione) e per la scrittura nei due versi (es. da destra verso sinistra per linguaggi quali l’arabo).

Lo standard Unicode è costantemente compilato ed aggiornato dall’ “Unicode Consortium”, una organizzazione no-profit, che ha sede in California e che è in partnership con aziende internazionali interessate all’interoperabilità informatica dei testi scritti in lingue diverse, quali ad esempio: Adobe System, Apple, Google, IBM, Microsoft, Oracle Corporation, Sun Microsystem e Yahoo. Questo standard è sviluppato in stretta collaborazione con l’ISO “International Organization for Standardization” e condivide il repertorio dei caratteri con la norma ISO/IEC 10646 detta “Universal Character Set”. Rispetto a questo ultimo insieme, lo standard Unicode è più ricco di informazioni tecniche per l’utilizzatore.

Scopo dei membri del Consorzio Unicode è quello sostituire, in maniera definitiva, alcuni degli schemi di codifica dei caratteri attualmente esistenti, che oramai sono diventati limitati in dimensione ed utilizzo e che sono incompatibili con gli ambienti multilingue, con l’Unicode ed i suoi schemi standard detti “Unicode Transformation Format”, abbreviato in UTF.

Attualmente, questo standard non rappresenta tutte le lingue utilizzate nel mondo: ciò è dovuto al fatto che alcune di queste, ad esempio Tengwar, sono recenti e non sono realmente in uso. Essendo l’Unicode ancora in evoluzione, i suoi sviluppatori si sono prefissati l’obiettivo di riuscire a gestire tutti i caratteri rappresentabili, garantendone la compatibilità e la non sovrapposizione con le codifiche di caratteri già definiti. L’Unicode è attualmente molto utilizzato e supportato dai moderni standard della programmazione e del markup (ad esempio XML, Java, Microsoft .NET Framework) e da svariati sistemi operativi.