UTF-8
UTF-8
Difficoltà: avanzato
Argomento: tecnologia
DEFINIZIONE
UTF-8 (Unicode Transformation Format, 8 bit) è una codifica di caratteri Unicode in sequenze di lunghezza variabile di byte.
UTF-8 usa da 1 a 4 byte per rappresentare un carattere Unicode. Per esempio un solo byte è necessario per rappresentare i 128 caratteri dell'alfabeto ASCII, corrispondenti alle posizioni Unicode da U+0000 a U+007F.
L'uso di Unicode garantisce che le frasi mnemoniche possano includere caratteri di lingue diverse e che le passphrase personalizzate siano rappresentate in modo standardizzato. Tuttavia, per evitare ambiguità nella codifica, è essenziale normalizzare i caratteri Unicode in una forma standard, che garantisca consistenza tra piattaforme e sistemi.
Varianti di normalizzazione Unicode: NFKD e NFC
Le varianti di normalizzazione Unicode determinano come i caratteri composti e decomposizioni siano rappresentati in modo coerente. Queste forme sono critiche per applicazioni come la generazione di passphrase Bitcoin, dove anche la minima differenza nella rappresentazione può compromettere l'accesso ai fondi crittografici.
NFC (Normalization Form C)
Questa è la forma utilizzata da (BIP 38)[bip-38-passphrase-protected-private-key.html].
Questa forma combina caratteri che possono essere rappresentati sia come carattere base più segni diacritici separati, sia come carattere unico precomposto. Ad esempio, la lettera "é" (U+00E9) in NFC è rappresentata come un unico carattere precomposto.
NFKD (Normalization Form KD)
Questa è la forma utilizzata da BIP-39.
In questa forma, i caratteri sono decomposti in caratteri base e segni diacritici separati. Ad esempio, "é" viene scomposto in "e" (U+0065) più il segno diacritico acuto (U+0301). Inoltre, NFKD considera anche l'equivalenza di compatibilità, trasformando simboli o legature in rappresentazioni canoniche equivalenti.
- Link utili:
- UTF-8 su Wikipedia
- Vedi anche
- NFKD (Normalization Form Compatibility Decomposition) Forma di Normalizzazione con Decomposizione di Compatibilità Unicode
- passphrase
- Unicode
aggiornato il 2025-01-22