🍋
Menu
General

UTF-8

UTF-8 (Formato de Transformação Unicode de 8 bits)

Um padrão de codificação de caracteres que pode representar todos os 1.114.112 pontos de código no padrão Unicode usando sequências de 1 a 4 bytes, sendo compatível com ASCII e o padrão dominante para texto na web.

Detalhe técnico

UTF-8 codifica pontos de código Unicode usando comprimento variável: 1 byte para U+0000–U+007F (ASCII idêntico), 2 bytes para U+0080–U+07FF (Latin, Grego, Cirílico, Árabe), 3 bytes para U+0800–U+FFFF (CJK, a maioria dos scripts), e 4 bytes para U+10000–U+10FFFF (emoji, scripts históricos). O byte líder indica o comprimento: 0xxxxxxx (1 byte), 110xxxxx (2), 1110xxxx (3), 11110xxx (4), com bytes de continuação 10xxxxxx. Propriedades de autossincronização: você pode encontrar limites de caracteres partindo de qualquer posição. UTF-8 é obrigatório em JSON (RFC 8259), recomendado em HTML5 e usado por 98%+ de todas as páginas web.

Exemplo

```javascript
// UTF-8: file processing example
const file = document.getElementById('fileInput').files[0];
const reader = new FileReader();
reader.onload = (e) => {
  const data = e.target.result;
  console.log(`Loaded: ${file.name} (${file.size} bytes)`);
};
reader.readAsArrayBuffer(file);
```

Termos relacionados