🍋
Menu
General

UTF-8

UTF-8 (Unicode Transformation Format 8-bit)

La codificación de caracteres dominante en la web, capaz de representar cada carácter del estándar Unicode usando de uno a cuatro bytes por carácter, manteniendo compatibilidad retroactiva con ASCII.

Detalle técnico

UTF-8 es una codificación de ancho variable: los caracteres ASCII (U+0000 a U+007F) usan un byte idéntico a sus valores ASCII, haciendo que cualquier texto ASCII sea UTF-8 válido. Dos bytes cubren latín, griego, cirílico y árabe (U+0080-U+07FF), tres bytes cubren la mayoría de caracteres CJK (U+0800-U+FFFF), y cuatro bytes manejan emoji y escrituras raras (U+10000-U+10FFFF). Más del 98% de las páginas web usan UTF-8. El BOM (Byte Order Mark, EF BB BF) es opcional y generalmente se desaconseja excepto en contextos de Windows.

Ejemplo

```javascript
// UTF-8: file processing example
const file = document.getElementById('fileInput').files[0];
const reader = new FileReader();
reader.onload = (e) => {
  const data = e.target.result;
  console.log(`Loaded: ${file.name} (${file.size} bytes)`);
};
reader.readAsArrayBuffer(file);
```

Términos relacionados