Saltar la navegación

3. Codificación de los ficheros.

Ejemplo de datos donde aparecen mal las ñLos formatos de ficheros abiertos, como CSV, JSON, XML, RDF, etc, internamente son simplemente textos.

Cada carácter juega un papel dependiendo del formato. Por ejemplo, en el formato CSV el punto y coma ";" separa el valor de cada campo; en el formato JSON son las llaves, los corchetes y los dos puntos "{}[]:" los caracteres que marcan las estructuras de los campos.

En el idioma Inglés los textos se suelen almacenar en la codificación1 ASCII2, pero cuando se almacenan nombres de poblaciones con tildes o eñes, en formato ASCII, no es posible codificar estos caracteres. La mejor manera de codificar los datos en formato abierto es en UTF-83 o ISO 8859-14 para evitar la pérdida de información como se aprecia en la imagen. UTF-8 se está convirtiendo en el estándar de facto que se utiliza para codificar.

Glosario

1Codificación: método que permite convertir un carácter de un lenguaje natural (como el de un alfabeto) en un símbolo de otro sistema de representación, como un número. A nivel general, es el proceso de conversión de un sistema de datos de origen a otro sistema de datos de destino.

2ASCII: American Standard Code for Information Interchange — Código Estándar Estadounidense para el Intercambio de Información.

3UTF-8: es un formato de codificación de caracteres utilizando símbolos de longitud variable.

4ISO 8859-1 es una norma extendida del ASCII para los alfabetos latinos.