Saltar la navegación

2. Transformación y consolidación de los datos.

Ejemplo de posibles errores en el conjunto de datosAntes de subir un conjunto de datos es necesario realizar una limpieza de sus datos, es decir, detectar información incorrecta y ver si es posible su corrección o por el contrario se elimina dicha información incorrecta del conjunto de datos.

Habitualmente en una hoja de cálculo pueden darse los siguientes problemas que "ensucian" los datos:

  • Espacios en blanco antes, después, o en la mitad del dato.
  • Celdas vacías donde se olvidó insertar el dato.
  • Lineas adicionales dentro de un mismo dato. Por ejemplo en Excel al pulsar Alt+Enter se crea una nueva línea.
  • Datos fuera de rango. Por ejemplo en un campo "edad" que por error haya un número negativo o números que superen un rango establecido.
  • Datos que por error han sido introducidos en la misma columna, cuando en realidad deben ir en columnas diferentes de la hoja de cálculo.

Existen aplicaciones que ayudan en la tarea de limpieza de datos como la aplicación gratuita Open Refine desarrollada por Google (http://openrefine.org/).

Además de solucionar estos problemas conviene utilizar ontologías con vocabularios controlados de forma que los datos los escribamos de la misma manera, así además, si estamos trabajando varias personas en la misma hoja de cálculo se evitarán errores de inconsistencia de datos al utilizar todos una terminología y unas reglas comunes.

Ún buen lugar para comenzar a buscar vocabularios y ontologías comunes es el repositorio creado para ello por la Open Knowledge Foundation (http://lov.okfn.org)