Saltar la navegación

7. Gestión de los errores en los datos, limpieza de datos (1/2).

Fuente: http://www.computerworldmexico.mx/Los datos son uno de los mayores activos que suelen tener las empresas. Sin embargo, los ficheros de datos suelen contener errores (datos imprecisos incompletos, fragmentados, etc.).

En los ficheros se suelen introducir errores por varios factores. El factor humano es la mayor fuente de errores. Se suelen cometer despistes, errores en la transcripción etc. La incorporación de datos de otros sistemas sin las medidas adecuadas y sin la verificación en los procesos es la segunda causa de introducción de errores en los datos.
Los errores suelen ser:

  1. Por información incompleta, ya que no se ha cumplimentado algún dato y se han dejado datos incompletos. Por ejemplo, pueden estar vacíos ciertos valores de los campos.
  2. Por formato inadecuado o valores fuera de rango. Por ejemplo, el teléfono puede contener guiones de separación y no servir para nuestro propósito.
  3. El significado de los datos es distinto del que se está usando, dando errores de semántica. Por ejemplo, el campo dirección, puede contener sólo la calle, dejando incompletos el resto de campos.