Saltar la navegación

2. Metodología CRIPS, metodología de data mining.

Metodología de análisis de datos

Para tomar decisiones a partir de los datos, se debe conocer el histórico de los mismos y cuál es el objetivo que se pretende alcanzar.
Para alcanzar el objetivo, se deben realizar una serie de pasos estandarizados siguiendo una metodología 1 . En el ámbito de aplicación de los datos, la metodología más extendida es CRIPS-DM 2 .
Esta metodología proporciona una descripción del ciclo de vida de un proyecto de minería de datos 3 en 6 fases en secuencia. Cada fase determina su unión con la siguiente con una flecha indicando los movimientos entre fases. Como se puede observar es una metodología cíclica. A continuación se perfilan los 6 pasos:

  • Comprensión del negocio: se basa en entender qué se quiere realizar definiendo el problema de minería de datos y realizando un plan para cumplir los objetivos.
  • Comprensión de los datos: entender cómo son los datos realizando un muestreo y observando la naturaleza, calidad, segmentación, etc. Descubrir subconjuntos de datos interesantes para formar hipótesis.
  • Preparación de los datos: se seleccionan los datos para construir el conjunto de datos interesantes de donde extraer la información del conjunto total de datos. Realizando limpieza sobre los datos, completándolos y comprobando inconsistencias.
  • Modelado: se crea un modelo fijo del conjunto de datos para poder realizar operaciones de inteligencia artificial 4 o algoritmos matemáticos 5 sobre el conjunto de datos.
  • Evaluación: se evalúan los datos y se revisan los pasos ejecutados, para comparar el modelo con los objetivos marcados.
  • Implantación: creación de informes o plataformas digitales donde se mostrarán los resultados obtenidos.

Glosario de términos

1Metodología: es la guía que se sigue a fin de realizar las acciones propias de una investigación. Permite observar un problema de una forma total, sistemática y disciplinada.

2CRISP-DM: Cross Industry Standard Process for Data Mining (proceso industrial estándar para la extracción de datos).

3Minería de datos o Data mining: es un conjunto de procesos que intenta descubrir patrones de comportamiento a través del análisis de grandes volúmenes de datos.

4Inteligencia artificial: área multidisciplinar, que a través de ciencias como la computación, la matemática, la lógica y la filosofía, estudia la creación y diseño de sistemas capaces de resolver problemas cotidianos por sí mismos utilizando como modelo la inteligencia humana.

5Algoritmos matemáticos: conjunto prescrito de instrucciones o reglas bien definidas, ordenadas y finitas que permite realizar una cálculo mediante pasos sucesivos.