Saltar la navegación

2. Herramientas scraping y ETL.

Los datos publicados en sitios de Internet deben ser tratados, limpiados y mezclados con otros datos para enriquecerlos creando información. Por ejemplo, para posicionar datos en un mapa de una localidad, se debe buscar en un servicio de Internet la posición GPS.

Para realizar estas transformaciones se usan herramientas llamadas ETL1. Talend Open o Pentaho son herramientas ETL para transformar los datos en información.

También para obtener más datos y crear información enriquecida, se suelen usar tecnologías de web-scraping que consisten en obtener información de otras fuentes de Internet analizando datos mediante un procedimiento concreto. Estas técnicas suelen ser usadas por los buscadores de Internet como Google.com para crear su índice de búsqueda.

Glosario de términos

1ETL: En inglés Extract-Transform-Load (Extraer-Transformar-Cargar) son herramientas de transformación de la información, compuestas por varios pasos.
www.pentaho.com/
www.talend.com
web-harvest.sourceforge.net