viernes, 24 de diciembre de 2010

El potencial de los datos compartidos como servicio

En EBICYS acostumbramos a trabajar con uno de los activos más importantes de las organizaciones: sus datos. Para que estos sean realmente de provecho deben estar en un formato que permita:

- Compartirlos
- Depurarlos
- Enriquecerlos
- Reutilizarlos
- Analizarlos
- Visualizarlos

En muchas ocasiones el formato no es el apropiado y solo cumple alguno de estos objetivos.

Como ejercicio hemos tomado los datos de los subsidios de reconstrucción adjudicados a los damnificados por el último gran terremoto que remeció a Chile el 27/02/2010. El Ministerio de Vivienda publicó en su sitio oficial el listado de los algo más de 100.000 subsidios en un archivo PDF de un tamaño de 75 MB lo que permite medianamente (muy grande y de lenta descarga) el primer objetivo, es decir compartirlos, pero este formato solo es de utilidad para quienes quieran auditar uno a uno el listado pero no permite cumplir ninguno de los demás objetivos ya mencionados perdiendo la oportunidad de sacar un mayor provecho a los mismos.

Comprendemos que el objetivo principal era el de comunicar la nómina de los beneficiados pero sería bueno que los sitios del estado comiencen a entregar "servicios de datos" , tal como lo hacen otros estados, para su utilización y análisis.

Haciendo el paralelo con lo que sucede en muchas organizaciones cuando nos enfrentamos a un proyecto de Datamarts/Datawarehouse el archivo PDF ejemplifica muy bien lo que sucede en la mayoría de los casos:

- los datos no están en el formato que esperábamos o eran de difícil acceso
- necesidad de conversión de datos
- no están normalizados (ej.: ciudades Chillán, Chillan, Viña del Mar, Viña Del Mar,etc)
- no cumplen todos con el mismo formato y hay "suciedad" en los mismos (falta de separadores/espacios)

solo por mencionar algunas cosas.

Todo el proceso de Profiling, Limpieza y normalización, Extracción, Transformación (enriqueciendo la información) es el que tomó la mayor cantidad de tiempo para que los datos fuesen de utilidad.

Como en todo proyecto de este tipo las etapas anteriores fueron las que consumieron el 80-90% del tiempo y las visualizaciones el restante 10%.

Finalmente cargamos los datos a nivel de detalle ya enriquecidos en Google Fusion Tables (para compartirlos de una forma más fácil y que permita su reutilización) hicimos la visualización para permitir el análisis de los mismos y formarnos una imágen macro de la situación. En definitiva convertirlos en información útil para su análisis.

Las herramientas que utilizamos son:

- FoxIt para convertir de PDF a texto
- Google Refine, Excel 2010 para profiling, normalización y limpieza
- Google Fusion Tables como almacén de datos y visualización

Los siguientes fueron los resultados.

ADVERTENCIA: ESTAS VISUALIZACIONES PODRIAN CONTENER ERRORES DEBIDO A QUE LOS DATOS NO FUERON AUDITADOS, EL POCO TIEMPO EN QUE SE LLEVO A CABO EL EJERCICIO Y PROBLEMAS AL CONVERTIRLOS. ESTO SE HACE COMO UN EJERCICIO PARA DEMOSTRAR LA UTILIDAD DE LAS VISUALIZACIONES Y DE COMPARTIR DATOS PUBLICOS EN LA RED. PARA CUALQUIER CONCLUSION RECOMENDAMOS VALIDAR LOS RESULTADOS CONTRA EL ARCHIVO EN FORMATO PDF PUBLICADO EN EL SITIO DEL MINISTERIO DE LA VIVIENDA.


La tabla con la totalidad de los datos puede ser navegada, consultada y descargada aquí



Los colores representan la concentración de subsidios siendo la escala : verde, amarillo, rojo y luego los íconos más grandes (mayor cantidad), amarillo y rojo.  Al hacer "click" en el ícono se muestra el total de subsidios de la comuna.

No hay comentarios:

Publicar un comentario