Blog sobre software, OLAP, Datawarehouse, admnistración de datos e información. Jedox, Palo BI, Business Intelligence. Chile
viernes, 24 de diciembre de 2010
El potencial de los datos compartidos como servicio
- Compartirlos
- Depurarlos
- Enriquecerlos
- Reutilizarlos
- Analizarlos
- Visualizarlos
En muchas ocasiones el formato no es el apropiado y solo cumple alguno de estos objetivos.
Como ejercicio hemos tomado los datos de los subsidios de reconstrucción adjudicados a los damnificados por el último gran terremoto que remeció a Chile el 27/02/2010. El Ministerio de Vivienda publicó en su sitio oficial el listado de los algo más de 100.000 subsidios en un archivo PDF de un tamaño de 75 MB lo que permite medianamente (muy grande y de lenta descarga) el primer objetivo, es decir compartirlos, pero este formato solo es de utilidad para quienes quieran auditar uno a uno el listado pero no permite cumplir ninguno de los demás objetivos ya mencionados perdiendo la oportunidad de sacar un mayor provecho a los mismos.
Comprendemos que el objetivo principal era el de comunicar la nómina de los beneficiados pero sería bueno que los sitios del estado comiencen a entregar "servicios de datos" , tal como lo hacen otros estados, para su utilización y análisis.
Haciendo el paralelo con lo que sucede en muchas organizaciones cuando nos enfrentamos a un proyecto de Datamarts/Datawarehouse el archivo PDF ejemplifica muy bien lo que sucede en la mayoría de los casos:
- los datos no están en el formato que esperábamos o eran de difícil acceso
- necesidad de conversión de datos
- no están normalizados (ej.: ciudades Chillán, Chillan, Viña del Mar, Viña Del Mar,etc)
- no cumplen todos con el mismo formato y hay "suciedad" en los mismos (falta de separadores/espacios)
solo por mencionar algunas cosas.
Todo el proceso de Profiling, Limpieza y normalización, Extracción, Transformación (enriqueciendo la información) es el que tomó la mayor cantidad de tiempo para que los datos fuesen de utilidad.
Como en todo proyecto de este tipo las etapas anteriores fueron las que consumieron el 80-90% del tiempo y las visualizaciones el restante 10%.
Finalmente cargamos los datos a nivel de detalle ya enriquecidos en Google Fusion Tables (para compartirlos de una forma más fácil y que permita su reutilización) hicimos la visualización para permitir el análisis de los mismos y formarnos una imágen macro de la situación. En definitiva convertirlos en información útil para su análisis.
Las herramientas que utilizamos son:
- FoxIt para convertir de PDF a texto
- Google Refine, Excel 2010 para profiling, normalización y limpieza
- Google Fusion Tables como almacén de datos y visualización
Los siguientes fueron los resultados.
ADVERTENCIA: ESTAS VISUALIZACIONES PODRIAN CONTENER ERRORES DEBIDO A QUE LOS DATOS NO FUERON AUDITADOS, EL POCO TIEMPO EN QUE SE LLEVO A CABO EL EJERCICIO Y PROBLEMAS AL CONVERTIRLOS. ESTO SE HACE COMO UN EJERCICIO PARA DEMOSTRAR LA UTILIDAD DE LAS VISUALIZACIONES Y DE COMPARTIR DATOS PUBLICOS EN LA RED. PARA CUALQUIER CONCLUSION RECOMENDAMOS VALIDAR LOS RESULTADOS CONTRA EL ARCHIVO EN FORMATO PDF PUBLICADO EN EL SITIO DEL MINISTERIO DE LA VIVIENDA.
La tabla con la totalidad de los datos puede ser navegada, consultada y descargada aquí
Los colores representan la concentración de subsidios siendo la escala : verde, amarillo, rojo y luego los íconos más grandes (mayor cantidad), amarillo y rojo. Al hacer "click" en el ícono se muestra el total de subsidios de la comuna.
martes, 21 de diciembre de 2010
Ya está disponible la versión 3.2SR1 de Palo BI Suite !!
Este nuevo release trae una nueva demo : "Bikers Best Demo" que se instala automáticamente con el one step setup. Se pueden ver ejemplos de Framesets, Navegación y GEO Widget (con Google Maps y paso de parámetros, en acción. En las nuevas demos vienen ejemplos de las macros (PHP) y su uso. Descargar en http://ow.ly/3szEB
martes, 23 de noviembre de 2010
Novedades en el Roadmap BI/DW de Microsoft
El nuevo release tiene el nombre "Denali" y viene marcado principalmente por mejoras para el desarrollo de proyectos de Datawarehouse y Business Intelligence.
Motor Columnar
Ya es un hecho que muchos fabricantes de bases de datos están adoptando las tecnologías de base de datos columnares mejor diseñadas para aplicaciones analíticas orientadas más a la consulta que al manejo de transacciones.
Microsoft está haciendo lo suyo con Vertipaq el motor columnar in memory que ya es parte de PowerPivot, el nuevo ad-in de Excel 2010, que ya es capaz de manejar millones de transacciones. Actualmente esta tecnología está muy ligada al libro Excel, de hecho los datos se almacenan como parte de este último, y la única forma de compartirlo es mediante su publicación en Sharepoint. Esto último además le impone una limitande de 2GB al tamaño del archivo.
Aunque puede ser suficiente para compartir dashboards y algunos análisis no lo es para una plataforma más robusta de BI que soporte por ejemplo seguridad a nivel de elementos de sus dimensiones. Por ejemplo para separar los datos de dos áreas/grupos de usuarios para que unos no puedan ver los datos de los otros hay que construir 2 libros lo que obviamente es un problema.
Las buenas noticias son que Vertipaq o el nuevo motor columnar (nombre de proyecto "Apollo") pasará a ser parte del core de SSAS (analysis services) en donde sí habrá manejo de grandes volúmenes y seguridad.
Nuevo Modelo Semántico
Algo que también hacía falta es un modelo unificado para SSRS y SSAS (reporting services y análisis services). Este modelo unificado será el BISM el cual contendrá el modelo semántico (futuro) para SSRS y SSAS. Con esto habrá un solo modelo para reportes sobre fuentes relacionales (tablas) y multidimensionales no obligando a quienes solo deseen emitir reportes a general un modelo dimensional.
Lo anterior no significa que el UDM sea dejado de lado (al menos no por bastante tiempo más). Ambos modelos coexistirán. El BISM incorpora a DAX a Analysis Services, lenguaje de consulta y expresiones que hoy utiliza PowerPivot, lo que hará que los modelos puedan ser accedidos mediante un lenguaje más simple para los usuarios. DAX podrá consultar modelos dimensionales y relacionales así como tablas no relacionadas entre sí y permitirá construir consultas de forma más intuitiva.
Excel
Excel continuará siendo el cliente BI por excelencia y soportará tanto UDM como BISM.
Crescent
Es el nombre del proyecto de una nueva herramienta de reportes ad hoc y de visualización que promete ser más interactiva, visual y moderna.
Reporting Services
Adicionalmente a todas las mejoras en los gráficos gracias a la compra de tecnología de Dundas, debería consultar de forma nativa mediante MDX al BISM y probablemente también mediante DAX aunque habrá que esperar a que Microsoft aclare un poco más el roadmap.
Tal como podemos observar, el mercado de plataformas BI, será cada día más entretenido y competitivo.
miércoles, 27 de octubre de 2010
Palo BI Suite 3.2 Ad portas
- Publicación desde Excel de los reportes a la web y lectura desde Excel de los reportes publicados en el server
- Instalador unificado (instala plug-in Excel, server y web, etl)
- Mayor personalización de la interfaz web de las aplicaciones
- Incremento de la performance del motor olap
Adicionalmente junto con este release sería liberada la versión que hace uso de GPUs (procesadores gráficos de video) para acelerar las operaciones de cálculo. Esta versión especial de Palo Olap es el Palo Olap Accellerator. Esta es una de las características que personalmente más espero a tener disponible ya que abre un mundo de posiblidades para los planificadores.
El uso de GPUs permite que estaciones de trabajo y servidores de bajo costo utilicen la capacidad de multiproceso paralelo de estos procesadores especializados logrando un poder de procesamiento que no estaba al alcance (al menos a un bajo costo) para los usuarios de negocio.
Imaginen a un planificador en el departamento de RRHH de una empresa simular distintos escenarios de sueldos, compensación, bonos,etc para miles de trabajadores y tener la respuesta en segundos. En el caso del retail fijar metas diarias de venta no solo a nivel de categorías sino de SKUs, simular escenarios de cambio de precios, costos,etc. O prorratear costos de marketing o administrativos a nivel de producto en cada punto de venta.
Sin duda el 3.2 será un release que nos traerá bastantes novedades
lunes, 18 de octubre de 2010
Publicación de reportes desde Excel a Palo Web
He aquí un video demostrando esta útil característica.
lunes, 2 de agosto de 2010
QlikView: una herramienta más del arsenal
viernes, 2 de julio de 2010
Nueva Demo de Palo Web
Ir a Palo Web Demo
Que lo disfruten!
miércoles, 30 de junio de 2010
Pivot Tables y Palo Olap
Para quienes gusten de trabajar con las tablas pivote de Excel hay una muy buena noticia. Con el Palo ODBO provider es posible conectarse a los cubos de Palo desde Excel 2003, 2007 o 2010. Lo anterior es relevante sobre todo para usuarios que ya estaban acostumbrados a trabajar con esta útil herramienta de Excel.
sábado, 3 de abril de 2010
Finalmente Palo BI Suite 3.1 GA está disponible
La nueva instalación no requiere desinstalar previamente. El instalador se encarga de detectar la versión anterior, conservar los desarrollos e instalar el nuevo software.
Les puedo comentar que las mejoras en velocidad de la versión web son notorias.
Tal como Jedox lo había anunciado previemente esta nueva versión elimina el Report Manager y Olap manager de la interfaz web. Estos dos componentes solo estarán disponible en le versión comercial.
El enlace para descargar la nueva versión aquí
martes, 23 de marzo de 2010
Google Fusion Table, ¿nueva suite de BI?
Hace algunos días probé Google Fusion Tables uno de los productos de Google Labs. La verdad es que este gigante de la tecnología está abarcando rápidamente muchos ámbitos y como una de las principales utilidades para los usuarios de Google es la recuperación de información un próximo paso es el análisis de la misma.
Aunque se encuentra en estado embrionario ya puede visualizarse una nueva aplicación de Business Intelligence la cual haga uso de bigtable, mapreduce y feeds hacia los repositorios de información.
Los análisis son de datos de los sismos ocurridos en Chile entre el 11 y el 16 de Marzo de 2010. Son pocos datos pero la idea es mostrar algo de la funcionalidad.
A continuación algunas visualizaciones:
Geolocalización automática
Scatter graphics
Gráficos de línea
Movimiento
Es uno de los más llamativos pero lamentablemente no lo pude incluir aquí. El link de la vista es http://tables.googlelabs.com/DataSource?snapid=33110 . Pueden cambiar la Opcion "Colores exclusivos" y "Tamaño" así como seleccionar los distintos "tabs".
Para quienes estén interesados el link es http://tables.googlelabs.com/DataSource?dsrcid=146304 . Prueban las distintas opciones en la opcion de menú "Visualize"
Las Fusion Tables proveen de facilidades para hacer merge con otras tablas, filtrar y funciones de agregación.
Habrá que seguirlas de cerca.