Hoy en día las empresas y muchos usuarios de negocio están escuchando sobre las oportunidades que ofrece la Ciencia de Datos (Data Science) y quienes la dominan, los Data Scientists o Científicos de Datos. Al fin el avance de la tecnología, la capacidad y el poder de los sistemas de computación hacen posible lo que hace algunos años era difícil de lograr: procesar grandes volúmenes de datos y exprimirlos hasta sacar información valiosa para el negocio.
Si bien es cierto que ahora es posible extraer información de los datos existentes en la empresa y mejorarlos con datos de fuentes externas los usuarios de negocio se enfrentan obstáculos tales como la ausencia de un científico de datos en las filas de su organización, lo complejas que se ven las múltiples plataformas disponibles en el mercado y la idea de que todo es “Big Data”. Esta última idea ha hecho que muchas organizaciones se hayan enfrentado a proyectos que consideran plataformas complejas de difícil y costosa implementación en tiempo y recursos que terminan manejando lo mismos datos estructurados que manejaban antes.
Para un usuario de negocios pensar en big data o en tener un científico de datos al interior de su equipo hace que el deseo de contar con los beneficios de la ciencia de datos se vea lejano.
No todo es Big
En primer lugar debemos aclarar que no todo se trata de “big data”. Más importante es “good data” y “right data”. No es más importante tener un gran volumen de datos a disposición que el tener los datos correctos y de buena calidad. Por ejemplo, si deseo hacer un pronóstico de la demanda de mis productos para un cliente o grupo de clientes basándome en su historia de compras de los últimos 36 meses no necesito una gran cantidad de datos sino más bien necesito que los mismos sean los apropiados y que no contengan errores u omisiones. Tampoco necesitaré Hadoop, Spark, etc. Podemos tener un gran volumen de información pero no necesariamente necesitaremos una plataforma compleja para manejarla.
¿Y qué hay del Científico de Datos?
Junto con el desarrollo de software, implementación de algoritmos predictivos y la aparición de plataformas de machine learning algunas empresas han desarrollado asistentes o “wizards” potenciados por Inteligencia Artificial. La dificultad asociada a la elección del mejor algoritmo para predecir valores a partir de una serie histórica o determinar qué factores tienen un impacto en el rendimiento futuro de un producto o identificar anomalías en los datos ya no es tal, y aún más, no es obligatoria la presencia de un científico de datos al interior de la organización.
Los “wizards” o asistentes son capaces de evaluar nuestros datos, detectar anomalías, sugerir correcciones y como si esto fuese poco seleccionar qué algoritmo predictivo se ajusta mejor a estos. Trabajo de muchas horas e incluso días pueden ser drásticamente reducidos a un par de horas y, en algunas ocasiones, solo minutos.
¿Qué continúa siendo importante?
Para obtener el máximo de provecho para nuestro negocio de la ciencia de datos y de estos asistentes que casi nos parecen mágicos lo importante es conocer el negocio.
¿Cómo se comportan nuestros productos o clientes? ¿Cuál es la frecuencia de sus compras?, ¿es un cliente ocasional o frecuente? Lo mismo es cierto para nuestros productos. Un analista de negocio que conoce bien su negocio sabe cuándo un dato se debe a una anomalía y no es parte del comportamiento habitual de su producto/cliente. ¿Se trató de una venta o compra única?, ¿es así cómo se comporta su producto, cliente o segmento de los mismos?
Todo lo anterior es crucial para una actividad de suma importancia: preparar los datos. Para obtener una buena predicción es indispensable disponer de los datos correctos y no necesariamente de todos los datos disponibles. Es aquí donde el conocedor del negocio es importante. No se trata solo de procesar y predecir números. Hay que conocer el contexto.
Definir el nivel de granularidad al cual se efectuará el pronóstico también requiere de conocimiento. Mientras las series de datos aparecen regulares a nivel agregado a medida de que ahondamos en el nivel de detalle estas se pueden tornar irregulares y terminar siendo de poco o ningún valor para la predicción. No es lo mismo pronosticar las compras de todos los clientes, de un segmento de ellos o de uno en particular. Determinar hasta qué punto los datos pueden ser valiosos es tarea del analista del negocio.
En la preparación de datos el analista se ve enfrentado a la tarea de eliminar los datos anómalos (“outliers”). El asistente con inteligencia artificial puede mostrarle las anomalías e incluso sugerirle los valores necesarios para mejorar los datos que serán valiosos para la predicción pero es responsabilidad del analista decidir cuándo reemplazarlos.
Finalmente testear y validar. Ejecutar varias veces el proceso predictivo, ver cómo se ven los datos predichos comparados con escenarios reales y cuánto se acerca la predicción a la realidad es otra tarea más del analista que continúa siendo de importancia.
En un próximo artículo revisaremos como funciona uno de estos asistentes o “wizards” utilizando el servicio AIssisted Planning de #Jedox potenciados por Inteligencia Artificial.