El Hilo del **BIG DATA** (Explotación de datos Parte II)

Hola a todos, lo primero gracias por el buen feedback recibido del primer hilo (enlace aquí).
Aunque no es el orden que tenia pensado, pero en vista que hacíais muchas preguntas sobre la parte de explotación de datos, representación de estos… he decidido que el segundo hilo vaya sobre este asunto.

Haciendo un poco resumen, y explicando como es el flujo de la información en un sistema de Big Data:

  • La información se genera u obtiene en el origen (BBDD, IOT, pagina web…)
  • Puede realizarse, o no, una transformacional en algún sistema intermedio (Data Warehouse)
  • LLega a nuestro sistema de Big Data
  • Este sistema puede, o no hacer alguna transformación de datos
  • Estos datos pueden ser embebidos en alguna pagina web, publicada en alguna App… esto puede ser dentro del mismo sistema de Big Data o un sistema de terceros. Como ya hablamos en el post anterior, existen fabricantes con sus virtudes y debilidades en cada una de las fases.

De forma visual, y muy esquemática, el flujo seria así:

En esta parte vamos a centrarnos en las ultima parte del esquema, donde pone (BI, Analytics, Reports)
Como comentaba en el la Parte I, esta parte es la mas importante, ya que un trabajo bien hecho en las fases anteriores, puede tirar por tierra una mala representación de los datos, o simplemente una representación que no sea suficientemente atractiva para los usuarios.

Esta parte es tan crucial, que existen expertos centrados en esta parte, incluso en algunos proyectos, los clientes, mas maduros, exigen dos perfiles, un experto en X fabricante de Big Data y un experto en web, js,css… para poder crear gráficos personalizados, crear estilos propios… También en grandes empresas existen departamentos directamente que explotan la información proporcionada.

Antes de seguir me gustaría aclarar algunos conceptos que usare mas adelante, y que ademas en estas fechas os serviran para fardar delante de vuestros cuñados en las cenas/comidas familiares

  • KPIs: key performance indicator, por su traduccion literal, es un indicador, normalmente con un valor o dos, por ejemplo, en la imagen muestra el porcentaje en el año actual y lo compara con todo el tiempo, posiblemente desde que se creo la empresa o desde que tenemos datos

  • Dashboard o cuadro de mandos: Es una representación de los principales KPIs o datos, puede también contener otro tipo de gráficos. La clave es que se vea de un vistazo, es decir, debería entrar en una hoja, adaptarse a verse en móvil o tablet, y ser muy resumido y esquemático, la idea es de un vistazo saber como se encuentra mi empresa, mi departamento, en que proyectos voy mal, etc… En ocasiones puedo navegar entre dashboards haciendo clic sobre los gráficos

  • Informe: Un informe es una extensión del dashboard, suele ocupar varias hojas (cientos en ocasiones) y agrega muchas tablas y detalles, los cuales me pueden ayudar a descubrir las razones por las que los indicadores muestran esos valores, es decir, si en algún punto he sufrido una desviación de tiempo, presupuesto… Ojo, esto no quita que intentemos hacer el informe lo mas sexy posible para el usuario, debemos cuidar el formato, colores, tablas… siempre debemos tener en cuenta, que estamos en la fase que si la información no esta bien mostrada, nuestro trabajo no sirve de nada

Para conseguir que nuestros usuarios se sientan cómodos con nuestros informes o cuadros de mando, debemos tener cierta disciplina con las representación, yo siempre suelo seguir las siguientes premisas:

  • Existen colores corporativos? (gamas de azules, rosas…) u otros departamentos tiene ya creadas asociaciones de colores (por ejemplo, para valores positivos se usa el azul, verde…)
  • En caso de no disponer de una paleta de colores corporativa, usar siempre los mismos, es decir, si tengo varias gráficas o KPIs, siempre que el valor sea positivo usar el mismo color, de esta forma el usuario lo asociara de forma fácil, en muchas ocasiones con esta simple asociación de colores hemos ganado mucho, y facilitaremos la visualización de la información.
  • No llenar de información los cuadros de mando, yo siempre intento sintetizar y mostrar la información clara y sencilla. Si llenamos la pantalla de gráficos, tablas, KPIs… volvemos al usuario loco y no sabe donde mirar, “Menos es Más”, si es necesario, merece la pena crear dos dashboard diferentes y dividir la información en dos, siempre intentando hacer agrupaciones con sentido.

Buenos, ahora llega el punto clave, por lo menos para mi, elegir el gráfico adecuado. Debemos tener en cuenta a que tipo de usuarios estamos destinando la información, no es lo mismo un experto en bolsa, que un encargado de almacén, que un gerente de marketing.
Esto no puede parecer clave, pero me he encontrado responsables de grandes compañías que no sabían interpretar un gráfico de cascada, como el siguiente:

En este caso, cambiándolo por un gráfico mas “sencillo” se acabo el problema, lo cambie por uno de barras apiladas y listo (usando una única barra)

Otro tipo de gráficos muy útiles, pero que no todo el mundo entiende bien, casi siempre por no mirarlo con deteniendo son los gráficos con dos ejes Y, desde mi punto de vista me parecen muy útiles, ya que puedo meter en un gráfico dos

Como decía mas arriba, siempre es muy importante saber a que publico va dirigido. En muchos proyecto me he encontrados jefes hablando sin parar de dashboards, KPIs… pero lo que realmente querían eran informes kilométricos de mil detalles

De todas formas, siempre es recomendable añadir la típica pantalla de glosario, donde explicar los colores, valores máximos y mínimos, hacer aclaraciones… para que el usuario sea lo mas autosuficiente posible, es decir, que un usuario que nunca haya visto el dashboard, sea capaz de entender y analizar los datos sin pedir ayuda a nadie, si se consigue eso, el trabajo esta bien hecho.

Buenos, espero que os haya gustado, estoy abierto a criticas, comentarios, propuestas para el siguiente post…

Feliz Navidad!

12 me gusta

No puedes haberlo explicado mejor ni en mejor orden.
Es justo tal y como lo dices, sin un punto ni una coma.

Lo ideal hubiera sido, por hacerlo PERFECTO, hacer capturas de algo que podamos manejar todos, como el área de usuario de axesor o cualquiera de estos.

B-R-A-V-O

2 me gusta

Esta parte la verdad que se me han hecho más difícil hacer los ejemplos, ya que no quería poner ejemplos con datos propios

4 me gusta

Muchas gracias por las explicaciones…trabajo en el mundo de BI y me parece muy interesantes tus aportaciones…estoy empezando a entrar en el mundo del big data y me gustaría profundizar en el tema de machine learning pero no se por donde empezar…me podriais echar una mano?Gracias

Hola,
Claro que si. Con que fabricantes de BI has trabajado?
Cual es tu perfil de conocimientos?
Puedes ponerte con R o Python, y depende los fabricantes, algunos tienes sus propias soluciones

Principalmente Cognos y Qlikview…tambien toqué hace tiempo Microstrategy y Business Objects…y.el tema es que antes de empezar a lo bruto con r o python necesito conceptos más generales de estadística avanzada y machine learning…que luego ya sí los programaré con estos lenguajes(por cierto será mi ignorancia en el tema pero pasar a tener qprogramar me parece salto hacia atras…quiero decir en BI he trabajado con ETL-s (cognos data manager y kettle) y luego herramientas de BI…y ahors tener qprogramar de nuevo me cuesta encajar el tema…qcomo mucho hacemos la ETL en plsql de oracle…pero esta nueva parte…buff…aunque si no me equivoco spss podria hacer esta parte de machine learning sin progranar no??.Me cuesta pasar del mundo BI a Big data y machine learning…

Buenos, el sentido del camino no tiene por que ser en un sentido o en otro.
Aquí lo importante es saber adaptarse. Y siempre partir de una base ya existente, por lo que dices has trabajado con Qlik View. Qlik Sense, aunque no es el mismo producto, tiene un modulo de IA y tiene la posibilidad de conectarse a R, para intercambiar información.
Por ese lado puedes explorar, ya que partes de Qlik, el cual es bastante sencillo, otros fabricantes hacen cosas parecidas, o directamente usas sus propios algoritmos. He visto ademas presentaciones de los nuevo que van a traer las nuevas versiones, y tiene muy buena pinta.
Splunk por ejemplo tiene un modulo de machine learning muy muy chulo, y es de los fabricantes que mas tiempo lo lleva trabajando.
Aunque si tuviese que decir un fabricante que me esta flipando, como ha evolucionado en tan poco tiempo es PowerBI, Microsoft debe de estar metiendo muchos billetes

Por lo poco que se de machine learning con los datos te da patrones de comportamiento en base a algoritmos cosa que el BI tradicional no te da…he tenido un compañero de trabajo trabajando en r y no le ha gustado nada…ni facil de usar y a usar algoritmos qvete a saber si funcionan ok…yo lo quiero es primero entender la teoria de machine learning y luego ya buscare herramientas…power bi me han dado curso introductorio y si me ha gustado pero desde la vista de bi…no sabia qtenia parte de machine learning ni qliksense…por eso me tengo qactualizar…pero como te digo primero quiero aprender bien que es machine learning…:).Pero gracias por tus consejos…miraré la parte de qliksense y y power bi de mschine lesrning cuando entiends los fundamentos.Gracias!

Machine learning como dices, es en base a un grupo grande de datos intentar sacar una tendencia, con formulas matemáticas.
Sokunk por ejemplo tiene un comando predict, como puede ser un sum o avg en qlik. Este en base a los datos calcula y crea una tendencia.
Qlik llama a R, este lo calcula y lo devuelve para que qlik lo pinte.
Lo potente y al mismo tiempo coñazo de R, es que tu te lo tienes que currar todo, pero te abre un abanico de posibilidades brutal.
Aunque qlik o powerbi sean herramientas de BI, necesitan dar un plus, y el mercado del BI y el big data avanza a pasos brutales. Yo he hecho alguna integración con telegram y sus bots, y es flipante lo “facil” que es, algo que hace poco parecía de ciencia ficción

1 me gusta

Otro ejemplo muy interesante y reciente y además made in Spain —aunque algo turbio y siniestro— de las aplicaciones que pueden tener los análisis de tantísimos datos:

1 me gusta

Me lo guardo para leer

Gracias amigo @ChuckNorris, nos esta abriendo un mundo nuevo en este hilo, veo curro potencial si soy capaz de reciclarme copón bendito.

1 me gusta

Ídem