El Hilo del **BIG DATA** (Introducción Parte I)

big-data
tecnologia

#1

Hola a todos, lo prometido es deuda, así que aprovechando que parece que la familia me ha dejado, me lío la manta a la cabeza y voy a intentar explicaros a todos, lo que es el BIG DATA, esa palabra tan de moda, y todo lo que gira a su alrededor.

Me gustaría aclarar, que el mundo de la informática, no es un mundo como el de la medicina o el de las financias, es decir, no es mundo nada regulado, salvo cosas muy concretas, aquí es muy difícil encontrarse con un órgano que diga, desde ahora todo el mundo tiene que usar es tipo de cableado, o en su empresa todas las comunicaciones tiene que ser WIFI… salvo casos como el GPDR, donde se regula que hacer con la información, aqui somos muchas veces victimas de las modas, y del ritmo que imponen los fabricantes (HP, IBM, Google, MS…) y por supuesto al final nos encontramos con situaciones en las que la empresa u otros departamentos nos exigen soluciones, asi que al final los departamentos IT tenemos que intentar sacar a delante muchas exigencias con inventiva.

Si veo que este tipo de hilos gusta, haré alguno más, ya que me he dejado muchas cosas fuera, pero creo que iba a quedar demasiado recargado todo, y el tocho que me ha quedado ya es considerable. Por su puesto, si me equivoco en algo, o alguien quiere aportar algo es bienvenido.

Por ultimo, voy a tratar de no abusar de términos técnicos, y hacer una explicación lo mas sencilla posible.

Bueno, tras esta introducción, vamos a meternos en materia, tradicionalmente, en las empresas, existían muchas aplicaciones (contabilidad, RRHH, inventarios…) las cuales están almacenadas en sus respectivos sistemas o no, con esto quiero decir que existen aplicaciones, las cuales no guardan la información, simplemente hacen su función, pero no almacenan esa información, por ejemplo, un lector de tarjetas, comprueba si el usuario esta en la lista o no, y le abre la puerta, por ejemplo. El caso, es que estos sistemas, actuan como entes casi independientes, y es muy complicado poder relacionarlos entre ellos, y correlar información entre estos sistemas.
Ojo, BIG DATA no es tener una Base de datos gigante con miles de registros donde tienes toda la información de tus trabajadores (DNI, nomina, antigüedad…).
Un sistema BIG DATA, es un sistema que es capaz de recoger, la información de todos estos sistemas tan diferentes, y otros muchos externos, como por ejemplo el tiempo (si hace frio, calor, llueve…) tendencia en las redes sociales… es decir, la clave esta en poder mezclar y relacionar la información de nuestra empresa con sistemas externos.
Por ejemplo, si yo tengo una tienda, tengo por un lado los datos de mis ventas, y puedo llegar a ver cuantas ventas hago por semana, trimestre… incluso si me expando a nivel nacional podre sacar estadísticas por zonas, regiones… pero que tal si a eso le añadimos la meteorología, es decir, poder añadir a cada venta, un registro del tiempo, por ejemplo, de la web de la AEMET, y si ademas este cliente ha puesto un comentario en twitter o facebook, pues podemos saber su opinión sobre la calidad de nuestro servicio, y todo esto en TIEMPO REAL, y mandando alertas o informes (via mail, mensaje de telegram…) a los responsables de cada departamento, esto es BIG DATA, la clave esta en poder obtener datos de fuentes externas o de sistemas “aislados”. Los gurus y entendidos, dicen que un sistemas BIG DATA tiene que disponer de las siguientes V:

  • Veloz: Tiene que dar respuesta rápida
  • Veraz: La información tiene que ser cierta, y fiable
  • Volumen: Tiene que tener facilidad para poder ingerir grandes cantidades de datos de casi cualquier tipo de origen

Existen otras, pero para mi aquí están las mas importante, me gustaría detenerme un momento en la de velocidad, para mi velocidad significa TIEMPO REAL, es decir, si un cliente llama a mi servicio de atención al cliente, mi trabajador la atiende mal, y escribe un comentario en twitter, necesito saberlo en ese mismo minuto, no cada 10 minutos, ni una vez al día, recalco esto, por que muchas empresas y fabricantes venden la milonga de TIEMPO REAL, y cuando se lo preguntas, te dicen que ellos cada 5 minutos se conectan a twitter, y luego cada hora procesan la información, o cosas por el estilo, para mi eso, es un sistema de segunda.
Bueno, con todo esto explicado, resumiendo, mi sistema BIG DATA debe ser capaz de recoger información de cualquier origen, en TIEMPO REAL, y poder ofrecerme esa información cuando yo quiera y como yo quiera.

realtime

Con mi sistema ya montado y funcionando a pleno rendimiento, un día me doy cuenta, que podría adelantarme a los acontecimientos, y saber cuales son los temas mas comentados en las redes sociales, por si algún alimento es tendencia o deja de serlo, el tiempo que se prevé para la semana que viene… y en base a mis ventas de las ultimas semanas, con todos estos datos, me va hacer una predicción, de los alimentos que mas se pueden vender, aquí entra en juego, lo que se llama MACHINE LEARNING, ahora mi sistema es capaz de ayudarme a adelantarme, y asi poder llenar mi almacén.

ML

Bueno, con esto damos por finalizado esta primera parte, espero que tenga buena acogida el post, y continuar con mas.
Como comente, en su día en otro post, yo ya llevo como 10 años con esto, y puedo decir que muchas empresas están muy maduras, pero otras ni saben de los que se habla, ademas decir que este es un mundillo (el del BIG DATA) lleno de postureo y vende humos


#2

tener muchos pajares no me garantiza encontrar la aguja. Del mismo modo, por muchos datos que tenga, necesito de esa figura mágica denominada “científico de datos” que es al final un humano poniendo sentido.

Está todo en el “acceso” a esa información. No se cuántos Hadoops realmente aprovechados habrás visto.


#3

Evidentemente hace falta alguien que sepa configurar el sistema, no es llegar y ponerlo a funcionar.
Respecto a los Hadoop, no he visto ninguno dando valor, he visto en grandes bancos y eléctricas clusters gigantes, y no se usaban para nada útil.
Se que telefónica tiene montado un hortonwork, pero no tengo referencias de su uso.
De todas forma hadoop nunca ha sido mi tecnología favorita en estos casos


#4

Voy a ser más constructivo. Querría preguntar si conoce cómo hacen esos humanos para encontrar sentido dentro ese enjambre de datos, y si son técnicas de búsqueda de patrones con la esperanza de que encontrada la solución se resuelva el problema, o es algo más sofisticado con diseño previo.

Pregunto desde el más absoluto desconocimiento a este trabajo de “dar sentido”


#5

Yo cuando empecé no tenia ni idea, mi perfil era de un administrador de sistemas, así que imagínate cuando me puse a navegar entre gigas y gigas de información.
Como explicaba en el post, todos los científicos de datos que me he encontrado son vende humos. Esta claro que un administrador de base de datos, DBA, tiene mas facilidades, tanque es una persona acostumbrada a navegar entre información, ya que es muy importante saber que significan los eventos, también es importante tener conocimientos de normalización de eventos, CIM, regex…pero vamos es crucial disponer de alguien que conozca el negocio.
Yo puedo saber de patrones mogollón, pero sino que significan las cosas… Por eso suelen hacer falta además del científico de datos, o como queramos llamarlo, alguien que sepa del dato en sí


#6

Personalmente, me hace gracia que ahora esté tan de moda la visualización de datos, que es básicamente poner colorines.

Los directivos suelen ser unos zoquetes con unas habilidades muy lejanas al producto, lo que REALMENTE se necesita.

Por eso los colores. Para facilitarles aportar “algo” y que no se vea su incompetencia. Pero seguimos en las mismas.


#7

La visualización es muy importante, de hecho puedes conseguir unos datos cojonudos, hacer un gran trabajo, pero si no entra por los ojos, o no lo puedes mostrar de forma clara, estas muerto.
De hecho, en muchos proyectos se usan dos perfiles, el analista, y el diseñador web o similar, pq algunos productos necesitan de alguien que sepa mostrar las cosas muy bien.
Para esto quería hacer otro post, así que imagínate para lo que da


#8

El UI es fundamental y un mal diseño te tira por tierra un trabajo de análisis y desarrollo cojonudo porque la gente es incapaz de obtener lo que necesita.
A ver… estoy siguiendo el hilo y sin ejemplos concretos es muy difícil que cualquier entienda la importancia de los datos.
Si tengo un rato me pongo a pensar en alguno y lo hago comprensible a cualquiera que se dedique a otra cosa.


#9

Interesante tema, me llama mucho esta parte del big data y todo lo relacionado al procesamiento de los datos, Quisiera saber si tienes que tener conocimientos en alguna tecnológica, software? he visto cursos que análisis de datos por ejemplo con R, y cosas así, entonces si quisiera enfocarme mas en esta parte que tendría que hacer


#10

El Bigdata es la tecnología, ahora dependiendo del sector, habrá que darle un enfoque diferente, pero todos tienen un denominador común que son los datos, y cuanto más tengas mejor por qué te hará tener más opciones.
Toda esta data recopilada y almacenada, hay que trabajarla, y dependiendo del uso que queramos darle y de lo que queramos conseguir, tendrán qué ser sysop, developers, matemáticos estadísticos, sociólogos o inclusive varios de ellos los que diseñen como se van a mostrar esos datos.
La visualización es muy importante para los que trabajan con los datos, ya que les ayuda a la visualización y a la gestión de los mismos.
Ejemplos hay muchos, desde para un supermercado precedir que se va a vender y tener el stock más controlado, la gestión de ruta de repartidores para qué sea lo más eficaz posible, predecir donde se va a cometer un crimen o en el diagnostico y tratamiento de enfermedades.


#11

Yo con R no he trabajado nunca, es una tecnología open source, que se encarga de hacer cálculos complejos, pero no tiene visualización, puedes hacer una llamada a R desde una tecnología externa, tipo Qlik, luego R devuelve los resultados y los pintas con Qlik.
Yo con la tecnología que mas experiencia tengo es Splunk, que es un fabricante que cubre practicante todos los aspectos del big data, y además se puede conectar a otras tecnologías y puede servir sus datos a otras


#12

Ostras, no le recomiendes Splunk de primeras …@nel124 Amazon, Google, o Microsoft (entre otros) tienen cursos gratuitos … empieza por ahí.


#13

Quiero aclarar que ni idea inicial de este post, era hacer una explicación a alta vista de lo que es el big data, Yesi veía aceptación meterme con otros muchos temas.
Por lo que veo el próximo capítulo tendrá que ser de explotación de datos, que veo que es lo que mas os interesa


#14

Bueno, simplemente he dicho que es el fabricante con el que más experiencia tengo, y que cubre todos los aspectos, por cierto también tiene cursos gratuitos.
Pero existen muchos fabricante y productos, cada uno con sus fortalezas y debilidades.
Depende el perfil que tenga le podría recomendar alguno.
Por ejemplo si eres usuario de negocio recomendaría qlik, tablou, power bi…
Si eres más analista me iría a splunk, R…


#15

Cierto … hay tanta tecnología y cada una optimizada para una cosa que es complicado recomendarle algo al aire sin saber como dices, el perfil que tenga.


#16

excelente información, para cuando la segunda parte?


#17

próximamente haré otro, espero que la semana que viene


#18

No. Cuantos más datos tengas no tienes por qué tener más opciones.
Tener los datos correctos consigue que tomes mejores decisiones, por eso lo importante no es el volumen, sino la calidad de los datos y lo fundamentales que son para ti.


#19

Muy interesante el hilo, y visto lo visto esto es el futuro, a ver cuando puedes hacer la segunda parte que seguro que nos ayudará mucho


#20

Yo también estoy interesado en el tema. Estoy a la escucha, continúen caballeros…