El Hilo del **BIG DATA** (Fabricantes Parte III)

Hola a todos de nuevo, siguiendo los dos hilos anteriores (parte I, parte II) voy a continuar con este nuevo hilo, donde voy a intentar hablaros de algunos fabricantes/productos.
Siempre que hablo con colegas de este tema, suelen salir sarpullido o la gente se molesta mucho (esto es como el fútbol casi), yo he de decir que intentare ser lo mas sincero, y no tengo la verdad absoluta, como siempre, yo voy hablar desde mi experiencia, por lo que estoy abierto a correcciones, mejoras, sugerencias…

Bueno, como en casi todo lo que ocurre en el mundo IT, tenemos dos escuelas o formas de dividir el mundo, el software Open Source (libre/gratuito) vs el software de pago o propietario, como no podia ser de otra forma, en el mundo de Big Data también pasa

Por norma general, la mayor diferencia entre Open Source y SW propietario, es que el Open Source, suele requerir echarle mas horas en la instalación, configuración … y el de pago no, ademas de en el caso de pago, solemos tener detrás a una empresa que en caso de atascarnos o tener un problema, nos lo pueden solucionar de forma mas o menos rápida. Ojo, que no quiero decir que el Open Source sea una mierda, o no sirva. En mi actual empresa, tenemos bastante Open Source funcionando a las mil maravillas, y ni nos planteamos cambiarlo por SW propietario.

Tras esta pequeña explciacion, vamos al tema.

Big Data Open Source

Bueno, aquí tenemos dos de los reyes, que son ELK y Hadoop.

  • ELK: Es la combinación de tres productos, Elasticsearch, Logstash y Kibana, cada uno de ellos se encarga de una parte diferente (ingesta de datos, presentación…).
    • Pros: Para mi sin duda lo mejor de ELK, es que es free, muy potente y el limite es casi tu imaginación. Ademas de tener una buena comunidad detrás, lo cual es crucial en este caso.
    • Contras: Sin duda lo peor es que sea la combinación de tres productos, con sus respectivos problemas de upgrades, versiones, integraciones… He estado en grandes clientes, donde después de meses y muchos $$$ han tenido que parar proyectos de ELK por algún problema de versiones entre el despliegue de ELK y un tercero. Y otro contra, es que al ser open source, necesitas tener un equipo (de personas) con ciertos conocimientos para hacer desarrollos a medida, esto, depende de la empresa puede ser un problema o no

  • Hadoop: Este es sin duda uno de los mas veteranos, básicamente, de forma reducida, Hadoop nos permite añadir varios nodos, donde almacenar gigas y gigas de información, el inconveniente, suele ser que normalmente debemos conectarlo a algún otro producto que nos permita visualizar esa información, existe fabricantes, que han creado sus productos de pago, donde ya integran todo el pack (Hortonworks). Hace años, cuando empezaba en este mundillo, leí en un foro una explicación muy gráfica, Hadoop es Big Data de hardware.
    • Pros: Es una plataforma muy sencilla de desplegar, donde ademas puedes reutilizar mucho hardware que tengas de otras instalaciones, CPD… para mi sin duda, donde Hadoop gana a los demas fabricantes, tanto open source como no open source
    • Contras: Para mi sin duda el tener que andar creándote la capa visual. Aqui igual que digo que he visto cosas muy chulas de ELK, he de decir que aun no he visto nada productivo y que justifique las horas de trabajo. Lo digo totalmente en serio, he estado en sitio muy tochos (bancos, electricas, cadenas hoteleras…) en todas ellas Hadoop era el proyecto enquistado. Que seguro que existen sitios donde es la polla, pero yo simplemente en España y algún sitio de Europa no lo he visto. Se que por ejemplo Telefonica tiene un servicio de Hortonworks para sus clientes de empresas, asi que intuyo que debe funcionar, pero no lo he visto de primera mano.

Este es mi resumen los fabricantes Open Source, con el paso de los años, por temas de la vida, me he ido alejando de Hadoop y ELK, por lo que puede que este un poco mas perdido ahora, pero según sigo leyendo en blog, foros…, la cosa va mas o menos igual.

Big Data SW Propietario

Bueno, aquí me existen muchísimos fabricantes, y en los últimos años ha habido muchos movimientos de compra-venta. Yo voy a centrarme por ahora en dos, que son los que mas conozco, Splunk y Devo.

  • Devo: En sus origenes se llamaban Logtrust y era española, siempre han funcionado en modo servicio (contratando en la nube).Estan bastante consolidados y les va bastante bien. Tiene gente (a nivel directivo) que se sabe mover muy muy bien, no voy a poner ejemplos, pero he visto movimientos de auténticos fuera de serie.
    • Pros: Sin duda una de las cosas por las que mas me gusta, y es uno de sus puntos fuertes, es por lo fácil que es todo, “es casi enchufarla y ponerte a ver información”, y resultados muy visuales
    • Contras: Mi experiencia es que si quieres hacer algo que se sale de los que tiene previsto (gráficos, forma de agrupar la información…) estas jodido, te metes en un pantano de semanas, y al final no terminaras del todo convencido.

  • Splunk: Sin duda estamos ante uno de los as viejos del lugar junto a Hadoop, aquí no me voy andar con paños calientes, es mi favorita, y también en la que mas experiencia tengo, llevo 10 años dándole caña, y haciendo de todo, cosas fáciles de unos días, casi imposible de meses… Es un software que se licencia por cantidad de información diaria ingestada (con alguna excepción). Una ventaja/inconveniente es lo versátil que es, es decir, lo mismo lo puedes usar para hacer un BI clásico que para un SIEM
    • Pros: A pesar de ser una herramienta propietaria, ellos venden una plataforma casi integrable con cualquier cosa, por lo que nuestro limite, como con ELK, suele ser nuestra imaginación, pero sin necesitar tanto musculo de desarrolladores. Ademas disponemos todas las capas en una unica plataforma, y producto. Y como en ELK gran comunidad detrás
    • Contras: No iba a ser todo de color de rosa, sin duda para mi donde mas flojea, es en la capa de presentación, los gráficos, son muy chulos, y se pueden hacer muchas cosas, pero cuando quieres hacer personalizaciones o interacciones, que queden finas, la cosa cojea.

Aunque esto va de Big Data no quería dejar pasar la ocasión para hablar de BI, en el segundo hilo estrujamos la parte de presentación de datos, pero ahora quería mojarme en la parte de fabricantes. Ya que en muchas ocasiones necesitamos poner un BI puro en la parte de presentación, por la razón que sea (independientemente de nuestra plataforma de Big Data)

  • Qlik: Para mi sin duda un pata negra, tiene dos productos QlikView y Qlik Sense, aunque sus origenes y años en el mercado son muy distintos, con el paso del tiempo quedara solo Qlik Sense. Este se licencia por usuarios que se conectan a explotar datos o diseñar informes, y he de decir que funciona muy bien.
    • Pros: Para mi lo mejor de Qlik es lo rápido y fácil que es, me atrevería a decir que cualquiera que sepa coger un ratón puede hacer un informe chulo, y si encima controla de Excel más aun, y si encima tiene conocimientos pogramacion ya podemos hacer algo muy chulo. De hecho ellos venden mucho la frase autoservicio
    • Contras: El licenciamiento a mi me chirrria mucho, ya que puede disparar mucho los costes, luego a nivel de arquitectura, integraciones… lo veo muy flojo (mandar un informe por correo es una película de miedo)

  • PowerBI: Para mi sin duda, me atrevería decir que el producto que mas he visto evolucionar en los últimos dos años, desde luego la gente de Microsoft se ha puesto las pilas, ademas ha trabajo muy bien la integración con sus propios productos (cosa que no puede decir Qlik). Se licencia por usuario
    • Pros: Si Qlik es facil, PowerBI lo es mucho mas, aqui una persona que controle de Excel, tendrá el mundo a sus pies, los gráficos son muy chulos, todo es muy intuitivo. De hecho al principio leia que era una mezcla de Excel y PowerPoint
    • Contras: Aunque no tiene los problemas de Qlik, le veo aun muchos puntos a mejorar en la parte de preparación de datos, ETL… o como lo queramos llamar

Esto han sido unas pinceladas, de cada uno de ellos se podría hacer un hilo enorme contando solo virtudes

Existen otros muchos productos muy chulos, pero puede que alguno de ellos están orientados a cosas muy especificas, como Neo4J (Open Source) (con el software que descubieron los Panama Papers o las cuentas de HSBC). Tableau, el cual tiene una facilidad pasmante para hacer graficos brutales, pero al final me
tenia que decantar por unos cuantos y han sido estos.

Si la cosa veo que genera interés y la gente sigue preguntando, seguiré, y visto lo visto el próximo podria ir de IA, Machine Learning

8 me gusta

¡Muy buenas aportaciones! ¿Cómo ve el asunto de emplear deep learning para encontrar patrones de inversión en Criptos? (¿Cómo de posible?)

Hola,
la verdad que no conozco el mundo de las cripto. Pero bueno, de primeras nos haría falta una base histórica para poder ver la evolución en los últimos años, y luego leer en tiempo real de alguna fuente de como sube o baja, o de varias, para comprobar la veracidad, luego seguro que necesitaríamos mínimo otro origen de datos, algo que influya en las fluctuaciones, tipo reservas de oro, la bolsa de Tokio o cualqueir cosa …

Por aqui un par de cosas para empezar:
https://splunkbase.splunk.com/app/2625/
https://docs.splunk.com/Documentation/MLApp/4.1.0/User/DCOlegacyassist

Me parece interesante la relación precio del Bitcoin - búsquedas en google de la palabra “Bitcoin”

2 me gusta

Que gran aporte, siempre es bueno conocer de todo