En un post anterior os prometía compartir algunos de los videos que forman parte del curso de introducción a big data que he grabado recientemente para LinkedIn Learning. El video sobre fundamentos de una arquitectura big data es el primero de ellos.
En él respondemos a las siguientes preguntas: ¿por dónde empezamos a abordar el diseño de una arquitectura big data?, ¿cuáles son los principales componentes en este tipo de plataformas?.
Principales componentes de una plataforma Big data de Aprende big data: Conceptos básicos para IT por Concepción Labra
Tal y como se explica en el video, desde IT comenzaremos preguntándonos acerca del conjunto de requisitos que las diferentes áreas de negocio solicitan a nuestra solución. Aunque las necesidades de cada organización van a ser muy diferentes, existen, no obstante, una serie de requisitos genéricos que resumimos a continuación:
- Procesamiento
- puede hacerse en modo batch, en modo interactivo, en streaming, etc. En el modo batch suele usarse Hadoop y gran parte de las herramientas que componen su ecosistema. Para el modo Interactivo o de streaming usaremos Spark o aquella solución de streaming que resulte más adecuada en función de nuestras necesidades.
- Ingesta
- la arquitectura tendrá que ser capaz de poder incorporar nuevos datos. Para este proceso existen varias alternativas como Sqoop, Flume o Kafka. En el video explico cuándo usar cada una de ellas.
- Almacenamiento
- tendremos que tener en cuenta todo lo relativo a formatos y políticas de archivado, control de acceso, etcétera
- Gobierno
- necesitaremos implementar políticas de calidad, gobierno de la información y todas aquellas medidas que permitan garantizar tanto privacidad como seguridad
- Planificación de los flujos de trabajo
- necesitaremos una herramienta de este tipo, la cual acabará convirtiéndose en nuestro director de orquesta ya que es la que decidirá en cada momento cuándo se van a lanzar los diferentes trabajo de la plataforma
- Explotación o servicios de datos
- necesitaremos un buen diseño para esta capa fundamental que es la que proporciona a los diferentes usuarios de la plataforma el acceso a la información
Estos puntos dibujan sólo un esbozo a partir del cual empezar a plantear la arquitectura real. Sin embargo cuando se va profundizando en el campo de las arquitecturas big data se van descubriendo múltiples variantes y cómo cada uno de los diferentes distribuidores pueden llegar a tener sus propias opciones y nomenclaturas. En el siguiente video tomamos estos requisitos como punto de partida y los usamos luego como referencia a la hora de ver las diferentes distribuciones big data que hay actualmente en el mercado.