En LinkedIn Learning. Arquitecturas big data

En un post anterior os prometía compartir algunos de los videos que forman parte del curso de introducción a big data que he grabado recientemente para LinkedIn Learning. El video sobre fundamentos de una arquitectura big data es el primero de ellos.

En él respondemos a las siguientes preguntas: ¿por dónde empezamos a abordar el diseño de una arquitectura big data?, ¿cuáles son los principales componentes en este tipo de plataformas?.

Principales componentes de una plataforma Big data de Aprende big data: Conceptos básicos para IT por Concepción Labra

Tal y como se explica en el video, desde IT comenzaremos preguntándonos acerca del conjunto de requisitos que las diferentes áreas de negocio solicitan a nuestra solución. Aunque las necesidades de cada organización van a ser muy diferentes, existen, no obstante, una serie de requisitos genéricos que resumimos a continuación:

  • Procesamiento
    • puede hacerse en modo batch, en modo interactivo, en streaming, etc. En el modo batch suele usarse Hadoop y gran parte de las herramientas que componen su ecosistema. Para el modo Interactivo o de streaming usaremos Spark o aquella solución de streaming que resulte más adecuada en función de nuestras necesidades.
  • Ingesta
    • la arquitectura tendrá que ser capaz de poder incorporar nuevos datos. Para este proceso existen varias alternativas como Sqoop, Flume o Kafka. En el video explico cuándo usar cada una de ellas.
  • Almacenamiento
    • tendremos que tener en cuenta todo lo relativo a formatos y políticas de archivado, control de acceso, etcétera
  • Gobierno
    • necesitaremos implementar políticas de calidad, gobierno de la información y todas aquellas medidas que permitan garantizar tanto privacidad como seguridad
  • Planificación de los flujos de trabajo
    • necesitaremos una herramienta de este tipo, la cual acabará convirtiéndose en nuestro director de orquesta ya que es la que decidirá en cada momento cuándo se van a lanzar los diferentes trabajo de la plataforma
  • Explotación o servicios de datos
    • necesitaremos un buen diseño para esta capa fundamental que es la que proporciona a los diferentes usuarios de la plataforma el acceso a la información

Estos puntos  dibujan sólo un esbozo a partir del cual empezar a plantear la arquitectura real. Sin embargo cuando se va profundizando en el campo de las arquitecturas big data se van descubriendo múltiples variantes y cómo cada uno de los diferentes distribuidores pueden llegar a tener sus propias opciones y nomenclaturas. En el siguiente video tomamos estos requisitos como punto de partida y los usamos luego como referencia a la hora de ver las diferentes distribuciones big data que hay actualmente en el mercado.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *