Ingeniero en Big Data

TEMARIO [EL]

  • Módulo 13: Fundamentos de Ingeniería de Big Data

    Este módulo cubre los conceptos, técnicas y tecnologías relacionados con la ingeniería que se utilizan para el procesamiento y almacenamiento de conjuntos de datos de Big Data. Resalta los retos únicos que se enfrentan al procesar y almacenar conjuntos de datos grandes, volátiles y dispares. Incluye NoSQL, y se explica a detalle el motor de procesamiento de datos MapReduce como marco de trabajo base para el procesamiento de datos por lote de alto volumen.

    Se cubren los siguientes temas principales:

    • Técnicas y retos de ingeniería de Big Data
    • Almacenamiento de Big Data, incluyendo fragmentación, replicación, teorema de CAP, ACID y BASE
    • Maestro-esclavo, replicación entre pares, combinación entre replicación y fragmentación
    • Requerimientos de almacenamiento de Big Data, escalabilidad, redundancia y disponibilidad
    • Acceso rápido, almacenamiento a largo plazo, almacenamiento sin esquema y almacenamiento económico
    • Almacenamiento en disco, incluyendo sistema de archivos distribuidos y bases de datos
    • Introducción a NoSQL y NewSQL
    • Racional NoSQL y características
    • Tipos de bases de datos NoSQL, incluyendo clave-valor, documento, columna-familia y bases de datos gráficas
    • Motores de procesamiento de Big Data
    • Procesamiento de datos distribuido/paralelo, procesamiento de datos sin esquema
    • Soporte multi carga de trabajo, escalabilidad lineal y  tolerancia a fallas
    • Requerimientos de procesamiento de Big Data, incluyendo modos por lotes, Cluster y en tiempo real
    • MapReduce para procesamiento de Big Data, incluyendo mapear, combinar, dividir, mezclar y clasificar y reducir
    • Diseno de algoritmos MapReduce
    • Paralelismo de tareas, paralelismo de datos

  • Módulo 14: Ingeniería de Big Data Avanzada

    Este módulo explora temas de ingeniería avanzada relacionados principalmente con el almacenamiento y procesamiento de conjuntos de datos de Big Data. Específicamente, se cubren mecanismos de ingeniería de Big Data, almacenamiento de datos en memoria y procesamiento de datos en tiempo real. El módulo presenta además consideraciones para construir algoritmos de MapReduce y también introduce el motor de procesamiento Bulk Synchronous Parallel (BSP), junto con una discusión del procesamiento de datos de grafos. También se exploran los mecanismos de Big Data requeridos para desarrollar pipelines de Big Data, sus etapas y el proceso de diseño involucrado en construir soluciones de procesamiento de Big Data.

    Se cubren los siguientes temas principales:

    • Mecanismos avanzados de ingeniería de Big Data
    • Motores de serialización y compresión
    • Dispositivos de almacenamiento en memoria
    • Mallas de datos en memoria y Bases de datos en memoria
    • Enfoques de integración Read-Through, Read-Ahead, Write-Through y Write-Behind
    • Persistencia políglota
    • Explicación, problemas y recomendaciones
    • Procesamiento de Big Data en tiempo real
    • Volumen de la consistencia de la velocidad (SCV)
    • Procesamiento del flujo de eventos (ESP)
    • Procesamiento de flujos compuestos (CEP)
    • El principio SCV
    • Procesamiento general de Big Data en tiempo real y MapReduce
    • Diseños avanzados de algoritmos MapReduce
    • Motor de procesamiento paralelo sincrónico (BSP) masivo
    • BSP versus MapReduce
    • Paralelo sincrónico BSP
    • Datos de grafos y procesamiento de datos de grafos con el uso de BSP (Superpasos)
    • Canales de Big Data, incluyendo definición y etapas
    • Big Data con Extracción-carga-transformación (ELT)
    • Caracteríticas de las soluciones de Big Data, consideraciones de diseño y proceso de diseño

  • Módulo 15: Laboratorio de Ingeniería de Big Data

    Este laboratorio práctico presenta a los participantes una serie de ejercicios y problemas diseñados para poner a prueba su capacidad para aplicar sus conocimientos sobre los temas tratados en los módulos anteriores. Completar este laboratorio ayudará a resaltar las áreas que requieren mayor atención y ayudará a demostrar el dominio en los conceptos tratados, tecnologías y prácticas, ya que se aplican y se combinan para resolver problemas del mundo real.

    Se cubren los siguientes ejercicios:

    • Ejercicio de lectura 15.1: Lectura y socialización en clase:  Antecedentes del caso de estudio de CFU
    • Ejercicio de laboratorio 15.2: Soluciones de Big Data para alcanzar el cumplimiento normativo
    • Ejercicio de laboratorio 15.3: Aumentar la capacidad de análisis de riesgo
    • Ejercicio de laboratorio 15.4: Desarrollar un servicio de analítica de datos innovador
    • Ejercicio de lectura 15.5: Lectura y socialización en clase: Antecedentes del caso de estudio de TCT
    • Ejercicio de laboratorio 15.6: Solución para mitigar los retrasos en el servicio
    • Ejercicio de laboratorio 15.7: Solución para reducir los costos operacionales
    • Ejercicio de lectura 15.8: Lectura y socialización en clase: Antecedentes del caso de estudio de TOB
    • Ejercicio de laboratorio 15.9: Solución para manejar del aumento en el tráfico del sitio web
    • Ejercicio de laboratorio 15.10: Análisis de datos de la campaña de mercadeo y publicidad