Científico de Big Data

TEMARIO [ELI]

  • Módulo 4: Fundamentos de Análisis y Ciencia de Big Data

    Este módulo proporciona una vista general profunda de las áreas temáticas esenciales relacionadas con las técnicas de ciencia de datos y análisis relevantes y únicas de Big Data, con énfasis en cómo necesitan realizarse los análisis y las analíticas tanto individual como colectivamente, en soporte a las distintas características, requerimientos y retos asociados con los conjuntos de datos de Big Data.

    Se cubren los siguientes temas principales:

    • Ciencia de datos, minería de datos y modelado de datos
    • Categorías de conjuntos de datos de Big Data
    • Conjuntos de datos de alto volumen, alta velocidad, alta variedad, alta veracidad, alto valor
    • Análisis exploratorio de datos (EDA)
    • Resúmenes numéricos de EDA, reglas y reducción de datos
    • Tipos de análisis de EDA, incluyendo univariante, bivariante y multivariante
    • Estadísticas esenciales, incluyendo categorías variables y matemáticas relevantes
    • Análisis estadísticos, incluyendo descriptivo, inferencial, covarianza, pruebas de hipótesis, etc.
    • Medidas de variación o dispersión, rango intercuartil y valores atípicos, puntuación Z, etc.
    • Probabilidad, frecuencia, estimadores estadísticos, intervalo de confianza, etc.
    • Manipulación de datos y Machine Learning
    • Variables y notaciones matemáticas básicas
    • Medidas estadísticas e inferencia estadística
    • Análisis confirmatorio de datos (CDA)
    • Prueba de hipótesis CDA, hipótesis nula, hipótesis alternativa, significancia estadística, etc.
    • Distribuciones y técnicas de procesamiento de datos
    • Discretización de datos, Binning y agrupamiento
    • Técnicas de visualización, incluyendo gráfica de barras, gráfica de líneas, histograma, polígonos de frecuencia, etc.
    • Predicción de regresión lineal, error cuadrático medio y coeficiente de determinación R2, etc.
    • Agrupamiento K-medias, distorsión del agrupamiento, valores de características faltantes, etc.
    • Resúmenes numéricos

  • Módulo 5: Análisis y Ciencia de Big Data Avanzados

    Este módulo profundiza en una variedad de prácticas de análisis de datos y técnicas de análisis avanzadas que se exploran en el contexto de Big Data. El contenido del curso se enfoca en temas que permiten a los participantes desarrollar una comprensión profunda de las técnicas estadísticas, de modelado y de análisis para patrones de datos, grupos y analíticas de texto, así como la identificación de valores atípicos y errores que afectan la significación y la precisión de las predicciones hechas con los conjuntos de datos de Big Data.

    Se cubren los siguientes temas principales:

    • Modelado, evaluación de modelos, ajuste de modelos y sobreajuste de modelos
    • Modelos estadísticos, medidas de evaluación de modelos
    • Validación cruzada, sesgo-varianza, matriz de confusión y puntuación F
    • Algoritmos de Machine Learning e identificación de patrones
    • Reglas de asociación y algoritmo Apriori
    • Reducción de datos, selección de la dimensión de las características
    • Extracción de datos, discretización de los datos (Binning y agrupamiento)
    • Técnicas estadísticas avanzadas
    • Paramétrico versus no paramétrico, agrupamiento versus  no agrupamiento
    • Basado en distancia, supervisado versus semisupervisado
    • Regresión lineal y regresión logística para Big Data
    • Reglas de clasificación para Big Data
    • Regresiones logísticas, Naïve Bayes, Suavizamiento de Laplace, etc.
    • Árboles de decisiones para Big Data
    • Poda de árboles, división de características, algoritmo de una regla (1R)
    • Identificación de patrones, reglas de asociación, algoritmo Apriori
    • Análisis de series de tiempo, tendencia, estacionalidad
    • K-vecinos cercanos (kNN), K-medias
    • Analíticas de texto para Big Data
    • Bolsa de palabras, frecuencia de términos, frecuencia de documentos inversos, distancia de coseno, etc.
    • Detección de datos atípicos para Big Data
    • Técnicas estadísticas, basadas en distancia, supervisadas y semisupervisadas

  • Módulo 6: Laboratorio de Análisis y Ciencia de Big Data

    Este módulo presenta a los participantes una serie de ejercicios y problemas diseñados para poner a prueba su capacidad para aplicar sus conocimientos sobre los temas tratados en los módulos anteriores. Completar este laboratorio ayudará a resaltar las áreas que requieren mayor atención y ayudará a demostrar el dominio en los conceptos tratados, tecnologías y prácticas, ya que se aplican y se combinan para resolver problemas del mundo real.

    Se cubren los siguientes ejercicios:

    • Ejercicio de lectura 6.1: Lectura y socialización en clase:  Antecedentes del caso de estudio de TMC
    • Ejercicio de laboratorio 6.2: Análisis para mejorar la calidad de los productos
    • Ejercicio de laboratorio 6.3: Análisis para la reducción del costo total de propiedad
    • Ejercicio de lectura 6.4: Lectura y socialización en clase: Antecedentes del caso de estudio de PLGM
    • Ejercicio de laboratorio 6.5: Análisis del plan de mercadeo de alto rendimiento
    • Ejercicio de laboratorio 6.6: Análisis de distribución de artículos y datos de tarjetas de crédito
    • Ejercicio de lectura 6.7: Lectura y socialización en clase: Antecedentes del caso de estudio de LHL
    • Ejercicio de laboratorio 6.8: Mejorar la capacidad de diagnóstico de los pacientes
    • Ejercicio de lectura 6.9: Lectura en clase: Antecedentes del caso de estudio de SWP
    • Ejercicio de laboratorio 6.10: Mejorar la gestión de riesgos y comprender los patrones de demanda