Universitat Internacional de Catalunya

MÓDULO 5: Tecnologías y Arquitecturas Big Data

MÓDULO 5: Tecnologías y Arquitecturas Big Data
5
13948
1
Segundo semestre
OB
Lengua de impartición principal: castellano

Otras lenguas de impartición: catalán, inglés

Profesorado

Presentación

En el programa de Advanced Analítica y la Ciencia de los Macrodatos, la tecnología digital subyancente juega un papel primordial, complementario al conocimiento que se espera que los alumnos adquieran, centrado en el modelado de estimadores. No es el propósito de proporcionar un conocimiento profundo sobre los aspectos tecnológicos, pero sí dotar a los alumnos con la suficiencia necesaria para liderar, con solvencia, los aspectos solayados en las adopciones tecnológicas que se prodiguen. Tecnologías como el "cloud", el "edge computing", las GPU, el procesamiento y almacenamientos distribuidos son intrísecos al Big Data que trata de dar solución tecnológica al ámbito de la Analítica Avanzada.
Por ello, el módulo pretende dar las bases y que se asienten en los alumnos para entender las implicaciones con las que tendrán que trabajar en sus futuros desempeños.

Requisitos previos

Conocimientos esenciales de informática básica

Objetivos

  • Entender las tecnologías digitales implicadas en la Analítica Avanzada
  • Comprender las premisas que las tecnologías conllevan
  • Asociar las diferentes fases de un proyecto a soluciones tecnológicas de infraestructura
  • Disponer de los conocimimento para construir pipelines automatizados
  • Valorar el coste de los recursos tecnológico

Resultados de aprendizaje de la asignatura

  • El alumno deberá entender y poder aplicar las tecnologías subyancentes para la práctica de la Analítica Avanzada
  • El alumno deberá entender la implicación de la tecnología en el despliegue de los modelos predictivos elaborados en ámbito de laboratorio y producción
  • El alumno deberá poder asociar los problemas de negocio a una solución de arquitectura en función del tipo de datos, los modelos a utilizar, la dipsonibilidad de nueva información y los requisitios de inferencia

Contenidos

Arquitectura BIg Data y Cloud,
- introducción al Big Data y Cloud
- Datacenters
- Agile Analytics y Cloud
- Fases de la metodología Analítica
- 2020 Data and AI Landscape
Bases de datos (SQL, NoSQL, Documentales, clave-valor y Graph), teoría, prácticas y casos de aplicación
- NoSoloSQL
- MongoDB
- Noo4j
- Prácticas con lab de python y MongoDB
Recursos Cloud (Servidores, Microservicios, Colas, Bases de datos, ML, Gráficos y otros servicios), teoría, prácticas y casos de aplicación
- Introducción a los servicios cloud
- Servidores virtualizados
- Concepto de microservicios
- Colas
- Bases de datos en Cloud
- Almacenamiento y Data Lakes
- Prácticas con labs de storage, bases de datos, microservicios y colas
Procesamiento distribuido (Hadoop y Spark) herramientas open source y cloud , teoría, prácticas y casos de aplicación
- Map Reduce
- Hadoop
- Spark
- Prácticas con labs de Hadoop y Spark con python
Procesamiento batch, tiempo real y stream, teoría, prácticas y casos de aplicación
- Tipos de procesamiento: tiempo real, batch y stream
- Spark Streaming
- Prácticas con labs de Spark Streaming
Herramientas para ML, teoría, prácticas y casos de aplicación
- Spark MLlib
- Prácticas de ML y AutoML en Cloud

Metodología y actividades formativas

Modalidad totalmente presencial en el aula



  • Presentación con conceptos y teoría
  • De cada tema se realizarán prácticas de labs, tutoriales, individuales de autoaprendizaje, experimentando con la tecnología en cuestión, con soporte de la comunidad de alumnos y del profesor
  • Se plantearán una docenca de casos de aplicación reales donde se trabajará de forma conjunta la búsqueda de una solución tecnológica de arquitectura, mediante análisis grupal de los casos concretos de cliente para una resolución participativa de los alumnos

Sistemas y criterios de evaluación

Modalidad totalmente presencial en el aula



  • Resolución de una arquitectura para un caso de cliente concreto
  • Labs individuales: Se propondrán una docena de Labs, de autoaprendizaje, algunos obligatorios y otros opcionales, pero altamente recomendados, combinando la arquitectura con otros conocimientos adquiridos durante el master

Bibliografía y recursos

Se propondrán varias lecturas de papers y artículos relacionados con los diferentes puntos tratados combinando con otros temas del master.


- G. Linden, B. Smith and J. York, "Amazon.com recommendations: item-to-item collaborative filtering," in IEEE Internet Computing, vol. 7, no. 1, pp. 76-80, Jan.-Feb. 2003, doi: 10.1109/MIC.2003.1167344.
- Overview of Amazon Web Services, AWS, August 2020
- J Dean, S Ghemawat , MapReduce: simplified data processing on large clusters, Communications of the ACM, 2008
- Matt Turck, 2020 Data and AI Landscape, FirstMark
- Liu, Guimei & Nguyen, Tam & Zhao, Gang & Zha, Wei & Yang, Jianbo & Cao, Jianneng & Wu, Min & Zhao, Peilin & Chen, Wei. (2016). Repeat Buyer Prediction for E-Commerce. 155-164. 10.1145/2939672.2939674.