Universitat Internacional de Catalunya
MÓDULO 5: Tecnologías y Arquitecturas Big Data
Otras lenguas de impartición: catalán, inglés
Profesorado
Presentación
En el programa de Advanced Analítica y la Ciencia de los Macrodatos, la tecnología digital subyancente juega un papel primordial, complementario al conocimiento que se espera que los alumnos adquieran, centrado en el modelado de estimadores. No es el propósito de proporcionar un conocimiento profundo sobre los aspectos tecnológicos, pero sí dotar a los alumnos con la suficiencia necesaria para liderar, con solvencia, los aspectos solayados en las adopciones tecnológicas que se prodiguen. Tecnologías como el "cloud", el "edge computing", las GPU, el procesamiento y almacenamientos distribuidos son intrísecos al Big Data que trata de dar solución tecnológica al ámbito de la Analítica Avanzada.
Por ello, el módulo pretende dar las bases y que se asienten en los alumnos para entender las implicaciones con las que tendrán que trabajar en sus futuros desempeños.
Requisitos previos
Conocimientos esenciales de informática básica
Objetivos
- Entender las tecnologías digitales implicadas en la Analítica Avanzada
- Comprender las premisas que las tecnologías conllevan
- Asociar las diferentes fases de un proyecto a soluciones tecnológicas de infraestructura
- Disponer de los conocimimento para construir pipelines automatizados
- Valorar el coste de los recursos tecnológico
Resultados de aprendizaje de la asignatura
- El alumno deberá entender y poder aplicar las tecnologías subyancentes para la práctica de la Analítica Avanzada
- El alumno deberá entender la implicación de la tecnología en el despliegue de los modelos predictivos elaborados en ámbito de laboratorio y producción
- El alumno deberá poder asociar los problemas de negocio a una solución de arquitectura en función del tipo de datos, los modelos a utilizar, la dipsonibilidad de nueva información y los requisitios de inferencia
Contenidos
Arquitectura BIg Data y Cloud,
- introducción al Big Data y Cloud
- Datacenters
- Agile Analytics y Cloud
- Fases de la metodología Analítica
- 2020 Data and AI Landscape
Bases de datos (SQL, NoSQL, Documentales, clave-valor y Graph), teoría, prácticas y casos de aplicación
- NoSoloSQL
- MongoDB
- Noo4j
- Prácticas con lab de python y MongoDB
Recursos Cloud (Servidores, Microservicios, Colas, Bases de datos, ML, Gráficos y otros servicios), teoría, prácticas y casos de aplicación
- Introducción a los servicios cloud
- Servidores virtualizados
- Concepto de microservicios
- Colas
- Bases de datos en Cloud
- Almacenamiento y Data Lakes
- Prácticas con labs de storage, bases de datos, microservicios y colas
Procesamiento distribuido (Hadoop y Spark) herramientas open source y cloud , teoría, prácticas y casos de aplicación
- Map Reduce
- Hadoop
- Spark
- Prácticas con labs de Hadoop y Spark con python
Procesamiento batch, tiempo real y stream, teoría, prácticas y casos de aplicación
- Tipos de procesamiento: tiempo real, batch y stream
- Spark Streaming
- Prácticas con labs de Spark Streaming
Herramientas para ML, teoría, prácticas y casos de aplicación
- Spark MLlib
- Prácticas de ML y AutoML en Cloud
Metodología y actividades formativas
Modalidad totalmente presencial en el aula
- Presentación con conceptos y teoría
- De cada tema se realizarán prácticas de labs, tutoriales, individuales de autoaprendizaje, experimentando con la tecnología en cuestión, con soporte de la comunidad de alumnos y del profesor
- Se plantearán una docenca de casos de aplicación reales donde se trabajará de forma conjunta la búsqueda de una solución tecnológica de arquitectura, mediante análisis grupal de los casos concretos de cliente para una resolución participativa de los alumnos
Sistemas y criterios de evaluación
Modalidad totalmente presencial en el aula
- Resolución de una arquitectura para un caso de cliente concreto
- Labs individuales: Se propondrán una docena de Labs, de autoaprendizaje, algunos obligatorios y otros opcionales, pero altamente recomendados, combinando la arquitectura con otros conocimientos adquiridos durante el master
Bibliografía y recursos
Se propondrán varias lecturas de papers y artículos relacionados con los diferentes puntos tratados combinando con otros temas del master.
- G. Linden, B. Smith and J. York, "Amazon.com recommendations: item-to-item collaborative filtering," in IEEE Internet Computing, vol. 7, no. 1, pp. 76-80, Jan.-Feb. 2003, doi: 10.1109/MIC.2003.1167344.
- Overview of Amazon Web Services, AWS, August 2020
- J Dean, S Ghemawat , MapReduce: simplified data processing on large clusters, Communications of the ACM, 2008
- Matt Turck, 2020 Data and AI Landscape, FirstMark
- Liu, Guimei & Nguyen, Tam & Zhao, Gang & Zha, Wei & Yang, Jianbo & Cao, Jianneng & Wu, Min & Zhao, Peilin & Chen, Wei. (2016). Repeat Buyer Prediction for E-Commerce. 155-164. 10.1145/2939672.2939674.