Universitat Internacional de Catalunya

MÓDULO 4: Machine Learning

MÓDULO 4: Machine Learning
10
13947
1
Segon semestre
OB
Llengua d'impartició principal: castellà

Altres llengües d'impartició: català, anglès

Professorat

Presentació

En els últims 10 anys tota una sèrie d'algorismes avançats, que engloben el que es coneix com *Machine *Learning (ML) o Aprenentatge Automàtic i gairebé desconeguts fins al moment per l'empresa actual, s'han posat a disposició. Aquests algorismes s'han reunit sota un marc teoricopràctic i, a través de llenguatges de tipus *open-*source poden s'accedits, serialitzats i implementats tant en apps, en models de decisió empresarials i en automatització de tasques on s'estigui davant un entorn incert.

En aquest curs s'aborden les dues branques més conegudes del Machine Learning, que són les que engloben als algorismes de tall supervisat o no supervisat, encara que s'ofereix, en cada cas, una lleu base teòrica. No obstant això, el curs està enfocat al fet que l'alumne adquireixi coneixement dels diferents algorismes de tipus (ML), que té a la seva disposició sota entorns de R, Python, etc.

Els reptes que l'alumne es trobarà, en l'ús d'aquest nou paradigma, junt, per descomptat, amb els avantatges derivats, fa que el seu ús sent una d'elles les potents millores de *predictividad, enfront de l'estadística clàssica que en general era aplicada abans del 2010.

Finalment, s'obre la porta a tècniques més elaborades que serien continuades en mòduls posteriors com són les basades en Intel·ligència Artificial (*IA).

Requisits previs

Coneixement d'informàtica bàsica i d'un domini bàsic tant de R com Python
Coneixements bàsics d'estadística, sobretot en el que concerneix als models clàssics de Regressió Lineal, ANOVA, Decision Trees, …
Coneixements de tècniques bàsiques no supervisades com l'algorisme kmeans, Ward, etc

Objectius

  • Concepte de ML i diferència amb els models clàssics anteriors

  • Concepte de ML i alineament amb els objectius empresarials

  • Concepte de ML i relació amb les fonts d'informació: Posada en Producció & Re-entrenament automàtic

  • Concepte de Serialització de Models de ML

  • Concepte i generació Framework Analític

Resultats d’aprenentatge de l’assignatura

L'alumne haurà de ser capaç de coordinar-se dins d'un grup de 3-4 membres per a la generació d'una aplicatiu automàtic en *Shiny que mostri el cicle complet en un projecte de modelització estadística. S'espera que aconsegueixi un domini en l'ús dels algorismes fonamentals del ML i que adquireixi intuïció en l'ús d'aquests per a resoldre els diferents problemes que es plantegen a nivell empresarial oferint suport analític per a la presa de decisions de tall tàctic i estratègic, mitjançant l'automatització i la sistematització de processos que donin resposta ràpida i eficaç a les qüestions que es plantegen sota un entorn d'incertesa de manera objectiva i basada en l'explotació de la informació disponible.

Continguts

Es planteja una sèrie de continguts que recorren les tècniques creades i desenvolupades a partir dels anys 90 i popularitzades a partir de l'any 2010 sota el concepte de Machine Learning. Amb aquests continguts, no sols es pretén oferir una enumeració d'algorismes estadístics-matemàtics, sinó que es tracta de donar en tot moment coherència entre aquests algorismes i les claus metodològiques per a la seva construcció i aplicació

 

Tema 1: Regles d'Associació:
1.1. Introducció a l'Aprenentatge no Supervisat
1.2. Anàlisi Clúster
1.3. Basket Market Analysis
1.4. Xarxes Bayesianes

 

Tema 2: Models Lineals:
2.1. Models de Regressió Lineal
2.2. Extensions del Model de Regressió Lineal
2.3. Models de Variables Instrumentals
2.4. De l'Estadística Clàssica als Actuals Models de Machine Learning
2.5. Regressions Lasso i Ridge
2.6. Implementació de Models *Shiny I

 

Tema 3: Classificadors Lineals i no Lineals:
3.1. Anàlisi Discriminant Lineal i Quadràtic
3.2. Regressió Logística
3.3. Models Logístics Ridge - Lasso
3.4. El Model KNN
3.5. Support Vector Machine
3.6. Implementació de models amb Shiny

 

Tema 4: Automatització de Models de Sèries Temporals:
4.1. Introducció als models de sèries temporals
4.2. Models *ARIMA
4.3. Anàlisi Financera i introducció als models *ARCH i *VAR
4.4. Models retro-alimentat en dades de sèries temporals
4.5. Models de ML en Sèries Temporals
4.6. Model *Prophet

 

Tema 5: Decision Tree, Random Forest i mètodes ensemble
5.1. Arbres de regressió i de decisió
5.2. Tècniques de Boscos Aleatoris: Bagging, Boosting, Random Forest, XGBOOST
5.3. Barreja de Models: Ponderació, Voting Classifier i Stacking
5.4. Interpretabilidad de Models de ML: LLIMI, SHAP, XEMP

 

Tema 6: Neural Network
6.1. Aprenentatge no Supervisat en Xarxes Neuronals: Xarxes de Kohonen
6.2. Aprenentatge Supervizado: Perceptrons simples i multicapa
6.3. Models Avançats de Xarxes Neuronals: Introducció al Deep Learning
6.4. Xarxes Neuronals i Sèries Temporals : Introducció als models LTSM


Metodologia i activitats formatives

Modalitat totalment presencial a l'aula



Al llarg del mòdul se segueix una metodologia d'Avaluació Contínua on es combinaran tant diverses activitats individuals com diversos treballs en grup els criteris generals del qual d'avaluació es descriuen en el següent apartat
La impartició del tema es duu a terme a base de “píndoles” de breus explicacions teòriques amb debat de la tècnica estadística i immediatament es desenvolupa un exemple aplicat dels conceptes comentats anteriorment
Es valorarà l'assistència, la participació i el debat en classe
Es farà ús d'entorns de programació habituals en l'empresa amb dades lliures i programari estadístic de llicència tipus GNU que els alumnes podran descarregar en el seu PC per a seguir les pràctiques d'una manera més personalitzada i al seu propi ritme
S'incentiva que l'alumne utilitzi indistintament R i Python per a resoldre problemes pràctics de l'assignatura.

Sistemes i criteris d'avaluació

Modalitat totalment presencial a l'aula



Els blocs a avaluar i valorar al llarg del mòdul seran 3, on cadascun es valora en una escala de l'1 al 10, que posteriorment es fan una mitjana de de manera ponderada tal com es descriu a continuació:

-Test individuals de 30 a 40 preguntes que es realitzaran en un temps de 45-60 minuts sobre l'impartit cada 2 mòduls. Hi haurà 2 exàmens tipus test (de les sessions 1 i 2 i les sessions 3 i 4). Cada pregunta consta de 4 qüestions amb només 1 correcta i la suma total de la qual anirà en una escala de l'1 al 10. Les qüestions mal contestades restaran ¼ del seu valor. La ponderació total dels test serà 30% del total

-Treballs en grups: Es detallen diferents treballs en grup que s'anunciaran al final de la segona sessió. Aquests treballs seran mini-projectes molt enfocats a la utilització de les tècniques desenvolupades puntuant-se sobretot: el treball en equip, l'originalitat sobre les línies donades que realitzi el grup i la versatilitat dels lliurables (totes aquestes pautes seran més detallades en la descripció d'aquests treballs). El lliurament del treball serà com a màxim 4 setmanes a comptar des de la finalització del mòdul. El pes total del treball serà del 60% del total. Aquesta nota afectaria a tots els alumnes que componen el grup

-Col·laboració i participació en classe: S'avalua el comportament i sobretot la participació en el mòdul per part dels alumnes. El plantejament de preguntes i qüestionar-se en tot moment el que s'està rebent lectivament serà considerat molt positivament sempre que es realitzi en un adequat entorn constructiu. El pes total en l'avaluació serà del 10%

L'aprovat del mòdul s'obté si després de la valoració ponderada es passa el valor de 5 i s'informarà els alumnes després del termini de lliurament dels treballs de grup.

Bibliografia i recursos

Tema 1:
Hahsler, M; Grün, B; Hornik, K (2005) Arules – A Computational Environment for Mining Association Rules and Frequent Item Sets Journal of Statistical Software, October 2005, Vol 14, Issue 15
Grimmett, G; Stirzaker, D (2004) Probability and Random Process 3ed Oxford University Press ISBN 0-19-857223-9
Korl, K; Nichols, A (2011) Bayesian Artificial Intelligence 2ed Ed. CRC Press ISBN 978-1-4398-1591-5
Scutari, M (2010) Learning Bayesian Networks with the bnlearn R Package Journal of Statistical Software, July 2010, Vol 35, Issue 3

Tema 2:
Matilla García, M; Pérez Pascual, P.; Sanz Carnero, B. (2013) Econometría y Predicción Ed. UNED ISBN 9788448183103
Gareth, J.; Witten, D.; Hastie, T. y Tibshirani R. (2013) An Introduction to Statistical Learning with Applications in R Springer Science + Business Media New York ISBN 978-1-4614-7137-0
Grimmett, G; Stirzaker, D (2004) Probability and Random Process 3ed Oxford University Press ISBN 0-19-857223-9
Müller, A. C.; Guido, S (2017) Introduction to Machine Learning with Python Ed O’Relly ISBN 978144936415

Munzert, S.; Rubba, C.; Meissner, P.; Nyhuis, D. (2015) Automated Data Collection with R John Wiley & Sons, Ltd ISBN 9781118834817
Korl, K; Nichols, A (2011) Bayesian Artificial Intelligence 2ed Ed. CRC Press ISBN 978-1-4398-1591-5
Scutari, M (2010) Learning Bayesian Networks with the bnlearn R Package Journal of Statistical Software, July 2010, Vol 35, Issue 3
Tennenbaum, J; Director, B (2005) How Gauss Determined The Orbit of Ceres Journal of Statistical Software, October 2005, Vol 14, Issue 15

Tema 3:
Carmona Suárez J. (2014) Tutorial sobre Máquinas de Vectores Soporte (SVM) UNED http://www.ia.uned.es/~ejcarmona/publicaciones/[2013-Carmona]%20SVM.pdf
Cortes, C.; Vapnik, V. (1995) Support-vector networks. Machine Learning, 20(3), 273-297
Gareth, J.; Witten, D.; Hastie, T. y Tibshirani R. (2013) An Introduction to Statistical Learning with Applications in R Springer Science + Business Media New York ISBN 978-1-4614-7137-0
Fisher, R. A. (1936) The Use of Multiple Measurements in Taxonomic Problems Annals of Eugenics. 7 (2): 179-188

James G.; Witten D.; Hastie T. Tibshirani R. (2013) An Introduction to Statistical Learning Springer ISBN 978-1-4614-7137-02

Müller, A. C.; Guido, S (2017) Introduction to Machine Learning with Python Ed O’Relly ISBN 978144936415


Tema 4:
Matilla García, M; Pérez Pascual, P.; Sanz Carnero, B. (2013) Econometría y Predicción Ed. UNED ISBN 9788448183103
Cowpertwait, P. S. P.; Metcalfe, A. V. (2009) Introductory Time Series with R Springer ISBN 978-0387-88697-5

Tema 5:
Benjamin H.; Mayr A.; Robinzonov N. Schmidt M. (2012) Model-based Boosting in R A Hands-on Tutorial Using the R Package mboost Technical Report Number 120, 2012 Department of Statistics University of Munich

James G.; Witten D.; Hastie T. Tibshirani R. (2013) An Introduction to Statistical Learning Springer ISBN 978-1-4614-7137-02

Müller, A. C.; Guido, S (2017) Introduction to Machine Learning with Python Ed O’Relly ISBN 978144936415


Tema 6:
Bonifacio, M; Sanz Molina, A. (2001) Redes Neuronales y Sistemas Borrosos Ed. RAMA ISBN 84-7897-466-0
Chollet, F; Allaire J. J. (2018) Deep Learning with R Ed. Manning ISBN 9781617295546
Gareth, J.; Witten, D.; Hastie, T. y Tibshirani R. (2013) An Introduction to Statistical Learning with Applications in R Springer Science + Business Media New York ISBN 978-1-4614-7137-0
Hastie, T.; Tibshirani, R.; Friedman, J. (2008) The Elements of Statistical Learning. Data Mining, Inference, and Prediction Springer
Terence, L. F. (1999) Feedforward Neural Network Methodology Springer-Verlag New York, Berlín, Heidelberg ISBN 0-387-98745-2
Wehrens, R.; M. C. Buydens, L. (2007) Self and Super-organizing Maps in R: The Kohonen Package. Journal of Statistical Software Oct 2007, Vol 21, Issue 5