Vés al contingut

Universitat Internacional de Catalunya

MÓDULO 3.1: Métodos Estadísticos y Data Mining

MÓDULO 3.1: Métodos Estadísticos y Data Mining
5
13945
1
Primer semestre
OB
Llengua d'impartició principal: castellà

Altres llengües d'impartició: català, anglès

Professorat

Presentació

L'estadística constitueix un pilar fonamental de la ciència de les macrodades (o també denominada “Data Science”, del seu origen anglosaxó) i és l'eina que li donarà al professional de les dades la capacitat per a comprendre les ingents quantitats d'informació numèrica, per a així poder treure conclusions i prendre decisions a partir d'aquestes. Com a part essencial del mètode científic, és la disciplina que posa la "ciència" en el “Data Science”.
En aquest curs es donen els principis fonamentals de l'estadística clàssica i moderna, posant l'accent principalment en la teoria matemàtica que hi ha darrere. Per això, aquesta pot considerar-se com una assignatura de matemàtiques a l'ús, amb la seva bona dosi de teoria, problemes i pràctiques. No obstant això, l'assignatura conté una part important de programació estadística, construïda entorn de les llibreries científiques habituals de Python (Numpy, Scipy, Pandas i similars).

Requisits previs

Nocions bàsiques de matemàtiques (nivell ESO/Batxiller) i familiaritat amb almenys un llenguatge de programació.

Objectius

  • Saber raonar matemàticament i aplicar el mètode científic, així com comprendre la seva importància en la presa de decisions basades en dades.
  • Assimilar els conceptes bàsics de la teoria de probabilitats.
  • Comprendre i aplicar correctament el concepte de significació estadística. Saber identificar què constitueix evidència estadística.
  • Ser capaç d'usar programari i llenguatges de programació per a realitzar anàlisis estadístiques sobre un conjunt de dades.
  • Entendre i saber aplicar algorismes de simulació estadística.

Resultats d’aprenentatge de l’assignatura

L'alumne haurà de ser capaç d'elaborar un pla d'implantació d'un SI d'una empresa exemple, com a cas d'estudi. Detallar els plans de sistemes d'informació, a alt nivell i ser capaç de comprendre, en una negociació, que criteris de valoració s'han d'aplicar per a la priorització en la implantació d'aquest pla de desplegament.

Continguts

"Tema 0: Introducció a conceptes fonamentals de les matemàtiques
0.1 Números i operacions
0.2 Bàsics d'anàlisi matemàtica
0.3 Derivades i integrals
0.4 *Python: Introducció i estructures de dades fonamentals

Tema 1: Fonaments de probabilitat
1.1 Per què usem estadística?
1.2 Axiomàtica de Kolmogorov
1.3 Càlcul de probabilitats: fórmula de Laplace, probabilitat condicionada, fórmula de *Bayes
1.4 Variables aleatòries discretes: Bernoulli, Binomial, Poisson
1.5 Variables aleatòries absolutament contínues: distribució Uniforme, distribució Normal
1.6 Esperanza matemàtica

Tema 2: Estimació de paràmetres
2.1 Introducció i definicions
2.2 Estimadors inbiaxats
2.3 Estimació puntual
2.4 Mètode dels moments i del màxim de versemblança
2.5 Significació estadística
2.6 Estimació per intervals de confiança

Tema 3: Contrast d'hipòtesi
3.1 Conceptes fonamentals: hipòtesi nul·la i p-valor
3.2 El test exacte de Fisher
3.3 Tests paramètrics: mitjanes, variàncies i proporcions
3.4 Tests no paramètrics: comparació de distribucions

Tema 4: Simulació de Montecarlo
4.1 El teorema del Límit Central
4.2 Absència de normalitat. Tests de Shapiro-Wilk i Kolmogorov-Smirnov
4.3 Bootstrap
4.4 Test de permutacions
4.5 Test de més de dues mostres
4.6 Aproximació del p-valor

Metodologia i activitats formatives

Modalitat totalment presencial a l'aula



Les quatre primeres classes consten d'una part teòrica (60% del temps aprox.) i una altra de resolució de problemes (40%). La cinquena classe consisteix en un laboratori de pràctiques en el qual els alumnes treballaran tractant de resoldre els problemes dels quatre lliurables del curs.

Sistemes i criteris d'avaluació

Modalitat totalment presencial a l'aula



"La nota final s'obté com la mitjana de les notes de les quatre pràctiques (una per tema, excepte el tema 0). Aquestes pràctiques són unipersonals i pretenen ser resoltes de manera autònoma, encara que no hi ha inconvenient a demanar consell o ajuda als companys, així com al professorat.

Si la nota final no supera el tall per a obtenir l'aprovat, es pot recuperar amb un examen pràctic final."

Bibliografia i recursos

Bibliografia principal

  • Estadística empresarial. Exemples senzills i molt clars: https://goo.gl/aud4be
  • Bioestadística (Rius & Wärnberg). Molt complet, ofereix un extens catàleg de tests d'hipòtesis, encara que està molt aplicat a la biologia: https://goo.gl/n9nhr2

Bibliografia complementària

 

  • Probabiltats (Marta Sanz). Introducció teòrica a la probabilitat matemàtica, és un llibre molt dens i poc llegible, però de gran valor com a referència de capçalera: http://www.publicacions.ub.edu/ficha.aspx?cod=04980e
  • Estadística (Fortiana/Nualart). Homòleg en estadística de la referència anterior. En català: http://www.publicacions.ub.edu/ficha.aspx?cod=04967e
  • Linear *Models *with R: Mètodes estadístics encaminats a la construcció de models lineals usant R. Disponible en línia: http://www.utstat.toronto.edu/~brunner/books/LinearModelsWithR.pdf
  • Introducció a l'Anàlisi Matemàtica (Joaquim M. Ortega Aramburu, Publicacions de la UAB, 2002). Números, successions, funcions, sèries, derivades i integrals. Des de zero i amb tots els formalismes necessaris. En català.
  • Útils Bàsics de Càlcul Numèric (Aubanell, Benseny, Delshams; Labor, 1993). Manual d'introducció al càlcul numèric, amb descripcions i anàlisis de tots els algorismes clàssics.
  • Calculus I i II (Apostol, Ed. *Reverté 1989). Manual molt dens que comença de zero i acaba en integrals de superfície. Bon material de consulta per la seva *completitud i precisió.