Universitat Internacional de Catalunya

MÓDULO 3.1: Métodos Estadísticos y Data Mining

MÓDULO 3.1: Métodos Estadísticos y Data Mining
5
13945
1
Primer semestre
OB
Lengua de impartición principal: castellano

Otras lenguas de impartición: catalán, inglés

Profesorado

Presentación

La estadística constituye un pilar fundamental de la ciencia de los macrodatos (o también denominada “Data Science”, de su origen anglosajón) y es la herramienta que le dará al profesional de los datos la capacidad para comprender las ingentes cantidades de información numérica, para así poder sacar conclusiones y tomar decisiones a partir de las mismas. Como parte esencial del método científico, es la disciplina que pone la "ciencia" en el “Data Science”.
En este curso se dan los principios fundamentales de la estadística clásica y moderna, haciendo especial hincapié en la teoría matemática que hay detrás. Por ello, esta puede considerarse como una asignatura de matemáticas al uso, con su buena dosis de teoría, problemas y prácticas. No obstante, la asignatura contiene una parte importante de programación estadística, construida en torno a las librerías científicas habituales de Python (Numpy, Scipy, Pandas y similares).

Requisitos previos

Nociones básicas de matemáticas (nivel ESO/Bachiller) y familiaridad con al menos un lenguaje de programación.

Objetivos

  • Saber razonar matemáticamente y aplicar el método científico, así como comprender su importancia en la toma de decisiones basadas en datos.
  • Asimilar los conceptos básicos de la teoría de probabilidades.
  • Comprender y aplicar correctamente el concepto de significación estadística. Saber identificar qué constituye evidencia estadística.
  • Ser capaz de usar software y lenguajes de programación para realizar análisis estadísticos sobre un conjunto de datos.
  • Entender y saber aplicar algoritmos de simulación estadística.

Resultados de aprendizaje de la asignatura

El alumno tendrá que ser capaz de elaborar un plan de implantación de uno SI de una empresa ejemplo, como caso de estudio. Detallar los planes de sistemas de información, a alto nivel y ser capaz de comprender, en una negociación, que criterios de valoración se tienen que aplicar para la priorización en la implantación de este plan de despliegue.

Contenidos

Tema 0: Introducción a conceptos fundamentales de las matemáticas
0.1 Números y operaciones
0.2 Básicos de análisis matemático
0.3 Derivadas e integrales
0.4 Python: Introducción y estructuras de datos fundamentales

Tema 1: Fundamentos de probabilidad
1.1 ¿Por qué usamos estadística?
1.2 Axiomática de Kolmogorov
1.3 Cálculo de probabilidades: fórmula de Laplace, probabilidad condicionada, fórmula de Bayes
1.4 Variables aleatorias discretas: Bernoulli, Binomial, Poisson
1.5 Variables aleatorias absolutamente continuas: distribución Uniforme, distribución Normal
1.6 Esperanza matemática

Tema 2: Estimación de parámetros
2.1 Introducción y definiciones
2.2 Estimadores insesgados
2.3 Estimación puntual
2.4 Método de los momentos y del máximo de verosimilitud
2.5 Significación estadística
2.6 Estimación por intervalos de confianza

Tema 3: Contraste de hipótesis
3.1 Conceptos fundamentales: hipótesis nula y p-valor
3.2 El test exacto de Fisher
3.3 Tests paramétricos: medias, varianzas y proporciones
3.4 Tests no paramétricos: comparación de distribuciones

Tema 4: Simulación de Montecarlo
4.1 El teorema del Límite Central
4.2 Ausencia de normalidad. Tests de Shapiro-Wilk y Kolmogorov-Smirnov
4.3 Bootstrap
4.4 Test de permutaciones
4.5 Test de más de dos muestras
4.6 Aproximación del p-valor

Metodología y actividades formativas

Modalidad totalmente presencial en el aula



Las cuatro primeras clases constan de una parte teórica (60% del tiempo aprox.) y otra de resolución de problemas (40%). La quinta clase consiste en un laboratorio de prácticas en el que los alumnos trabajarán tratando de resolver los problemas de los cuatro entregables del curso.

Sistemas y criterios de evaluación

Modalidad totalmente presencial en el aula



La nota final se obtiene como el promedio de las notas de las cuatro prácticas (una por tema, salvo el tema 0). Estas prácticas son unipersonales y pretenden ser resueltas de forma autónoma, aunque no hay inconveniente en pedir consejo o ayuda a los compañeros, así como al profesorado.

Si la nota final no supera el corte para obtener el aprobado, se puede recuperar con un examen práctico final.

Bibliografía y recursos

Bibliografía principal

  • Estadística empresarial. Ejemplos sencillos y muy claros: https://goo.gl/aUD4be
  • Bioestadística (Rius & Wärnberg). Muy completo, ofrece un extenso catálogo de tests de hipótesis, aunque está muy aplicado a la biología: https://goo.gl/n9NHR2


Bibliografía complementaria

  • Probabiltats (Marta Sanz). Introducción teórica a la probabilidad matemática, es un libro muy denso y poco legible, pero de gran valor como referencia de cabecera: http://www.publicacions.ub.edu/ficha.aspx?cod=04980e
  • Estadística (Fortiana/Nualart). Homólogo en estadística de la referencia anterior. En catalán: http://www.publicacions.ub.edu/ficha.aspx?cod=04967e
  • Linear Models with R: Métodos estadísticos encaminados a la construcción de modelos lineales usando R. Disponible en línea: http://www.utstat.toronto.edu/~brunner/books/LinearModelsWithR.pdf
  • Introducció a l'Anàlisi Matemàtica (Joaquim M. Ortega Aramburu, Publicacions de la UAB, 2002). Números, sucesiones, funciones, series, derivadas e integrales. Desde cero y con todos los formalismos necesarios. En catalán.
  • Útiles Básicos de Cálculo Numérico (Aubanell, Benseny, Delshams; Labor, 1993). Manual de introducción al cálculo numérico, con descripciones y análisis de todos los algoritmos clásicos.
  • Calculus I y II (Apostol, Ed. Reverté 1989). Manual muy denso que comienza de cero y acaba en integrales de superficie. Buen material de consulta por su completitud y precisión.