Universitat Internacional de Catalunya

MÓDULO 2: Lenguajes de Programación para el Data Scientist

MÓDULO 2: Lenguajes de Programación para el Data Scientist
5
13944
1
Primer semestre
OB
Lengua de impartición principal: castellano

Otras lenguas de impartición: catalán, inglés

Profesorado


Profesorado:

Josep Arrufat (SQL) jarrufat@uic.es

Albert Climent (Python) albert.climent@pervasive-tech.com

David Roche (R) droche@uic.es

Presentación

Las herramientas primarias para un científico de datos se basan o se apoyan esencialmente en la capacidad de programar con distintos lenguajes y a diferentes niveles. Además, actualmente, con el proceso de cambio y de transformación que están sufriendo las empresas, el conocimeinto de los principales lenguajes para la ciencia de datos se considera un "skill" en si mismo. En esta asignatura se presentan los principales lenguajes de programación necesarios para completar cualquier máster en ciencia de datos, R y Python, junto con el aprendijaze del lenguaje de base de datos SQL.

Requisitos previos

Conocimientos básicos de informática y ser capaz de leer y entender textos en inglés

Objetivos

Los objetivos de esta asignatura se componen del aprendizaje y conocimiento de los distintos lenguajes de programación para el científico de datos. Python, R y SQL.

Para cada uno de ellos los objetivos son:

  1. Entender la aplicación de los distintos lenguajes
  2. Saber seleccionar el lenguaje apropiado para diferentes situaciones
  3. Conocer el uso y aplicación práctica de los diversos lenguajes
  4. Saber crear código para resolver problemas sencillos y complejos a partir de los diversos lenguajes contemplados

Competencias/Resultados de aprendizaje de la titulación

  • Formar en los métodos de investigación, recaptación y procesamiento de información.

  • Búsqueda de datos en instituciones y bibliotecas. Acceso a base de datos, navegación selectiva por Internet.

  • Aproximar al alumno a la utilización de herramientas informáticas para incluir muestras gráficas.

  • Establecer criterios para la adopción de decisiones razonadas.

  • Reconocer y solucionar problemas en el ámbito de actuación profesional.

  • Analizar las variables que intervienen en la gestión del área de conocimiento del programa.

  • Reconocer y solventar problemas vinculados a la gestión del área de conocimiento del programa.

  • Reflexionar sobre las formas de comunicación necesarias para una buena gestión.

  • Gestionar recursos bibliográficos y documentales.

Resultados de aprendizaje de la asignatura

Los resultados del aprendizaje de los alumnos son las capacidades que habrán obtenido después de cursar y superar esta asignatura:

  • Ser capaz de entender la aplicación de los distintos lenguajes

  • Ser capaz de seleccionar el lenguaje apropiado para diferentes situaciones

  • Ser capaz de usar y aplicar de forma práctica los diversos lenguajes de programación de la asignatura

  • Saber crear código para resolver problemas sencillos y complejos a partir de los diversos lenguajes contemplados

Contenidos

1. Lenguaje R

1.1 Introducción al lenguaje R

1.2. Variables y aspectos básicos de R

1.3. Bucles y control del flujo en R

1.4. Funciones y estructura del código

1.5. Visualización con R

 

2. Lenguaje Python

2.1. Introducción al lenguaje Python

2.2. Introducción a Docker y Git

2.3. Elementos básicos de Python

2.4. El entorno de trabajo: Notebooks

2.5. Trabajar con datos: Pandas

2.6. Caso práctico con Python

 

3. El lenguaje SQL

3.1. Fundamentos teóricos de SQL

3.2. Entorno de trabajo y el sistema gestor de bases de datos PostgreSQL

3.3 Primeros pasos con SQL

3.4. Aspectos avanzados prácticos con SQL

3.5. Fundamentos teóricos de bases de datos (Algebra Relacional)

Metodología y actividades formativas

Modalidad totalmente presencial en el aula



La técnica de aprendizaje de esta asignatura es “learning by doing” por lo que se realizarán casos prácticos aplicados a cada concepto teórico que se desarrolle en las diferentes sesiones y para los diferentes lenguajes. El objetivo siempre es acercar al alumno a la realidad de su profesión donde tendrá que aplicar los conocimientos teórico-prácticos aprendidos a lo largo de la asignatura.

La mayoría de las sesiones se estructuran de la siguiente forma:

  1. Presentación del resumen teórico por parte del profesorado
  2. Aplicación ejemplo por parte del profesorado
  3. Planteamiento de problemas y solución por parte del alumnado
  4. Solución del problema de forma conjunta
  5. Caso práctico simulado o con datos reales
  6. Trabajo práctico para realizar en casa con la intención de asimilar los conceptos aprendidos en la sesión

Sistemas y criterios de evaluación

Modalidad totalmente presencial en el aula



La evaluación de esta asignatura se obtendrá con la ponderación equitativa de todas las entregas realizadas a lo largo del curso. 

  La nota final es la nota de la evaluación continuada.

 

Bibliografía y recursos

- R Cookbook: Proven Recipes for Data Analysis, Statistics, and Graphics. J D Long y Paul Teetor. 2019

- SQL Cookbook: Query Solutions and Techniques for All SQL Users. Anthony Molinaro. 2020

- An Introduction to Statistical Learning: with Applications in R. Gareth James, Daniela Witten, Trevor Hastie, and Robert Tibshirani. 2014. Springer Publishing Company, Incorporated.

-The Python Language Reference, https://docs.python.org/3/reference/