Tratamiento Estadístico Computacional de la Información (conjunto con UPM)

Máster. Curso 2020/2021.

HERRAMIENTAS INFORMÁTICAS PARA BIG-DATA - 608857

Curso Académico 2020-21

Datos Generales

SINOPSIS

COMPETENCIAS

Generales
CG1 – Aprender a aplicar los conocimientos adquiridos y a explotar su potencial para la resolución de problemas en entornos nuevos o poco conocidos dentro de contextos más amplios (o multidisciplinares) en el tratamiento estadístico computacional de la información.

CG2 – Elaborar adecuadamente y con originalidad argumentos motivados y proyectos de trabajo, redactar planes, así como formular hipótesis y conjeturas razonables en su área de especialización.

CG3 – Integrar los conocimientos adecuados y enfrentarse a la complejidad de emitir juicios en función de criterios, de normas externas o de reflexiones personales justificadas.

CG5 – Comprender y utilizar el lenguaje y las herramientas matemáticas para modelizar y resolver problemas complejos, reconociendo y valorando las situaciones y problemas susceptibles de ser tratados matemáticamente.

CG6 – Conocer los modelos, métodos y técnicas relevantes en distintas áreas de aplicación de la Estadística matemática participando en la creación de nuevas tecnologías que contribuyan al desarrollo de la Sociedad de la Información.
Transversales
CT1 – Saber aplicar sus conocimientos a su trabajo o vocación de una forma profesional y poseer las competencias que suelen demostrarse por medio de la elaboración y defensa de argumentos y en la resolución de problemas y estudio de casos. Esto implica, más concretamente: Integrar creativamente conocimientos y aplicarlos a la resolución de problemas complejos, perseguir objetivos de calidad en el desarrollo de su actividad profesional, adquirir capacidad para la toma de decisiones y de dirección de recursos humanos, ser capaz de mostrar creatividad, iniciativa y espíritu emprendedor para afrontar los retos de su actividad, valorar la importancia de los métodos estadístico-computacionales en el contexto industrial, económico, administrativo, medio ambiental y social.

CT2 – Tener la capacidad de reunir e interpretar datos relevantes para emitir juicios que incluyan una reflexión sobre temas relevantes de índole científica, tecnológica y empresarial. Demostrar razonamiento crítico y gestionar información científica y técnica de calidad, bibliografía, bases de datos especializadas y recursos accesibles a través de Internet.
Específicas
CE1 – Adquisición de una formación sólida y rigurosa en temas avanzados de Estadística Matemática y Tecnologías de la Decisión aplicadas al tratamiento de la Información.

CE2 – Capacidad para planificar la resolución de un problema en función de las herramientas de que se disponga y, en su caso, de las restricciones de tiempo y recursos.

CE3 – Capacidad para utilizar aplicaciones informáticas estadísticas, de cálculo numérico y simbólico, visualización gráfica, optimización u otras para resolver problemas con un elevado grado de complejidad.

CE4 – Desarrollar habilidades de aprendizaje en Estadística Computacional y Matemáticas, así como en sus respectivas aplicaciones, que permitan al alumno continuar estudiando y profundizando en la materia de modo autónomo, así como el desarrollo profesional con un alto grado de independencia.

CE5 – Resolver problemas y casos reales planteados en el tratamiento estadístico computacional de la información generada en los ámbitos de la ciencia, la tecnología y la sociedad mediante habilidades de modelización matemática, estimación y computación.

CE6 – Desarrollar programas que resuelvan problemas matemáticos utilizando para cada caso el entorno computacional adecuado.

CE7 – Capacidad de utilización de herramientas de búsqueda de recursos bibliográficos así como manejo, gestión y análisis de grandes bases de datos.

ACTIVIDADES DOCENTES

Clases teóricas
En las que se expondrán los conceptos y técnicas esenciales de cada tema.
Clases prácticas
En las que se resolverán ejercicios y prácticas relacionadas con los conceptos y técnicas de cada tema.
Laboratorios
En las que se utilizarán herramientas actualmente utilizadas tanto en el ámbito académico como profesional para la resolución de ejercicios y prácticas de programación

Presenciales

3

Semestre

2

Breve descriptor:

La asignatura plantea una introducción a los conceptos y técnicas utilizadas en el Análisis de Datos en ámbitos de Big Data.
Se plantea una visión panorámica de las tecnologías utilizadas en las diversas fases: obtención de la información, almacenamiento, procesamiento, explotación y visualización.
Especial atención se dedica a las técnicas de programación para clústers . En particular la metodología Map-Reduce y a la herramienta Spark. A lo largo de toda la asignatura se utilizará el lenguaje de programación Python y entornos interactivos de programación, análisis y prueba como jupyter y spyder.

Requisitos

Haber cursado, al menos, un primer curso de programación.
Es también muy conveniente tener nociones de programación funcional.

Objetivos

  • Entender la distintas fases del Análisis de datos
  • Conocer herramientas informáticas para aplicar en cada una de las fases
  • Comprender el marco conceptual del BigData
  • Entender y manejar básicamente un sistema HDFS Hadoop
  • Diseñar soluciones paralelizables utilizando el esquema Map Reduce
  • Escribir programas en Spark
  • Conocer la abstracción de datos RDD
  • Conocer los módulos avanzados de Spark: Streaming, SQL, ML...

Contenido

  • Introducción a Big Data.
  • Almacenamiento de datos en ambientes Big Data
    • Sistemas de Ficheros distribuidos Hadoop HDFS
  • Técnicas de procesamiento paralelo:
    • Map Reduce
    • Apache Spark
    • Módulos avanzados

 

Evaluación

Para la convocatoria ordinaria, la evaluación de la asignatura es continua.
Los factores que se valoran para la calificación final son:
* Asistencia y participación. 20% (Se recuerda que el máster es presencial y la asistencia es obligatoria)
* Entrega de prácticas: 40% (a medida que avanza el curso)
* Examen teórico-práctico: 40%

Para la convocatoria extraordinaria, se valorarán los siguientes factores
* Asistencia y participación. 20% (Se recuerda que el máster es presencial y la asistencia es obligatoria)
* Examen teórico-práctico: 80% (A realizar el día de la fecha fijada en la convocatoria extraordinaria)

Bibliografía

L. Massaron; A. Boschetti, Python Data Science Essentials, Packt. 2015
J. VanderPlas, Python Data Science Handbook, O'Reilly. 2016
Documentación Hadoop: http://hadoop.apache.org/docs/current/
Documentación MrJob: https://pythonhosted.org/mrjob/
Documentación Spark: http://spark.apache.org/docs/latest/
Karau H., Konwinski A., Wendell P., and Zaharia M. Learning Spark. O'Reilly. 2015

Estructura

MódulosMaterias
No existen datos de módulos o materias para esta asignatura.

Grupos

Clases teóricas y/o prácticas
GrupoPeriodosHorariosAulaProfesor
Grupo A10/12/2020 - 19/02/2021MARTES 16:30 - 18:00B05
JUEVES 16:30 - 18:00B05