Gestión de Carrera

Fundamentos de programación estadística y Data Mining

Universidad Nacional de Tres de Febrero

Buenos Aires, Argentina
Facultad
Dirección de Posgrado
Duración
1 meses
Modalidad
Presencial
Inicio de Postulación
2017-03-01 20:00:00
Término de Postulación
2017-03-29 22:00:00

Debido a su carácter de software libre y a la creciente comunidad de usuarios, el lenguaje R se ha convertido en algo así como la lingua franca dentro del análisis estadístico.

El presente seminario se propone realizar una introducción a algunos conceptos fundamentales de la programación estadística en R. A su vez, se hará énfasis en la implementación de análisis estadísticos básicos (descriptivos y regresiones) en R.

A su vez, el curso presentará algunos elementos teóricos de la minería de datos/aprendizaje automático (balance sesgo-variancia, overfitting, etc.) y revisará algunos algoritmos para la estimación de árboles (ID4, C4.5, CART y random forest).

El curso se propone que los alumnos:

- Se familiaricen con aspectos relevantes de la programación estadística en lenguaje R

- Logren implementar e interpretar análisis estadísticos descriptivos y modelos de regresión en lenguaje R

- Incorporen algunos conceptos fundamentales del data mining/aprendizaje automático,

- Conozcan generalidades de algunos algoritmos para la generación de árboles de decisión (ID4, C4.5,CART y random forest) y su implementación en lenguaje R,

- Logren identificar situaciones de aplicación de este tipo de modelos a problemas de investigación básica y aplicada

Destinatarios: Estudiantes avanzados de carreras de grado y posgrado, técnicos, profesionales, investigadores, docentes y no docentes.

Temario de clases

Unidad 1. Elementos de programación estadística en R. Objetos en R (vectores, matrices, data frames y listas). Estructuras de control (loops –for, while, repeat- if, ifelse). Implementación de funciones ad-hoc. Generación de números aleatorios y distribuciones de probabilidad. Importación y exportación de datos (.csv, .txt, .tab, .sav, etc.).

Unidad 2. Análisis estadístico básico en R. Generación de gráficos y visualización de datos. Estadística descriptiva. Implementación y análisis de modelos de regresión lineal y logística. Funciones plot, lm, glm y predict.

Unidad 3. Nociones básicas de data mining/aprendizaje automático. Tipos de problemas en aprendizaje supervisado: clasificación y regresión. Error de entrenamiento (training error), error de prueba (test error). Sobre-ajuste. Balance entre el sesgo y la variancia de un modelo. Métodos de estimación del error: partición del dataset, validación cruzada. Aplicaciones en R.

Unidad 4. Clasificadores basados en árboles: generalidades. Algoritmos ID4, C4.5 y CART. Partición múltiple y binaria, medidas de pureza de nodos. Crecimiento (growing) y podado (prunning) de árboles de decisión. Balance entre costo y complejidad del árbol. Introducción a los modelos de Random Forest. Aplicaciones en R (paquetes tree, rpart y randomForest).

 

Datos de Contacto
E-mail
maestriaestadistica@untref.edu.ar
Sitio Web
Locación
Buenos Aires, Argentina
En profundidad

Únase a la conversación