Fundamentos de programación estadística y Data Mining
Universidad Nacional de Tres de Febrero
Buenos Aires, ArgentinaDebido a su carácter de software libre y a la creciente comunidad de usuarios, el lenguaje R se ha convertido en algo así como la lingua franca dentro del análisis estadístico.
El presente seminario se propone realizar una introducción a algunos conceptos fundamentales de la programación estadística en R. A su vez, se hará énfasis en la implementación de análisis estadísticos básicos (descriptivos y regresiones) en R.
A su vez, el curso presentará algunos elementos teóricos de la minería de datos/aprendizaje automático (balance sesgo-variancia, overfitting, etc.) y revisará algunos algoritmos para la estimación de árboles (ID4, C4.5, CART y random forest).
El curso se propone que los alumnos:
- Se familiaricen con aspectos relevantes de la programación estadística en lenguaje R
- Logren implementar e interpretar análisis estadísticos descriptivos y modelos de regresión en lenguaje R
- Incorporen algunos conceptos fundamentales del data mining/aprendizaje automático,
- Conozcan generalidades de algunos algoritmos para la generación de árboles de decisión (ID4, C4.5,CART y random forest) y su implementación en lenguaje R,
- Logren identificar situaciones de aplicación de este tipo de modelos a problemas de investigación básica y aplicada
Destinatarios: Estudiantes avanzados de carreras de grado y posgrado, técnicos, profesionales, investigadores, docentes y no docentes.
Temario de clases
Unidad 1. Elementos de programación estadística en R. Objetos en R (vectores, matrices, data frames y listas). Estructuras de control (loops –for, while, repeat- if, ifelse). Implementación de funciones ad-hoc. Generación de números aleatorios y distribuciones de probabilidad. Importación y exportación de datos (.csv, .txt, .tab, .sav, etc.).
Unidad 2. Análisis estadístico básico en R. Generación de gráficos y visualización de datos. Estadística descriptiva. Implementación y análisis de modelos de regresión lineal y logística. Funciones plot, lm, glm y predict.
Unidad 3. Nociones básicas de data mining/aprendizaje automático. Tipos de problemas en aprendizaje supervisado: clasificación y regresión. Error de entrenamiento (training error), error de prueba (test error). Sobre-ajuste. Balance entre el sesgo y la variancia de un modelo. Métodos de estimación del error: partición del dataset, validación cruzada. Aplicaciones en R.
Unidad 4. Clasificadores basados en árboles: generalidades. Algoritmos ID4, C4.5 y CART. Partición múltiple y binaria, medidas de pureza de nodos. Crecimiento (growing) y podado (prunning) de árboles de decisión. Balance entre costo y complejidad del árbol. Introducción a los modelos de Random Forest. Aplicaciones en R (paquetes tree, rpart y randomForest).
Datos de Contacto
- [email protected]
- Sitio Web
- http://untref.edu.ar/#
- Locación
- Buenos Aires, Argentina
Únase a la conversación