Sección 1 Introducción
En este curso nos interesa entender y describir patrones de dependencia de un conjunto de variables aleatorias. Consideraremos algunas de las herramientas más populares que se usan para este fin:
- Redes bayesianas (modelos gráficos dirigidos).
- Redes markovianas (modelos gráficos no dirigidos), modelos gráficos gaussianos, modelos loglineales.
- Análisis de factores, clases latentes, clustering.
- Modelos de dependencia espacial y temporal.
- Regresión para datos agrupados o jerárquicos (extensión de GLMs).
Por ejemplo:
En estadística espacial nos interesa entender y modelar qué variables están asociadas por contiguidad. Por ejemplo: variables de estaciones de medición metereológica, ambiental, ocurrencias de crimen en una ciudad, etc.
Series de tiempo, secuencias de observaciones ordenadas cronológicamente.
En el estudio de factores relacionados con una enfermedad, muchas veces no solamente nos interesa la predicción de quién está en riesgo (por ejemplo, probabilidad de cáncer de pulmón), sino también como se asocian hábitos negativos, predisposiciones y otros factores de riesgo. Por ejemplo: ¿qué niveles socioeconómicos fuman más o menos? ¿a través de que hábitos o factores los niveles socioeconómicos más bajos tienen mayor riesgo?
En medición de logro académico, ¿qué tanto de las calificaciones de los alumnos se deben a la escuela (asociación entre calificaciones a nivel de escuela) y qué tanto a la habilidad de los alumnos que están en esa escuela?
Variable latente, por ejemplo datos faltantes.
Veremos métodos que se clasifican como no supervisados en el sentido de que no queremos predecir ninguna variable particular, y métodos supervisados (en los cuales nos enfocamos en entender las dependencias de una sola variable respuesta de otras entradas, como en machine learning o modelos lineales generalizados).
En los primeros temas (modelos gráficos) buscaremos herramientas para expresar patrones de dependencia complejos (más allá de covarianzas o correlaciones simples, por ejemplo) entre varias variables aleatorias. Los últimos tres temas se refieren a herramientas que se utilizan en contextos más concretos: variables latentes, datos espacio-temporales, y datos agrupados en jerarquías.