6.2 Variables latentes

Un caso importante de datos faltantes es cuando una variable está totalmente censurada. Esto puede suceder por dos razones:

  • Alguna variable claramente importante está totalmente censurada (por ejemplo, peso en un estudio de consumo de calorías).

  • Cuando buscamos añadir estructura a nuestro modelo para simplificar su estimación, interpretación o forma. Por ejemplo: hacer grupos de actitudes ante la comida y el ejercicio para explicar con una sola variable el consumo de comida chatarra (por ejemplo, análisis de factores).

En estos casos, estas variables se llaman variables latentes, pues consideramos que tienen un efecto que observamos a través de otras variables, pero no podemos observar directamente los valores de esta variable.

¿Cuál es el supuesto apropiado acerca de este tipo de valores censurados (variables latentes)?

  1. MCAR
  2. MAR
  3. MNAR
  4. Ninguno de estos

La siguiente tabla es una clasificación de los modelos de variable latente de acuerdo a la métrica de las variables latentes y observadas.

Latentes/Observadas Métricas Categóricas
Métricas Análisis de factores (FA) Modelos de rasgos latentes (LTM)
Categóricas Modelos de perfiles latentes (LPM) Modelos de clases latentes (LCM)

6.2.1 Modelos de perfiles latentes: Mezcla de normales

El ejemplo más clásico de variables latentes es el de mezcla de normales.

Ejemplo. Modelo de mezcla de dos normales. Consideremos los siguientes datos:

Estos datos tienen una estructura bimodal. Es poco apropiado modelar estos datos con un modelo normal (μ,σ2).

Podemos entonces modelar pensando que los datos vienen de dos clases, cada una con una distribución normal pero con distintos parámetros. ¿Cómo ajustaríamos tal modelo?

La variable aleatoria X es una mezcla de normales si p(x)=k=1Kπkϕθk(x) donde ϕθk es una densidad normal con parámetros θk=(μk,σk) y los ponderadores de la mezcla πk satisfacen iπi=1

Ahora, si vemos la mezcla Gaussiana desde la representación generativa, o formulación en variable latente, tenemos el modelo gráfico Δ -> X donde Δ es una indicadora de clase. En el caso del modelo de dos clases tenemos δ{0,1} y sea P(δ=1)=π, escribimos la conjunta p(δ,x)=πδ(1π)1δ[δϕθ1(x)+(1δ)ϕθ2(x)]

y podemos verificar que la distribución marginal es una mezcla gaussiana: p(x)δp(x|δ)p(δ) =ϕθ1(x)π+ϕθ2(x)(1π)

Ahora, si conocieramos la clase a la que pertenece cada observación (δi) podríamos escribir la log-verosimilitud completa (sin censura) como i=1Nlog(δiϕθ1(xi)+(1δi)ϕθ2(xi))+δilogπ+(1δi)log(1π).

Aquí, es fácil ver que la verosimilitud se separa en dos partes, una para δi=1 y otra para δi=0, y los estimadores de máxima verosimilitud son entonces:

μ^1=iδixii(δi) μ^2=i(1δi)xii(1δi)

σ^12=iδi(xiμ1)2i(δi) σ^22=i(1δi)(xiμ2)2i(1δi),

y π^ es la proporción de casos tipo 1 en los datos. Este problema es entonces trivial de resolver.

En el caso de variables latentes δi están censuradas y tenemos que marginalizar con respecto a δi, resultando en:

i=1Nlog(πϕθ1(xi)+(1π)ϕθ2(xi)).

donde π es la probabilidad de que la observación venga de la primera densidad. Este problema es más difícil pues tenemos tanto π como θ1 y θ2 dentro del logaritmo. Podemos resolver numéricamente como sigue:

Y vemos que hemos podido recuperar los parámetros originales.

Ahora implementamos EM para resolver este problema. Empezamos con la log-verosimilitud para datos completos (que reescribimos de manera más conveniente): i=1Nδilogϕθ1(xi)+(1δi)logϕθ2(xi)+δilogπ+(1δi)log(1π).

Tomamos valores iniciales para los parámetros μ^1,μ^2,σ^12,σ^22,π^ y comenzamos con el paso Esperanza promediando sobre las variables aleatorias, que en este caso son las δi. Calculamos entonces γ^i=Eθ^(δi|xi)=P(δi=1|xi), y usamos bayes para expresar en términos de los parámetros: γ^i=π^ϕθ1^π^ϕθ1^(xi)+(1π^)ϕθ2^(xi)

γ^i se conocen como la responsabilidad del modelo 1 para explicar la i-ésima observación.

Utilizando estas asignaciones de los faltantes pasamos al paso Maximización, donde la función objetivo es: i=1Nγ^ilogϕθ1(xi)+(1γ^i)logϕθ2(xi)+γ^ilogπ+(1γ^i)log(1π).

La actualización de π es fácil:

π^=1Niγi.

y se puede ver sin mucha dificultad que

μ^1=iγ^ixiiγ^i μ^2=i(1γ^i)xii(1γ^i)

σ^12=iγ^i(xiμ1)2iγ^i σ^22=i(1γ^i)(xiμ2)2i(1γ^i),

Implementa EM para el ejemplo de mezcla de normales.