4.1 Distribución normal multivariada
Recordamos primero la distribución normal bivariada. Sean \((X_1,X_2)\) variables aleatorias continuas. Decimos que estas variables tienen distribución normal bivariada con media \((\mu_1,\mu_2)\) y matriz de varianza y covarianza
\[ \Sigma=\left( \begin{array}{cc} \sigma_1^2 & \rho\sigma_1\sigma_2\\ \rho\sigma_1\sigma_2 & \sigma_2^2 \end{array} \right) \]
La función de densidad de \((X_1,X_2)\) está dada por
\[f(x_1,x_2)\propto \exp \left\{- \frac{1}{2}(x_1-\mu_1, x_2-\mu_2)\Sigma^{-1} (x_1-\mu_1, x_2-\mu_2)^t \right\}.\]
Recordamos las siguientes propiedades:
- La marginal de \(X_i\) es normal con media \(\mu_i\) y varianza \(\sigma_1^2\).
- La condicional de \(X_2\) dado \(X_1=x_1\) es normal con media dada por la recta de regresión: \[\mu_2+\rho\frac{\sigma_2}{\sigma_1}(x_1-\mu_1)\] y varianza \((1-\rho^2)\sigma_2^2\).
- Si \(\rho=0\), entonces \(X_1\) y \(X_2\) son independentes.
- La dependencia de \(X_2\) de \(X_1\) sólo se da a través de la media condicional (la varianza de la condicional es fija).
Ahora consideramos \((X_1,\ldots, X_k)\) normal multivariada con media \(\mu\) y matriz de varianza y covarianza \(\Sigma\). \[f(x_1,\ldots,x_k)\propto \exp \left\{ -\frac{1}{2}(x-\mu)^t\Sigma^{-1} (x-\mu) \right\}.\] Si escribimos \(D=\Sigma^{-1}\) (a \(D\) se le llama a veces la matriz de precisión, que es simétrica positiva definida), entonces podemos también escribir la densidad conjunta como (agrupando términos y redefiniendo la constante de proporcionalidad):
\[f(x_1,\ldots,x_k)\propto \exp \left\{ -\frac{1}{2}\sum_{i,j}D_{ij}x_ix_j -\sum_{i} \gamma_i x_i \right\}.\]
Notamos ahora que esta conjunta se expresa naturalmente como un producto de factores donde cada factor depende de dos variables, notamos también que los factores que aparecen dependen de qué coeficientes son iguales a cero de la matriz de precisión \(D\). Según la teoría que hemos visto, si el coeficiente de un factor es cero esto implica que las dos variables correspondientes a dicho factor deben ser condicionalmente independientes dada el resto.
Ejemplo
Estandarizamos las variables y examinamos las correlaciones:
library(bnlearn)
#>
#> Attaching package: 'bnlearn'
#> The following object is masked from 'package:stats':
#>
#> sigma
library(gRim)
#> Loading required package: gRbase
#>
#> Attaching package: 'gRbase'
#> The following objects are masked from 'package:bnlearn':
#>
#> ancestors, children, parents
data(marks)
head(marks)
#> MECH VECT ALG ANL STAT
#> 1 77 82 67 67 81
#> 2 63 78 80 70 81
#> 3 75 73 71 66 81
#> 4 55 72 63 70 68
#> 5 63 63 65 70 63
#> 6 53 61 72 64 73
marks_s <- data.frame(scale(marks, center=TRUE, scale=TRUE))
round(var(marks_s), 2)
#> MECH VECT ALG ANL STAT
#> MECH 1.00 0.55 0.55 0.41 0.39
#> VECT 0.55 1.00 0.61 0.49 0.44
#> ALG 0.55 0.61 1.00 0.71 0.66
#> ANL 0.41 0.49 0.71 1.00 0.61
#> STAT 0.39 0.44 0.66 0.61 1.00
Cuya matriz de precisión es
D <- solve(var(marks_s))
round(D, 2)
#> MECH VECT ALG ANL STAT
#> MECH 1.60 -0.56 -0.51 0.00 -0.04
#> VECT -0.56 1.80 -0.66 -0.15 -0.04
#> ALG -0.51 -0.66 3.04 -1.11 -0.86
#> ANL 0.00 -0.15 -1.11 2.18 -0.52
#> STAT -0.04 -0.04 -0.86 -0.52 1.92
Nótese que existen varios coeficientes cercanos a cero.