7.3 Algoritmo hacia adelante-hacia atrás (forward-backward)

Utilizamos el algoritmo forward-backward para calcular ${\hat{γ}}_{i j}$ y ${\hat{δ}}_{j}$ . Recordemos que

$\begin{aligned} {\hat{δ}}_{j} & = P (S_{t} = j | x) = \frac{P (x, S_{t} = j)}{P (x)} \\ {\hat{γ}}_{i j} & = P (S_{t - 1} = i, S_{t} = j | x) = \frac{P (x, S_{t - 1} = i, S_{t} = j)}{P (x)} \end{aligned}$

El cálculo de cada una de las probabilidades de arriba es computacionalmente intensivo, por ejemplo para calcular $P (x)$ :

$P (x) = \sum_{S} p_{s_{1}} (x_{1}) p_{s_{1}, s_{2}} p_{s_{2}} (x_{2}) \dots p_{s_{T - 1}, s_{T}} p_{s_{T}} (x_{T})$

donde $S$ son las combinaciones de posibles estados ( $M^{T}$ posibilidades) por tanto esta aproximación no es factible. Es por esto que surge la necesidad de un algoritmo más eficiente.

El algoritmo hacia adelante-hacia atrás usa el principio de programación dinámica(recursión inteligente) para calcular ${\hat{γ}}_{i j}$ y ${\hat{δ}}_{j}$ en tiempo lineal ( $M^{2} T$ ), consta de dos pasos y explota las independencias condicionales del modelo.

Probabilidad hacia adelante

Definimos la probabilidad hacia adelante $α_{i} (t)$ como la probabilidad conjunta de observar las primeras $t$ observaciones $x^{j}$ ( $j = 1, . . ., t$ ) y siendo $i$ el estado al tiempo $t$ :

$α_{i} (t) = P (X_{1} = x_{1}, . . ., X_{T} = x_{t}, S_{t} = i)$

La probabilidad se puede evaluar de manera recursiva siguiendo la fórmula:

$α_{i} (1) = π_{k} p_{i} (x_{1})$ para $i = 1, . . ., M$
$α_{i} (t) = p_{i} (x_{t}) \sum_{j = 1}^{M} α_{j} (t - 1) p_{j, i}$ para $t = 2, . . ., T$ e $i = 1, . . ., M$ .

Prueba:

La idea clave es usar $(S_{t}, X_{t}) ⊥ (X_{1}, . . ., X_{t - 1}) | S_{t - 1}$ $\begin{aligned} α_{i} (t) & = P (x_{1}, . . ., x_{t}, S_{t} = i) \\ = \sum_{j = 1}^{M} P (x_{1}, . . ., x_{t}, S_{t} = i, S_{t - 1} = j) \\ = \sum_{j = 1}^{M} P (x_{1}, . . ., x_{t - 1}, S_{t - 1} = j) P (x_{t} | S_{t} = i) P (S_{t} = 1 | S_{t - 1} = j) \\ = \sum_{j = 1}^{M} α_{j} (t - 1) p_{i} (x_{t}) p_{j, i} \end{aligned}$

Probabilidad hacia atrás

Definimos la probabilidad hacia atrás $β_{i} (t)$ como la probabilidad condicional de las observaciones posteriores al tiempo $t$ ( $x_{t + 1}, . . ., x_{T}$ ) dado que el estado al tiempo $t$ es $i$ .

$β_{i} (t) = P (x_{t + 1}, . . ., x_{T} | S_{t} = i)$ para $t = 1, . . . T - 1$ .

La recursión de la probabilidad hacia atrás se evalúa como:

$β_{i} (T) = 1$ , para $i = 1, . . ., M$ .
$β_{i} (t) = \sum_{i = 1}^{M} p_{i, j} p_{j} (x_{t + 1}) β_{i} (t + 1)$ para $t = 1, . . ., T - 1$ .

Prueba:

La idea clave es usar $X_{t + 1} ⊥ (X_{t + 2}, . . ., X_{T}) | S_{t + 1}$

$\begin{aligned} β_{i} (t) & = P (x_{t + 1}, . . ., x_{T} | S_{t} = i) \\ = \sum_{j = 1}^{M} P (x_{t + 1}, . . ., x_{T}, S_{t + 1} = j | S_{t} = i) \\ = \sum_{j = 1}^{M} P (S_{t + 1} = j | S_{t} = i) P (x_{t + 1}, . . ., x_{T} | S_{t + 1} = j) \\ = \sum_{j = 1}^{M} p_{i, j} P (x_{t + 1}, . . ., x_{T} | S_{t + 1} = j) \\ = \sum_{j = 1}^{M} p_{i, j} P (x_{t + 1} | S_{t + 1} = j) P (x_{t + 2}, . . ., x_{T} | s_{t + 1} = j) \\ = \sum_{j = 1}^{M} p_{i, j} p_{j} (x_{t + 1}) β_{j} (t + 1) \end{aligned}$

Escribimos $δ$ y $γ$

Ahora vemos como escrbir $δ_{j}$ y $γ_{i, j}$ usando las probabilidades hacia adelante y hacia atrás:

$\begin{aligned} {\hat{δ}}_{j} (t) & = P (S_{t} = j | x) \\ = \frac{P (x, S_{t} = j)}{P (x)} \\ = \frac{α_{j} (t) β_{j} (t)}{\sum_{i = 1}^{M} α_{i} (T)} \end{aligned}$

Prueba: $\begin{aligned} P (x_{1}, . . ., x_{T}, S_{t} = j) & = P (x_{1}, . . ., x_{t}, S_{t} = j) P (x_{t + 1}, . . ., x_{T} | S_{t} = j) \\ = α_{j} (t) β_{j} (t) \end{aligned}$

Para el denominador notemos que:

$\begin{aligned} P (x) & = \sum_{i}^{M} P (x, S_{t} = i) \\ = \sum_{i = 1}^{M} α_{i} (t) β_{i} (t) \end{aligned}$ esto se cumple para cualquier $t$ , así que si tomamos $t = T$ :

$P (x) = \sum_{i = 1}^{M} α_{i} (T)$

En el caso de $γ_{i, j}$ tenemos:

$\begin{aligned} {\hat{γ}}_{i j} & = P (S_{t - 1} = i, S_{t} = j | x) \\ = \frac{P (x, S_{t - 1} = i, S_{t} = j)}{P (x)} \\ = \frac{α_{i} (t - 1) β_{j} (t) p_{i, j} p_{j} (x_{t})}{P (x)} \end{aligned}$

Prueba: $\begin{aligned} P (x_{1}, . . ., x_{T}, S_{t - 1} = i, S_{t} = j) & = P (x_{1}, . . ., x_{t - 1}, S_{t - 1} = i) P (x_{t + 1}, . . ., X_{T} | S_{t} = j) P (S_{t} = j | S_{t - 1} = i) P (x_{t} | S_{t} = j) \\ = α_{i} (t - 1) β_{j} (t) p_{i, j} p_{j} (x_{t}) \end{aligned}$

7.3.1 Resumen de algoritmo de estimación

Entonces, el algoritmo de estimación itera de la siguiente manera:

Comenzamos con valores inciales ${\hat{δ}}_{j}$ y ${\hat{γ}}_{i j}$ .
Actualizamos los parámetros ${\hat{p}}_{i j} = \frac{{\hat{γ}}_{i j}}{\sum_{l} {\hat{γ}}_{i l}}$ y los correspondientes a las densidades $p_{j} (x)$ .
Utilizando el conjunto de parámetros actuales ( ${\hat{p}}_{i j}$ y los correspondientes a $p_{j} (x)$ ) calculamos ${\hat{δ}}_{j}$ y ${\hat{γ}}_{i j}$ a través del algoritmo hacia adelante-hacia atrás.
Iteramos entre 2 y 3.

7.3.2 Algoritmo de Viterbi

En muchas de las aplicaciones de HMM nos interesa hacer inferencia de la secuencia de estados ${S_{1}, . . ., S_{T}}$ , en este caso el criterio de optimización es:

$M A P (S | x) = a r g m a x_{s} P (S | x) = a r g m a x_{s} P (S, x)$

Aqui estamos buscando el camino más probable. Si consideramos un algoritmo de fuerza bruta, esto es, realizamos búsqueda exahustiva sobre todas las posibles secuencias tendríamos que considerar $M^{T}$ casos. Es por ello que nuevamente recurrimos a un algoritmo de programación dinámica.