Funciones de distancia y discriminante para Análisis discriminante

En este tema

Distancia al cuadrado
Función discriminante lineal
Distancia al cuadrado generalizada
Probabilidad posterior

Distancia al cuadrado

Distancia al cuadrado de Mahalanobis - Forma general

La distancia al cuadrado (también denominada distancia de Mahalanobis) desde la observación x hasta el centro (media) del grupo t para la función discriminante lineal viene dada por la siguiente forma general:

Distancia al cuadrado de Mahalanobis - Función cuadrática

La distancia al cuadrado de Mahalanobis desde x hasta el grupo t para la función discriminante cuadrática se calcula de la siguiente manera:

Distancia al cuadrado generalizada - Función lineal

La distancia al cuadrado generalizada desde x hasta el grupo t para la función discriminante lineal se calcula de la siguiente manera:

Distancia al cuadrado generalizada - Función cuadrática

La distancia al cuadrado generalizada desde x hasta el grupo t para la función discriminante cuadrática se calcula de la siguiente manera:

Probabilidad posterior

La probabilidad posterior de que x pertenezca al grupo t se calcula de la siguiente manera:

Puntuaciones discriminantes lineales

Las puntuaciones discriminantes lineales se calculan de la siguiente manera:

Notación

Término	Description
x	vector de columnas de longitud p que contiene los valores de los predictores para esta observación (este vector de columnas se almacena como una fila)
p	número de predictores
n	número total de observaciones
t	subíndice de grupo
n_t	número de observaciones en el grupo t
q_t	la probabilidad previa del grupo t, que es igual a n_t/n
S_p	matriz de covarianza agrupada para el análisis discriminante lineal
S_i	matriz de covarianza del grupo i para el análisis discriminante cuadrático
m_t	vector de columnas de longitud p que contiene las medias de los predictores calculadas a partir de los datos en el grupo t
S_t	matriz de covarianza del grupo t
\|S_t\|	determinante de S_t

Función discriminante lineal

La función discriminante lineal corresponde a los coeficientes de regresión en la regresión múltiple y se calcula de la siguiente manera:

Para una x dada, esta regla asigna x al grupo con la mayor función discriminante lineal.

Notación

Término	Description
x	vector de columnas de longitud p que contiene los valores de los predictores para esta observación (este vector de columnas se almacena como una fila)
m_i	vector de columnas de longitud p que contiene las medias de los predictores calculadas a partir de los datos en el grupo i
S_p	matriz de covarianza agrupada
ln p_i	logaritmo natural de la probabilidad previa del grupo i

Distancia al cuadrado generalizada

La distancia al cuadrado generalizada se utiliza como la medida de distancia cuadrática y se calcula de la siguiente manera:

Notación

Término	Description
x	vector de columnas de longitud p que contiene los valores de los predictores para esta observación (este vector de columnas se almacena como una fila)
m_i	vector de columnas de longitud p que contiene las medias de los predictores calculadas a partir de los datos en el grupo i
S_p	matriz de covarianza agrupada f
ln p_i	logaritmo natural de la probabilidad previa del grupo i

Probabilidad posterior

La probabilidad posterior es la probabilidad del grupo i dados los datos y se calcula de la siguiente manera:

La probabilidad posterior más grande es equivalente al valor más grande de ln [p_i f_i(x)]

donde (si la distribución es normal):

Notación

Término	Description
p_i	probabilidad previa del grupo i
f_i(x)	la densidad conjunta para los datos en el grupo i (con los parámetros de población sustituidos por las estimaciones de la muestra)