Distance et fonctions discriminantes pour la fonction Analyse discriminante

Sur ce thème

Distance quadratique
Fonction discriminante linéaire
Distance quadratique généralisée
Probabilité a posteriori

Distance quadratique

Distance quadratique de Mahalanobis - Formule générale

La distance quadratique (également appelée la distance de Mahalanobis) entre l'observation x et le centre (moyenne) du groupe t pour la fonction discriminante linéaire est donnée par la formule générale suivante :

Distance quadratique de Mahalanobis - Fonction quadratique

La distance quadratique de Mahalanobis séparant x du groupe t pour la fonction discriminante quadratique est calculée comme suit :

Distance quadratique généralisée - Fonction linéaire

La distance quadratique généralisée séparant x du groupe t pour la fonction discriminante linéaire est calculée comme suit :

Distance quadratique généralisée - Fonction quadratique

La distance quadratique généralisée séparant x du groupe t pour la fonction discriminante quadratique est calculée comme suit :

Probabilité a posteriori

La probabilité a posteriori pour x appartenant au groupe t se calcule comme suit :

Scores discriminants linéaires

Les scores discriminants linéaires sont calculés comme suit :

Notation

Terme	Description
x	vecteur de colonne de longueur p contenant les valeurs des prédicteurs pour cette observation (ce vecteur de colonne est stocké en tant que ligne)
p	nombre de prédicteurs
n	nombre total d'observations
t	indice de groupe
n_t	nombre d'observations dans le groupe t
q_t	probabilité a priori du groupe t, égale à n_t/n
S_p	matrice de covariance groupée de l'analyse discriminante linéaire
S_i	matrice de covariance du groupe i de l'analyse discriminante quadratique
m_t	vecteur de colonne de longueur p contenant les moyennes des prédicteurs calculées à partir des données du groupe t
S_t	matrice de covariance du groupe t
\|S_t\|	déterminant de S_t

Fonction discriminante linéaire

La fonction discriminante linéaire correspond aux coefficients de régressions multiples. Elle est calculée comme suit :

Pour une valeur x donnée, cette règle affecte x au groupe ayant la plus grande fonction discriminante linéaire.

Notation

Terme	Description
x	vecteur de colonne de longueur p contenant les valeurs des prédicteurs pour cette observation (ce vecteur de colonne est stocké en tant que ligne)
m_i	vecteur de colonne de longueur p contenant les moyennes des prédicteurs calculées à partir des données du groupe i
S_p	matrice de covariance groupée
ln p_i	logarithme népérien de la probabilité a priori du groupe i

Distance quadratique généralisée

La distance quadratique généralisée est utilisée en tant que mesure de la distance quadratique ; elle est calculée comme suit :

Notation

Terme	Description
x	vecteur de colonne de longueur p contenant les valeurs des prédicteurs pour cette observation (ce vecteur de colonne est stocké en tant que ligne)
m_i	vecteur de colonne de longueur p contenant les moyennes des prédicteurs calculées à partir des données du groupe i
S_p	matrice de covariance groupée f
ln p_i	logarithme népérien de la probabilité a priori du groupe i

Probabilité a posteriori

La probabilité a posteriori est la probabilité du groupe i d'après les données ; elle se calcule comme suit :

La probabilité a posteriori la plus grande est équivalente à la plus grande valeur de ln [p_i f_i(x)]

où (si la loi est normale) :

Notation

Terme	Description
p_i	probabilité a priori du groupe i
f_i(x)	densité jointe pour les données du groupe i (les paramètres de population étant remplacés par les estimations de l'échantillon)