Méthodes et formules pour la fonction Régression sur les meilleurs sous-ensembles

Méthode de calcul

Pour la régression sur les meilleurs sous-ensembles, Minitab utilise une procédure appelée chemin hamiltonien, qui est une méthode permettant de calculer tous les sous-ensembles de prédicteurs possibles, à raison d'un sous-ensemble par étape. Plus précisément, Minitab calcule l'intégralité des 2**m - 1 sous-ensembles en 2**m - 1 étapes, où m est le nombre de prédicteurs dans le modèle. A chaque étape, Minitab évalue la régression sur un sous-ensemble.

Chaque sous-ensemble du chemin hamiltonien diffère du précédent par l'ajout ou la suppression d'une seule variable. A chaque étape du chemin hamiltonien, l'opérateur de balayage ajoute une variable à la régression ou en retire une, puis calcule le R2 de chaque sous-ensemble.

Équation de régression

Pour un modèle avec plusieurs prédicteurs, l’équation est la suivante :

y = β0 + β1x1 + ... + βkxk + ε

L’équation ajustée est :

Dans la régression linéaire simple, qui n’inclut qu’un seul prédicteur, le modèle est :

y=ß0+ ß1x1+ε

En utilisant des estimations de régression b0 pour ß0, et b1 pour ß1, l’équation ajustée est la suivante :

Équations avec une variable catégorielle

Lorsque vous incluez une variable catégorielle dans un modèle de régression, il y a 2 options pour afficher l’équation de régression :
  • Équation séparée de chaque ensemble de niveaux prédicteurs catégoriels
  • Equation unique
Ces deux options sont équivalentes. Par exemple, supposons que les données aient les variables suivantes :
C1
La variable de réponse
C2
Un prédicteur continu
C3
Une variable prédictive catégorique avec les niveaux Rouge et Bleu
Les équations séparées sont les suivantes :
  • Bleu: C1 = 0,184 + 0,1964*C2
  • Rouge: C1 = 0,011 + 0,1964*C2

Une seule équation utilise une variable indicatrice pour représenter la variable catégorique.

C1 = 0,184 + 0,1964*C2 + 0,0*C3_Bleu - 0,173*C3_Rouge

Dans l’équation unique, C3_Bleu est égal à 1 si l’observation est bleue, et 0 sinon. C3_Rouge est égal à 1 si l’observation est rouge, et 0 sinon. Pour chaque groupe, on substitue la variable indicatrice pour vérifier que l’équation unique est la même que les deux équations distinctes.
  • Observation bleue (C3_Bleu = 1, C3_Rouge = 0) : C1 = 0,184 + 0,1964*C2 + 0,0*1 - 0,173*0 = 0,184 + 0,1964*C2
  • Observation rouge (C3_Bleu = 0, C3_Rouge = 1 : C1 = 0,084 + 0,1964*C2 + 0,0*0 - 0,173*1 = 0,011 + 0,1964*C2

Notation

TermeDescription
yréponse
xkKtrimestre . Chaque terme peut être un prédicteur unique, un terme polynomial ou un terme d’interaction.
ßkkième coefficient de régression de population
εterme d’erreur qui suit une distribution normale avec une moyenne de 0
bkEstimation du kième coefficientde régression de la population
réponse ajustée

R carré

Le R2 est également appelé coefficient de détermination.

Formule

Notation

TermeDescription
yi ie valeur de réponse observée
réponse moyenne
ie réponse ajustée

R carré (ajust)

Notation

TermeDescription
CMCarré moyen
SCSomme des carrés
DLDegrés de liberté

PRESS

Evalue la capacité de prévision de votre modèle et est calculé de la manière suivante :

Notation

TermeDescription
nnombre d'observations
eiie valeur résiduelle
hi

ie élément diagonal de

X (X' X)-1X'

R carré (prév)

Minitab affiche zéro lorsque les calculs de R2 (prév) génèrent des valeurs négatives.

Notation

TermeDescription
yi ie valeur de réponse observée
réponse moyenne
n nombre d'observations
ei ie valeur résiduelle
hi ie élément sur la diagonale de X(X'X)–1X'
X matrice du plan

Cp de Mallows

Notation

TermeDescription
SCEpsomme des carrés de l'erreur pour le modèle examiné
CMEmcarré moyen de l'erreur pour le modèle incluant tous les termes candidats
nnombre d'observations
pnombre de termes dans le modèle, constante incluse

S

Notation

TermeDescription
CA MOY ERRcarré moyen de l'erreur

Log de vraisemblance

Pour les analyses non pondérées, Minitab utilise l'équation suivante :
Pour une analyse où les observations sont pondérées, Minitab utilise l'équation suivante :

Les observations dont la pondération est de 0 ne sont pas dans l'analyse.

Notation

TermeDescription
nnombre d'observations
Rsomme des carrés de l'erreur pour le modèle
wipondération pour l'ie observation

AICc (critère d'information d'Akaike corrigé)

La valeur AICc n'est pas calculée quand .

Notation

TermeDescription
nnombre d'observations
pnombre de coefficients dans le modèle, constante incluse

BIC (critère d'information bayésien)

Notation

TermeDescription
pnombre de coefficients dans le modèle, constante incluse
nnombre d'observations

Conditionnement

Notation

TermeDescription
Cconditionnement
λmaximum valeur propre maximale issue de la matrice de corrélation des termes du modèle, sans inclure la valeur à l'origine
λminimum valeur propre minimale issue de la matrice de corrélation des termes du modèle, sans inclure la valeur à l'origine