Schémas de codage des prédicteurs de catégorie

Lorsque vous effectuez une analyse de régression avec des prédicteurs de catégorie, Minitab utilise un schéma de codage pour distinguer les variables indicatrices du prédicteur de catégorie. Avec des modèles plus complexes, leur interprétation est similaire. Cela dit, si vous ajoutez une covariable ou que chaque groupe possède des effectifs d'échantillon inégaux, les coefficients sont basés sur les moyennes pondérées de chaque niveau de facteur plutôt que sur la moyenne arithmétique (somme des observations divisée par n). En règle générale, l'interprétation est identique, toutefois :
  • Avec le codage 1, 0, les coefficients représentent la distance entre les niveaux de facteurs et leur niveau de référence.
  • Avec le codage 1, 0, -1, les coefficients représentent la distance entre les niveaux de facteurs et la moyenne globale.

Par défaut, Minitab utilise le schéma de codage (1, 0) pour la régression, mais vous pouvez choisir le schéma de codage (-1, 0, +1) à la place dans la sous-boîte de dialogue Codage. Pour plus d'informations, reportez-vous à la rubrique Schémas de codage des prédicteurs de catégorie.

Interprétation des schémas de codage pour les modèles à un facteur

Données pour les exemples à un facteur

Tout d'abord, prenons l'exemple d'un plan équilibré à un facteur possédant trois niveaux pour le facteur.

C1 sC2 - T
Réponse Facteur
1 A
3 A
2 A
2 A
4 B
6 B
3 B
5 B
8 C
9 C
7 C
10 C

Statistiques descriptives pour les exemples à un facteur

Examinez les statistiques descriptives, en vous intéressant particulièrement aux moyennes.

Statistiques descriptives : Réponse

Statistiques Dénombrement Variable total Moyenne Réponse 12 5,000

Statistiques descriptives : Réponse

Statistiques Dénombrement Variable Facteur total Moyenne Réponse A 4 2,000 B 4 4,500 C 4 8,500

Exemple d'interprétation du schéma de codage pour un modèle des moyennes des cellules (0, 1) à un facteur

Pour obtenir les résultats, procédez comme suit :
  1. Sélectionnez Stat > Régression > Régression > Ajuster le modèle de régression.
  2. Dans la zone Réponses, saisissez Réponse.
  3. Dans la zone Prédicteurs de catégorie, saisissez Facteur.
  4. Cliquez sur Codage. Sous Niveau de référence, sélectionnez C.
  5. Cliquez sur OK dans chaque boîte de dialogue.

Analyse de régression : Réponse en fonction de Facteur

Coefficients Valeur Valeur Terme Coeff Coef ErT de T de p FIV Constante 8,500 0,577 14,72 0,000 Facteur A -6,500 0,816 -7,96 0,000 1,33 B -4,000 0,816 -4,90 0,001 1,33
Analyse de la variance SomCar Valeur Source DL ajust CM ajust Valeur F de p Régression 2 86,00 43,000 32,25 0,000 Facteur 2 86,00 43,000 32,25 0,000 Erreur 9 12,00 1,333 Total 11 98,00
Souvenez-vous que les moyennes des niveaux de facteurs sont les suivants :
  • A = 2,0
  • B = 4,5
  • C = 8,5

L'équation de régression estimée est la suivante :

Analyse de régression : Réponse en fonction de Facteur

Equation de régression Réponse = 8,500 - 6,500 Facteur_A - 4,000 Facteur_B + 0,0 Facteur_C

Le niveau C est la référence et a par conséquent un coefficient de 0. Si vous n'étudiez qu'un seul facteur, l'ordonnée à l'origine est égale à la moyenne du niveau de référence.

Le coefficient correspondant au niveau A est -6,5. Il s'agit de la différence entre le niveau A et le niveau de référence. Si vous prenez le coefficient pour A et que vous y ajoutez l'ordonnée à l'origine (ou la moyenne de référence), vous obtenez la moyenne pour le niveau A : -6,5 + 8,5 = 2,0

De même, le coefficient correspondant au niveau B est -4,0. Il s'agit de la différence entre le niveau B et le niveau de référence. Si vous prenez le coefficient pour le niveau B et que vous y ajoutez l'ordonnée à l'origine, vous obtenez la moyenne pour le niveau B : -4,0 + 8,5 = 4,5

Exemple d'interprétation du schéma de codage pour un modèle des effets de facteurs (-1, 0, +1) à un facteur

Pour obtenir le résultat suivant, procédez comme suit :
  1. Sélectionnez Stat > Régression > Régression > Ajuster le modèle de régression.
  2. Dans la zone Réponses, saisissez Réponse.
  3. Dans la zone Prédicteurs de catégorie, saisissez Facteur.
  4. Cliquez sur Codage. Sous Codage pour les prédicteurs de catégorie, sélectionnez (-1, 0, +1).
  5. Cliquez sur OK dans chaque boîte de dialogue.

Analyse de régression : Réponse en fonction de Facteur

Analyse de variance SomCar Valeur Source DL ajust CM ajust Valeur F de p Régression 2 86,00 43,000 32,25 0,000 Facteur 2 86,00 43,000 32,25 0,000 Erreur 9 12,00 1,333 Total 11 98,00
Coefficients Valeur Valeur Terme Coeff Coef ErT de T de p FIV Constante 5,000 0,333 15,00 0,000 Facteur A -3,000 0,471 -6,36 0,000 1,33 B -0,500 0,471 -1,06 0,316 1,33
Souvenez-vous de la moyenne globale et des moyennes de niveaux de facteurs :
  • Moyenne globale = 5,0
  • A = 2,0
  • B = 4,5
  • C = 8,5

L'équation de régression est la suivante :

Analyse de régression : Réponse en fonction de Facteur

Equation de régression Réponse = 5,000 - 3,000 Facteur_A - 0,500 Facteur_B + 3,500 Facteur_C
L'effet pour tout niveau de facteur spécifique est le suivant : Moyenne de niveau - Moyenne globale. Ainsi :
  • Effet niveau A = 2,0 - 5,0 = -3,0
  • Effet niveau B = 4,5 - 5,0 = -0,5
  • Effet niveau C = 8,5 - 5,0 = 3,5

L'ordonnée à l'origine est la moyenne globale.

Le coefficient pour A est l'effet pour le niveau de facteur A. Il s'agit de la différence entre la moyenne du niveau A et la moyenne globale.

Le coefficient pour B est l'effet pour le niveau de facteur B. Il s'agit de la différence entre la moyenne du niveau B et la moyenne globale.

Vous pouvez obtenir l'importance de l'effet du niveau C en ajoutant tous les coefficients (à l'exclusion de l'ordonnée à l'origine) et en les multipliant par une valeur de 1 négative : -1 * [(-3,0) + (-0,5)] = 3,5

Vous pouvez obtenir les moyennes des niveaux en prenant l'effectif de l'échantillon et en y ajoutant la moyenne globale :
  • Moyenne du niveau A = coefficient pour A + ordonnée à l'origine = -3,0 + 5,0 = 2,0
  • Moyenne du niveau B = coefficient pour B + ordonnée à l'origine = -0,5 + 5,0 = 4,5
  • Moyenne du niveau C = ordonnée à l'origine - coefficient pour A - coefficient pour B = 5,0 - (-3,0) - (-0,5) = 5,0 + 3,0 + 0,5 = 8,5

Interprétation des schémas de codage pour le cas à deux facteurs

Données pour les exemples à deux facteurs

Prenons à présent pour exemple un plan équilibré à deux facteurs possédant trois niveaux pour le premier facteur et deux niveaux pour le deuxième facteur.

C1 sC2 - T sC3 - T
Réponse Facteur 1 Facteur 2
1 A Elevée
3 A Faible
2 A Elevée
2 A Faible
4 B Elevée
6 B Faible
3 B Elevée
5 B Faible
8 C Elevée
9 C Faible
7 C Elevée
10 C Faible

Statistiques descriptives pour les exemples à deux facteurs

Examinez les statistiques descriptives, en vous intéressant particulièrement aux moyennes.

Tableau de statistiques : Facteur 1; Facteur 2

Lignes : Facteur 1 Colonnes : Facteur 2 Elevé Faible Total A 1,500 2,500 2,000 B 3,500 5,500 4,500 C 7,500 9,500 8,500 Total 4,167 5,833 5,000 Contenu de la cellule Réponse : Moyenne

Exemple d'interprétation du schéma de codage pour un modèle des moyennes des cellules (0, 1) à deux facteurs

Pour obtenir le résultat suivant, procédez comme suit :
  1. Sélectionnez Stat > Régression > Régression > Ajuster le modèle de régression.
  2. Dans la zone Réponses, saisissez Réponse.
  3. Dans la zone Prédicteurs de catégorie, saisissez Facteur 1 et Facteur 2.
  4. Cliquez sur Codage. Sous Codage pour les prédicteurs de catégorie, sélectionnez (1, 0).
  5. Sous Niveau de référence, sélectionnez C pour Facteur 1 et Faible pour Facteur 2.
  6. Cliquez sur OK dans chaque boîte de dialogue.

Analyse de régression : Réponse en fonction de Facteur 1; Facteur 2

Coefficients Valeur Valeur Terme Coeff Coef ErT de T de p FIV Constante 9,333 0,391 23,88 0,000 Facteur 1 A -6,500 0,479 -13,58 0,000 1,33 B -4,000 0,479 -8,36 0,000 1,33 Facteur 2 Elevé -1,667 0,391 -4,26 0,003 1,00
Analyse de la variance SomCar Valeur Source DL ajust CM ajust Valeur F de p Régression 3 94,3333 31,4444 68,61 0,000 Facteur 1 2 86,0000 43,0000 93,82 0,000 Facteur 2 1 8,3333 8,3333 18,18 0,003 Erreur 8 3,6667 0,4583 Inadéquation de l'ajustement 2 0,6667 0,3333 0,67 0,548 Erreur pure 6 3,0000 0,5000 Total 11 98,0000
Souvenez-vous que les moyennes des niveaux de facteurs sont les suivants :
  • A = 2,0
  • B = 4,5
  • C = 8,5

L'équation de régression estimée est la suivante :

Analyse de régression : Réponse en fonction de Facteur 1; Facteur 2

Equation de régression Réponse = 9,333 - 6,500 Facteur 1_A - 4,000 Facteur 1_B + 0,0 Facteur 1_C - 1,667 Facteur 2_Elevé + 0,0 Facteur 2_Faible

Le coefficient correspondant au niveau A est toujours -6,5. Il s'agit encore de la distance entre le niveau A et le niveau de référence (niveau C). Si vous prenez la moyenne du niveau A et que vous y soustrayez la moyenne du niveau de référence, vous obtenez le coefficient : 2 - 8,5 = -6,5.

De même, le coefficient correspondant au niveau B est encore -4,0. Il s'agit de la distance entre le niveau B et le niveau de référence pour le facteur 1. Si vous prenez la moyenne du niveau B et que vous y soustrayez la moyenne du niveau de référence, vous obtenez le coefficient : 4,5 - 8,5 = -4,0.

Enfin, le coefficient correspondant au niveau Elevée du facteur 2 est la distance entre la valeur "Elevée" et la valeur de référence du facteur 2 (Faible). Par conséquent, si vous prenez la moyenne du niveau Elevée et que vous y soustrayez la moyenne du niveau de référence du facteur 2, vous obtenez le coefficient : 4,1667 – 5,8333 = -1,667.

Exemple d'interprétation du schéma de codage pour un modèle des effets de facteurs (-1, 0, +1) à deux facteurs

Pour obtenir le résultat suivant, procédez comme suit :
  1. Sélectionnez Stat > Régression > Régression > Ajuster le modèle de régression.
  2. Dans la zone Réponses, saisissez Réponse.
  3. Dans la zone Prédicteurs de catégorie, saisissez Facteur 1 et Facteur 2.
  4. Cliquez sur Codage. Sous Codage pour les prédicteurs de catégorie, sélectionnez (-1, 0, +1).
  5. Cliquez sur OK dans chaque boîte de dialogue.

Analyse de régression : Réponse en fonction de Facteur 1

Analyse de variance SomCar Valeur Source DL ajust CM ajust Valeur F de p Régression 2 86,00 43,000 32,25 0,000 Facteur 1 2 86,00 43,000 32,25 0,000 Erreur 9 12,00 1,333 Total 11 98,00
Coefficients Valeur Valeur Terme Coeff Coef ErT de T de p FIV Constante 5,000 0,333 15,00 0,000 Facteur 1 A -3,000 0,471 -6,36 0,000 1,33 B -0,500 0,471 -1,06 0,316 1,33

Notez qu'avec ce schéma de codage, les coefficients sont toujours identiques à ceux du modèle à un facteur. Vous disposez à présent d'un coefficient supplémentaire pour le deuxième facteur.

Prenons à présent pour exemple la moyenne globale et les moyennes de niveaux de facteurs :
  • Moyenne globale = 5,0
  • A = 2,0
  • B = 4,5
  • C = 8,5
  • Elevée = 4,1667
  • Faible = 5,8333

L'équation de régression est la suivante :

Analyse de régression : Réponse en fonction de Facteur 1

Equation de régression Réponse = 5,000 - 3,000 Facteur 1_A - 0,500 Facteur 1_B + 3,500 Facteur 1_C
L'effet pour tout niveau de facteur spécifique est le suivant : Moyenne de niveau - Moyenne globale. Ainsi :
  • Effet niveau A = 2,0 - 5,0 = -3,0
  • Effet niveau B = 4,5 - 5,0 = -0,5
  • Effet niveau C = 8,5 - 5,0 = 3,5
  • Effet niveau Elevée = 4,1667 - 5,0 = -0,883
  • Effet niveau Faible = 5,8333 - 5,0 = 0,883
Remarque

Lorsqu'un facteur n'a que deux niveaux et que les effectifs d'échantillons sont égaux, l'effet des niveaux sera égal en magnitude car la moyenne se trouve exactement au milieu.

L'ordonnée à l'origine est la moyenne globale.

Les coefficients correspondent à l'effet de chaque niveau de facteur. Ils représentent la différence entre la moyenne de ce niveau et la moyenne globale.