Quels sont les schémas de codage des prédicteurs de catégorie ?

Lorsque vous effectuez une analyse de régression de Poisson, logistique ou des moindres carrés avec des prédicteurs de catégorie, Minitab utilise un schéma de codage pour distinguer les variables indicatrices du prédicteur de catégorie. Le schéma de codage par défaut est 1, 0 (également appelé codage binaire ou par variable indicatrice) est fréquemment utilisé dans les analyses de régression.
  • Avec le codage 1, 0, les coefficients représentent la distance entre les niveaux de facteurs et le niveau de référence.
  • Avec le codage 1, 0, -1, les coefficients représentent la distance entre les niveaux de facteurs et la moyenne globale.
Pour les prédicteurs avec le codage 1, 0, Minitab définit les niveaux de référence suivants par défaut, en fonction du type de données :
  • Pour les prédicteurs de catégorie numériques, le niveau de référence est celui qui a la plus petite valeur numérique.
  • Pour les prédicteurs de catégorie de type date/heure, le niveau de référence est celui ayant la valeur de date/heure la plus ancienne.
  • Pour les prédicteurs de catégorie de type texte, le niveau de référence par défaut est le premier dans l'ordre des valeurs, c'est-à-dire, par défaut, l'ordre alphabétique.
Pour les prédicteurs avec le codage -1, 0, 1, Minitab définit les niveaux de référence suivants par défaut, en fonction du type de données :
  • Pour les prédicteurs de catégorie numériques, le niveau de référence est celui qui a la plus grande valeur numérique.
  • Pour les prédicteurs de catégorie de type date/heure, le niveau de référence est celui ayant la valeur de date/heure la plus importante.
  • Pour les prédicteurs de catégorie de type texte, le niveau de référence est le dernier dans l'ordre alphabétique.

Procédure de modification du schéma de codage

Dans les analyses de régression, y compris la fonction Ajuster le modèle de régression et la fonction Ajuster le modèle logistique binaire, Minitab utilise le codage 1, 0 par défaut. Pour modifier le schéma de codage sur -1, 0, 1, accédez à la sous-boîte de dialogue Codage. Pour Régression par les moindres carrés partiels, vous pouvez modifier le niveau de référence dans la sous-boîte de dialogue Options.

Fonctionnement des schémas de codage

Pour inclure des prédicteurs de catégorie dans votre modèle de régression générale, Minitab code les catégories afin de les inclure dans l'équation de régression. La régression réalise automatiquement cette opération, créant des colonnes pour les prédicteurs de catégorie en fonction du schéma de codage utilisé. Une colonne de codes est créée pour chaque niveau de facteur, à l'exception du niveau de référence. Minitab crée des colonnes et affecte un 1 lorsqu'une ligne appartient au groupe de colonnes. Aucune colonne n'est créée pour le niveau de référence. Pour plus d'informations sur le schéma de codage et la matrice de plan, reportez-vous à à la rubrique Utilisation de la matrice du plan pour la régression dans Minitab.

Les exemples suivants montrent comment les schémas de codage fonctionnent pour un prédicteur de catégorie pour Emplacement avec trois niveaux : Hong Kong, Londres et New York. Si le schéma de codage est -1, 0, 1, le niveau de référence par défaut est New York. Aucune colonne n'est créée pour New York et aucun coefficent pour New York n'apparaît dans la table des coefficients des résultats. Une colonne est créée pour Hong Kong et Londres, et si la ligne d'une colonne correspond à New York (niveau de référence), -1 lui est affecté.

Si l'emplacement est Hong Kong Londres
Hong Kong 1 0
Londres 0 1
New York -1 -1

Si le schéma de codage est 1, 0, le niveau de référence par défaut est Hong Kong, car il est le premier dans l'ordre alphabétique. Aucune colonne n'est créée pour Hong Kong et aucun coefficent pour Hong Kong n'apparaît dans la table des coefficients des résultats. Une colonne est créée pour Londres et New York.

Si l'emplacement est Londres New York
Hong Kong 0 0
Londres 1 0
New York 0 1

Pour plus d'informations sur l'interprétation des coefficients pour un modèle de régression ajustée, reportez-vous à la rubrique Interprétation des prédicteurs de catégorie.

Pour plus d'informations sur l'interprétation des coefficients pour une régression logistique binaire ajustée, reportez-vous à la rubrique Interprétation des coefficients estimés dans une régression logistique binaire.