Interpréter toutes les statistiques pour Régression logistique nominale

Obtenez des définitions et bénéficiez de conseils en matière d'interprétation pour chaque statistique fournie avec l'analyse de régression logistique nominale.

Informations de réponse

Minitab affiche les informations suivantes sur la réponse :
Variable
Nom de la variable de réponse
Valeur
Niveaux de la variable de réponse
Dénombrement
Nombre d'observations à chaque niveau de la variable de réponse
Total
Nombre d'observations présentes

Le résultat identifie également le niveau de la réponse qui représente l'événement de référence.

Interprétation

Utilisez les informations de réponse pour étudier le nombre de données présentes dans l'analyse. Les grands échantillons aléatoires avec de nombreuses occurrences de chaque niveau fournissent généralement des inférences plus précises sur la population.

Utilisez également les informations de réponse pour déterminer l'événement de référence. L'interprétation des statistiques comme les coefficients et les rapports des probabilités de succès dépend de l'événement désigné comme événement de référence.

Informations sur les facteurs

Le tableau des informations sur les facteurs contient les facteurs du plan, les nombres de niveaux et les valeurs des niveaux. Les facteurs n'admettent qu'un nombre limité de valeurs possibles, connues sous le nom de niveaux de facteurs. Les niveaux de facteurs peuvent être de type numérique ou texte. Les facteurs numériques utilisent quelques valeurs contrôlées dans l'expérience, même si de nombreuses valeurs sont possibles.

Interprétation

Utilisez le tableau des informations sur les facteurs pour connaître le nombre de niveaux dans l'analyse. Par exemple, un analyste de la qualité prévoit d'étudier les facteurs susceptibles d'influer sur la résistance du plastique durant le processus de fabrication. L'analyste inclut le facteur Additif. L'additif est une variable de catégorie, qui peut être de type A ou B.

Informations sur les facteurs

FacteurNiveauxValeurs
Additif2A; B

Les facteurs peuvent être croisés ou emboîtés. Comme chaque niveau d'un des facteurs agit de manière couplée avec chaque niveau de l'autre facteur, ces facteurs sont croisés. On parle de facteurs emboîtés lorsqu'un ensemble de niveaux d'un facteur apparaît à un seul niveau d'un deuxième facteur. Par exemple, si un plan contient les facteurs Machine et Opérateur, ces facteurs sont croisés si tous les opérateurs utilisent toutes les machines. Cependant, le facteur Opérateur est emboîté dans le facteur Marchine si chaque machine a un ensemble différent d'opérateurs.

Dans le tableau des informations sur les facteurs, les parenthèses indiquent les facteurs emboîtés. Par exemple, Standard(Contrôleur) signifie que le facteur Standard est emboîté dans le facteur Contrôleur. Dans ce contexte, l'emboîtement indique que chaque contrôleur dispose de son propre ensemble de pièces standard. Les niveaux d'un facteur emboîté sont répétés pour chaque niveau d'emboîtement, ce qui augmente le nombre de niveaux pour le facteur emboîté. Dans cet exemple, chaque contrôleur possède 5 pièces standard, mais le facteur Standard a 20 niveaux différents, car il est emboîté dans le facteur Contrôleur.

Informations sur les facteurs

FacteurNiveauxValeurs
Standard(Contrôleur)201(Amanda); 2(Amanda); 3(Amanda); 4(Amanda); 5(Amanda);
1(Brigitte); 2(Brigitte); 3(Brigitte); 4(Brigitte);
5(Brigitte); 1(Eric); 2(Eric); 3(Eric); 4(Eric); 5(Eric);
1(Michel); 2(Michel); 3(Michel); 4(Michel); 5(Michel)
Contrôleur4Amanda; Brigitte; Eric; Michel

Pour plus d'informations sur les facteurs, consultez les rubriques Facteurs et niveaux de facteurs, Que sont les facteurs, les facteurs croisés et les facteurs emboîtés ? et Quelle est la différence entre les facteurs fixes et aléatoires ?.

Coeff

L'équation logistique nominale traite chaque résultat nominal séparément. L'équation de régression logistique comprend plusieurs fonctions logit, une pour chaque valeur de la réponse moins un. Chaque équation possède une pente unique pour les prédicteurs. Ces équations évaluent la manière dont la probabilité d'un résultat nominal varie par rapport à un autre résultat nominal lorsque les variables de prédiction sont modifiées.

Interprétation

Utilisez les coefficients pour examiner la variabilité de la probabilité d'un résultat en fonction des modifications de variables de prédicteur. Le coefficient estimé d'un prédicteur représente la variation de la fonction de liaison pour chaque variation d'unité dans le prédicteur, tous les autres prédicteurs dans le modèle étant maintenus constants. La relation entre le coefficient et la probabilité d'un résultat dépend de divers aspects de l'analyse, tels que le résultat de référence pour la variable de réponse et les niveaux de référence pour les prédicteurs de catégorie. Généralement, les coefficients positifs rendent le résultat de référence moins probable lorsque le prédicteur augmente. Les coefficients négatifs rendent le résultat de référence plus probable lorsque le prédicteur augmente. Un coefficient estimé proche de 0 implique que l'effet du prédicteur est faible.

Par exemple, la directrice d'une école souhaite évaluer différentes méthodes d'enseignement. Elle utilise l'âge et la méthode d'enseignement pour prévoir les sujets préférés par les élèves. Le premier événement de résultat arrive en tête du tableau des informations de réponse et représente le résultat de référence pour la variable de réponse. Pour ces données, le résultat de référence indique que l'élève préfère la science. Logit 1 compare la probabilité qu'un étudiant préfère les maths à la science. Dans cette équation, la valeur de p pour le coefficient de l'âge est supérieure à 0,7. Une valeur de p aussi élevée suggère que l'âge a un peu d'effet sur la préférence d'un élève entre les maths et la science.

Logit 2 compare les arts à la science. Dans cette équation, le coefficient pour l'âge est plus important que le coefficient qui compare les maths à la science. Le coefficient pour l'âge est positif. Plus les élèves sont âgés, plus ils sont susceptibles de préférer les arts à la science.

L'interprétation des coefficients pour les prédicteurs de catégorie dépend du niveau de référence pour le facteur. Dans les données relatives aux méthodes d'enseignement, les deux niveaux concernant la méthode d'enseignement sont "Démonstration" et "Explication". "Démonstration" ne figure pas dans le tableau des coefficients, "Démonstration" est donc le niveau de référence. La valeur de p pour "Explication" dans l'équation qui compare les maths à la science est supérieure à 0,5. Une valeur de p aussi élevée suggère que la méthode d'enseignement a un peu d'effet sur la préférence d'un élève entre les maths et la science.

Dans Logit 2, le coefficient pour "Explication" est plus important que le coefficient qui compare les maths à la science. La valeur de p pour ce coefficient est inférieure à 0,05, ce coefficient est donc statistiquement significatif au niveau de 0,05. Le coefficient pour "Explication" est positif dans cette équation. Lorsque la méthode d'enseignement est "Explication", l'élève est plus susceptible de préférer l'art.

Informations de réponse

VariableValeurDénombrement
SujetScience10(Evénement de référence)
  Maths11 
  Arts9 
  Total30 

Informations sur les facteurs

FacteurNiveauxValeurs
Méth. Enseignmt2Démontrer; Expliquer

Tableau de régression logistique






Rapport des
probabilités
de succès






IC à 95 %
PrédicteurCoeffCoef ErTZPInférieur
Logit 1 : (Maths/Science)           
Constante-1,122664,56425-0,250,806   
Méth. Enseignmt           
  Expliquer-0,5631150,937591-0,600,5480,570,09
Age0,1246740,4010790,310,7561,130,52
Logit 2 : (Arts/Science)           
Constante-13,84857,24256-1,910,056   
Méth. Enseignmt           
  Expliquer2,769921,372092,020,04415,961,08
Age1,013540,5844941,730,0832,760,88

IC à 95 %


PrédicteurSupérieur
Logit 1 : (Maths/Science) 
Constante 
Méth. Enseignmt 
  Expliquer3,58
Age2,49
Logit 2 : (Arts/Science) 
Constante 
Méth. Enseignmt 
  Expliquer234,90
Age8,66
Log de vraisemblance = -26,446

Test visant à vérifier que toutes les pentes sont égales à zéro

DLGValeur de p
412,8250,012

Tests d'adéquation de l'ajustement

MéthodeKhi deuxDLP
Pearson6,95295100,730
Somme des carrés des écarts7,88622100,640

Coef ErT

L'erreur type du coefficient estime la variabilité entre les estimations des coefficients que vous obtiendriez si vous préleviez des échantillons dans la même population de façon répétée. Le calcul suppose que l'effectif d'échantillon et les coefficients à estimer restent identiques même après plusieurs échantillonnages.

Interprétation

Vous pouvez utiliser l'erreur type du coefficient pour mesurer la précision de l'estimation du coefficient. Plus l'erreur type est petite, plus l'estimation est précise.

Valeur de Z

La valeur de Z est une statistique pour les tests qui mesure le rapport entre le coefficient et son erreur type.

Interprétation

Minitab utilise la valeur de Z pour calculer la valeur de p, qui vous permet de déterminer si des termes sont significatifs et de choisir le modèle approprié. Le test s'avère précis lorsque l'effectif d'échantillon est assez important pour que la distribution des coefficients d'échantillons suive une loi normale.

Une valeur de Z suffisamment supérieure à 0 indique que l'estimation de coefficient est assez importante et précise pour être statistiquement différente de 0. Inversement, une valeur de Z proche de 0 indique que l'estimation de coefficient est trop petite ou imprécise pour que vous puissiez affirmer que le terme a un effet sur la réponse.

Valeur de p

La valeur de p est la probabilité qui mesure le degré de certitude avec lequel il est possible d'invalider l'hypothèse nulle. Des probabilités faibles permettent d'invalider l'hypothèse nulle avec plus de certitude.

Interprétation

Pour déterminer si l'association entre la réponse et chacun des termes du modèle est statistiquement significative, comparez la valeur de p du terme à votre seuil de signification pour évaluer l'hypothèse nulle. L'hypothèse nulle est que le coefficient du terme est égal à zéro, ce qui implique qu'il n'existe aucune association entre le terme et la réponse. En général, un seuil de signification (noté alpha ou α) de 0,05 fonctionne bien. Un seuil de signification de 0,05 indique un risque de 5 % de conclure à tort qu'il existe une association.
Valeur de p ≤ α : l'association est statistiquement significative.
Si la valeur de p est inférieure ou égale au seuil de signification, vous pouvez conclure qu'il existe une association statistiquement significative entre la variable de réponse et le terme.
Valeur de p > α : l'association n'est pas statistiquement significative.
Si la valeur de p est supérieure au seuil de signification, vous ne pouvez pas conclure qu'il existe une association statistiquement significative entre la variable de réponse et le terme. Il est sans doute nécessaire de réajuster le modèle sans le terme.
Si plusieurs prédicteurs ne présentent aucune association statistiquement significative avec la réponse, vous pouvez réduire le modèle en supprimant ces termes un par un. Pour plus d'informations sur la suppression de termes d'un modèle, reportez-vous à la rubrique Réduction du modèle.
Si un terme d'un modèle est statistiquement significatif, l'interprétation dépend du type de terme concerné. Les interprétations sont les suivantes :
  • Si un prédicteur continu est significatif, vous pouvez en conclure que les probabilités de niveau de réponse dépendent de ce prédicteur.
  • Si un prédicteur de catégorie est significatif, vous pouvez en conclure que les niveaux de réponse ont des probabilités différentes de se produire à ce niveau de facteur plutôt qu'au niveau de référence du facteur.
  • Si un terme d'interaction est significatif, vous pouvez en conclure que la relation entre un prédicteur et les probabilités de niveau de réponse dépend des autres prédicteurs du terme.
  • Si un terme polynomial est significatif, vous pouvez en conclure que la relation entre un prédicteur et les probabilités de niveau de réponse dépend de l'importance du prédicteur.

Rapport des probabilités de succès

Le rapport des probabilités de succès compare les probabilités de succès de deux résultats. Les probabilités de succès d'un résultat représentent la probabilité que le résultat de comparaison se produise divisée par la probabilité que le résultat de référence se produise.

Interprétation

Utilisez le rapport des probabilités de succès pour comprendre l'effet d'un prédicteur. L'interprétation du rapport des probabilités de succès varie selon que le prédicteur est de catégorie ou continu. Dans le tableau de régression logistique, le résultat de comparaison est le premier résultat après l'étiquette logit et le résultat de référence est le deuxième résultat. Le résultat de référence est le même pour chaque logit.

Rapports des probabilités de succès des prédicteurs continus

Les rapports des probabilités de succès supérieurs à 1 indiquent que le résultat de comparaison est plus susceptible de se produire que le résultat de référence lorsque le prédicteur augmente. Les rapports des probabilités de succès inférieurs à 1 indiquent que le résultat de référence est plus susceptible de se produire que le résultat de comparaison.

Par exemple, la directrice d'une école souhaite évaluer différentes méthodes d'enseignement. Pour le logit 1, le résultat de comparaison est Math. Pour le logit 2, le résultat de comparaison est Arts. Le résultat de référence est Science. Dans le logit 2, l'estimation du rapport des probabilités de succès est de 2,76, ce qui est supérieur à 1. Plus l'âge augmente, plus un élève est susceptible de préférer les arts à la science. Pour chaque année en plus, les probabilités de succès qu'un élève préfère les arts sont 3 fois plus importantes que les probabilités de succès concernant la science.

Tableau de régression logistique






Rapport des
probabilités
de succès






IC à 95 %
PrédicteurCoeffCoef ErTZPInférieur
Logit 1 : (Maths/Science)           
Constante-1,122664,56425-0,250,806   
Méth. Enseignmt           
  Expliquer-0,5631150,937591-0,600,5480,570,09
Age0,1246740,4010790,310,7561,130,52
Logit 2 : (Arts/Science)           
Constante-13,84857,24256-1,910,056   
Méth. Enseignmt           
  Expliquer2,769921,372092,020,04415,961,08
Age1,013540,5844941,730,0832,760,88

IC à 95 %


PrédicteurSupérieur
Logit 1 : (Maths/Science) 
Constante 
Méth. Enseignmt 
  Expliquer3,58
Age2,49
Logit 2 : (Arts/Science) 
Constante 
Méth. Enseignmt 
  Expliquer234,90
Age8,66

Rapports des probabilités de succès des prédicteurs de catégorie

Pour les prédicteurs de catégorie, le rapport des probabilités de succès compare les probabilités de succès du résultat de comparaison à 2 niveaux différents du prédicteur. Le niveau de comparaison figure dans le tableau de régression logistique et possède un rapport de probabilités de succès estimé. Les rapports des probabilités de succès supérieurs à 1 indiquent que le résultat de comparaison devient plus probable par rapport au résultat de référence lorsque le prédicteur de catégorie passe du niveau de référence au niveau de comparaison. Les rapports des probabilités de succès inférieurs à 1 indiquent que le résultat de comparaison devient moins probable par rapport au résultat de référence lorsque le prédicteur de catégorie passe du niveau de référence au niveau de comparaison.

Par exemple, la directrice d'une école souhaite évaluer différentes méthodes d'enseignement. Pour le logit 1, le résultat de comparaison est Math. Pour le logit 2, le résultat de comparaison est Arts. Le résultat de référence est Science. Pour le logit 2, l'estimation du rapport des probabilités de succès pour la méthode d'enseignement est de 15,96, ce qui est supérieur à 1. Lorsque la méthode d'enseignement passe de "démonstration" à "explication", les probabilités de succès qu'un élève préfère les arts sont environ 16 fois plus importantes que les probabilités de succès concernant la science.

Tableau de régression logistique






Rapport des
probabilités
de succès






IC à 95 %
PrédicteurCoeffCoef ErTZPInférieur
Logit 1 : (Maths/Science)           
Constante-1,122664,56425-0,250,806   
Méth. Enseignmt           
  Expliquer-0,5631150,937591-0,600,5480,570,09
Age0,1246740,4010790,310,7561,130,52
Logit 2 : (Arts/Science)           
Constante-13,84857,24256-1,910,056   
Méth. Enseignmt           
  Expliquer2,769921,372092,020,04415,961,08
Age1,013540,5844941,730,0832,760,88

IC à 95 %


PrédicteurSupérieur
Logit 1 : (Maths/Science) 
Constante 
Méth. Enseignmt 
  Expliquer3,58
Age2,49
Logit 2 : (Arts/Science) 
Constante 
Méth. Enseignmt 
  Expliquer234,90
Age8,66

Intervalle de confiance pour le rapport des probabilités de succès (IC à 95 %)

Ces intervalles de confiance (IC) sont des étendues de valeurs susceptibles de contenir les valeurs réelles des rapports des probabilités de succès. Le calcul des intervalles de confiance utilise la loi normale. L'intervalle de confiance est précis si l'effectif d'échantillon est assez important pour que la distribution des rapports des probabilités de succès de l'échantillon suive une loi normale.

Les échantillons étant aléatoires, il est peu probable que deux échantillons d'une population donnent des intervalles de confiance identiques. Cependant, si vous prenez de nombreux échantillons aléatoires, un certain pourcentage des intervalles de confiance obtenus contiendra le paramètre de population inconnu. Le pourcentage de ces intervalles de confiance contenant le paramètre est le niveau de confiance de l'intervalle.

L'intervalle de confiance est composé de deux parties :
Estimation ponctuelle
L'estimation ponctuelle est l'estimation du paramètre calculé à partir des données échantillons.
Marge d'erreur
La marge d'erreur définit la largeur de l'intervalle de confiance et dépend de l'étendue des probabilités d'événement, de l'effectif d'échantillon et du niveau de confiance.

Interprétation

Pour évaluer l'estimation du rapport des probabilités de succès, utilisez l'intervalle de confiance.

Par exemple, avec un niveau de confiance de 95 %, vous pouvez être certain à 95 % que l'intervalle de confiance comprend la valeur du rapport des probabilités de succès pour la population. L'intervalle de confiance vous aide à évaluer la signification pratique de vos résultats. Utilisez vos connaissances spécialisées pour déterminer si l'intervalle de confiance comporte des valeurs ayant une signification pratique pour votre situation. Si l'intervalle est trop grand pour être utile, vous devez sans doute augmenter votre effectif d'échantillon.

Test pour les termes avec plusieurs degrés de liberté

Il s'agit d'un test global qui prend en compte tous les coefficients pour un prédicteur de catégorie simultanément. Ce test s'adresse aux prédicteurs de catégorie ayant plus de 2 niveaux.

Interprétation

Utilisez ce test pour déterminer si un prédicteur de catégorie avec plusieurs coefficients présente une relation statistiquement significative avec les événements de réponse. Lorsqu'un prédicteur de catégorie compte plus de 2 niveaux, les coefficients des niveaux individuels ont différentes valeurs de p. Le test global donne une réponse unique concernant la signification statistique du prédicteur.

Pour déterminer si l'association entre les événements de réponse et le prédicteur de catégorie est statistiquement significative, comparez la valeur de p du test à votre seuil de signification pour évaluer l'hypothèse nulle. Selon l'hypothèse nulle, il n'existe aucune association entre le prédicteur et les événements de réponse. En général, un seuil de signification (noté alpha ou α) de 0,05 fonctionne bien. Un seuil de signification de 0,05 indique 5 % de risque de conclure à tort qu'il existe une association.
Valeur de p ≤ α : l'association est statistiquement significative.
Si la valeur de p est inférieure ou égale au seuil de signification, vous pouvez en conclure qu'il existe une association statistiquement significative entre la variable de réponse et le prédicteur.
Valeur de p > α : l'association n'est pas statistiquement significative.
Si la valeur de p est supérieure au seuil de signification, vous ne pouvez pas en conclure qu'il existe une association statistiquement significative entre la variable de réponse et le prédicteur.

Log de vraisemblance

Minitab maximise la fonction de log de vraisemblance pour déterminer les valeurs optimales des coefficients estimés.

Interprétation

Utilisez le log de vraisemblance pour comparer deux modèles qui estiment les coefficients à l'aide des mêmes données. Les valeurs étant négatives, plus elles sont proches de zéro, plus le modèle s'ajuste aux données.

Le log de vraisemblance ne peut pas diminuer lorsque vous ajoutez des termes à un modèle. Par exemple, un modèle avec 5 termes a un log de vraisemblance plus élevé que les modèles à 4 termes que vous pouvez créer avec les mêmes termes. Par conséquent, le log de vraisemblance est plus utile lorsque vous comparez des modèles de même taille. Pour prendre une décision concernant des termes individuels, observez les valeurs de p du terme dans les différentes fonctions logit.

Vérifier que toutes les pentes sont à zéro

Il s'agit d'un test global qui prend en compte tous les coefficients des prédicteurs dans le modèle.

Interprétation

Utilisez ce test pour déterminer si au moins l'un des prédicteurs du modèle présente une association statistiquement significative avec les événements de réponse. En général, vous n'interprétez pas la statistique G ni les degrés de liberté (DL). Les DL sont égaux au nombre de coefficients pour les prédicteurs dans le modèle.

Pour déterminer si l'association entre les événements de réponse et les prédicteurs est statistiquement significative, comparez la valeur de p du test à votre seuil de signification pour évaluer l'hypothèse nulle. Avec l'hypothèse nulle, tous les coefficients des prédicteurs dans le modèle sont égaux à 0 ; il n'existe donc pas d'association entre les événements de réponse et les prédicteurs. En général, un seuil de signification (noté alpha ou α) de 0,05 fonctionne bien. Un seuil de signification de 0,05 indique 5 % de risque de conclure à tort qu'il existe une association.
Valeur de p ≤ α : l'association est statistiquement significative.
Si la valeur de p est inférieure ou égale au seuil de signification, vous pouvez en conclure qu'il existe une association statistiquement significative entre la variable de réponse et au moins un des prédicteurs.
Valeur de p > α : l'association n'est pas statistiquement significative.
Si la valeur de p est supérieure au seuil de signification, vous ne pouvez pas en conclure qu'il existe une association statistiquement significative entre la variable de réponse et un terme.

Test d'adéquation de l'ajustement de Pearson

Le test d'adéquation de l'ajustement de Pearson évalue la différence entre le modèle étudié et le modèle complet.

Interprétation

Utilisez les tests d'adéquation de l'ajustement pour déterminer si les probabilités prévues diffèrent des probabilités observées d'une façon que ne prévoit pas la loi multinomiale. Le test n'est pas utile lorsque le nombre de valeurs distinctes est approximativement égal au nombre d'observations, mais il est utile lorsque plusieurs observations existent au niveau des mêmes valeurs des prédicteurs. Si la valeur de p pour le test d'adéquation de l'ajustement est inférieure au seuil de signification sélectionné, les probabilités prévues diffèrent des probabilités observées d'une façon que ne prévoit pas la loi multinomiale. Cette liste énumère les raisons fréquentes de l'écart :
  • Terme d'ordre supérieur omis pour les variables du modèle
  • Prédicteur omis non présent dans le modèle

Test d'adéquation de l'ajustement de la somme des carrés d'écart

Le test d'adéquation de l'ajustement de la somme des carrés d'écart évalue la différence entre le modèle étudié et le modèle complet.

Interprétation

Utilisez les tests d'adéquation de l'ajustement pour déterminer si les probabilités prévues diffèrent des probabilités observées d'une façon que ne prévoit pas la loi multinomiale. Le test n'est pas utile lorsque le nombre de valeurs distinctes est approximativement égal au nombre d'observations, mais il est utile lorsque plusieurs observations existent au niveau des mêmes valeurs des prédicteurs. Si la valeur de p pour le test d'adéquation de l'ajustement est inférieure au seuil de signification sélectionné, les probabilités prévues diffèrent des probabilités observées d'une façon que ne prévoit pas la loi multinomiale. Cette liste énumère les raisons fréquentes de l'écart :
  • Terme d'ordre supérieur omis pour les variables du modèle
  • Prédicteur omis non présent dans le modèle