Prévision

Sur ce thème

Equation de régression
Valeurs des variables
Probabilité ajustée ou probabilités de classe
ErT ajust
Intervalle de confiance pour la valeur ajustée (IC à 95 %)

La façon dont vous prédisez avec le modèle dépend de la façon dont vous avez créé le modèle.

Si vous créez le modèle avec Ajuster le modèle logistique binaire, choisissez Stat > Régression > Régression logistique binaire > Prévoir.
Si vous créez le modèle avec Découvrir le meilleur modèle (réponse binaire), cliquez Prévoir dans les résultats.

Les deux méthodes produisent des différences mineures dans les résultats. Par exemple, si vous stockez les résultats avec l’une ou l’autre méthode, les statistiques de prédiction se trouvent dans la feuille de calcul, mais la version avec Découvrir le meilleur modèle (réponse binaire) affiche également l’équation de régression dans le volet de sortie. La version avec Ajuster le modèle logistique binaire peut inclure l’erreur type de l’ajustement et l’intervalle de confiance pour l’ajustement. Avec l’une ou l’autre méthode, les résultats dans le volet de sortie incluent l’équation de régression, les paramètres des prédicteurs et la table de prédiction.

Equation de régression

Pour la régression logistique binaire, Minitab affiche deux types d'équations de régression. La première équation lie la probabilité de l'événement à la réponse transformée. La forme de la première équation dépend de la fonction de liaison.

La deuxième équation lie les prédicteurs à la réponse transformée. Si le modèle contient des prédicteurs continus et de catégorie, la deuxième équation peut être séparée pour chaque combinaison de catégories.

Interprétation

Utilisez les équations pour examiner la relation entre les variables de réponse et de prédiction.

Par exemple, un modèle destiné à prévoir si un client achète un produit contient les termes suivants :

Le revenu du client
Si le client a des enfants
L'interaction entre les deux prédicteurs

La première équation montre la relation entre la probabilité et la réponse transformée selon la fonction de liaison logit.

Les deuxièmes équations indiquent la façon dont le revenu et le fait qu'un client ait des enfants ou non affectent la réponse transformée. Lorsque le client n'a pas d'enfants, le coefficient du revenu est d'environ 0,04. Lorsque le client a des enfants, ce coefficient est d'environ 0,02. Pour ces équations, plus le client a un revenu élevé, plus il est susceptible d'acheter le produit. Cependant, le revenu a un impact plus important sur l'achat du produit par le client lorsque celui-ci n'a pas d'enfants.

Equation de régression en unités non codées

P(1)	=	exp(Y')/(1 + exp(Y'))

Enfants
Non	Y'	=	-3,549 + 0,04296 Revenu

Oui	Y'	=	-1,076 + 0,01565 Revenu

Si votre modèle n'est pas hiérarchique et que vous avez normalisé les prédicteurs continus, l'équation de régression est en unités codées. Pour plus d'informations, consultez la section sur les coefficients codés. Pour plus d'informations concernant la hiérarchie, consultez la rubrique Que sont les modèles hiérarchiques ?.

Valeurs des variables

Minitab utilise l'équation de régression et les paramètres des variables pour calculer l'ajustement. Si vous créez le modèle avec Ajuster le modèle logistique binaire et que les paramètres de variable sont inhabituels par rapport aux données qui ont été utilisées pour estimer le modèle, un avertissement s'affiche sous la prédiction.

Utilisez le tableau des valeurs des variables pour vérifier que vous avez effectué l'analyse tel que prévu.

Probabilité ajustée ou probabilités de classe

Lorsque vous créez le modèle avec Découvrir le meilleur modèle (réponse binaire), le tableau Prédiction affiche un numéro d’observation, la classe prédite et la probabilité d’appartenance à chaque classe. Lorsque vous créez le modèle avec Ajuster le modèle logistique binaire, la table prédiction inclut la probabilité ajustée.

La probabilité d'événement est la chance qu'un résultat ou un événement spécifique se produise. La probabilité d'événement estime la probabilité qu'un événement se produise, comme le fait de tirer un as dans un jeu de cartes ou la fabrication d'une pièce non conforme. La probabilité d'un événement est comprise entre 0 (impossible) et 1 (certain).

Interprétation

Dans la régression logistique binaire, une variable de réponse ne peut avoir que deux valeurs, la présence ou l'absence d'une maladie particulière, par exemple. La probabilité d'événement est la probabilité que la réponse pour une combinaison de facteurs ou de covariables donnée soit 1 pour un événement (par exemple, la probabilité qu'une femme de plus de 50 ans développe un diabète de type 2).

Chaque tentative d'une expérience est appelée "essai". Par exemple, si vous lancez une pièce 10 fois et que vous enregistrez le nombre de fois où elle tombe côté face, vous effectuez 10 essais pour cette expérience. Si les essais sont indépendants et de probabilité égale, vous pouvez estimer la probabilité d'événement en divisant le nombre d'événements par le nombre total d'essais. Par exemple, si la pièce tombe 6 fois côté face sur les 10 essais, la probabilité estimée de l'événement (nombre de chutes côté face) est égale à :

Nombre d'événements ÷ Nombre d'essais = 6 ÷ 10 = 0,6

ErT ajust

L’ajustement SE se trouve dans la table de prédiction lorsque vous créez le modèle avec Ajuster le modèle logistique binaire. L'erreur type de l'ajustement (ErT ajust) estime la variation de la réponse moyenne estimée pour les valeurs de variables spécifiées. Le calcul de l'intervalle de confiance de la réponse moyenne utilise l'erreur type de la valeur ajustée. Les erreurs types ne sont jamais négatives.

Interprétation

Utilisez l'erreur type de l'ajustement pour mesurer la précision de l'estimation de la réponse moyenne. Plus l'erreur type est faible, plus la prévision de la réponse moyenne est précise. Par exemple, un analyste développe un modèle pour prévoir des délais de livraison. Pour un ensemble de paramètres de variables, le modèle prévoit un délai de livraison moyen de 3,80 jours. L'erreur type de l'ajustement pour ces paramètres est de 0,08 jours. Pour un deuxième ensemble de paramètres de variables, le modèle produit le même délai de livraison moyen avec une erreur type de l'ajustement de 0,02 jours. Avec le second ensemble de paramètres de variables, l'analyste peut affirmer avec plus de certitude que le délai de livraison moyen est proche de 3,80 jours.

Avec la valeur ajustée, l'erreur type de l'ajustement permet de créer un intervalle de confiance pour la réponse moyenne. Par exemple, selon le nombre de degrés de liberté, un intervalle de confiance à 95 % s'étend approximativement sur deux erreurs types au-dessus ou en dessous de la moyenne prévue. Dans l'exemple des délais de livraison, pour la réponse moyenne prévue de 3,80 jours lorsque l'erreur type est de 0,08, l'intervalle de confiance à 95 % est (3,64 ; 3,96) jours. Vous pouvez être certain à 95 % que la moyenne de la population se situe à l'intérieur de cette étendue. Lorsque l'erreur type est de 0,02, l'intervalle de confiance à 95 % est (3,76 ; 3,84) jours. L'intervalle de confiance pour le second ensemble de paramètres de variables est plus étroit, car l'erreur type est plus faible.

Intervalle de confiance pour la valeur ajustée (IC à 95 %)

L’intervalle de confiance pour l’ajustement se trouve dans la table de prédiction lorsque vous créez le modèle avec Ajuster le modèle logistique binaire. Ces intervalles de confiance (IC) sont des étendues de valeurs ayant de fortes chances de contenir la probabilité d'événement pour la population qui présente les valeurs observées pour les variables de prédiction du modèle.

Les échantillons étant aléatoires, il est peu probable que deux échantillons d'une population donnent des intervalles de confiance identiques. Cependant, si vous prélevez de nombreux échantillons, un certain pourcentage des intervalles de confiance obtenus contiendra le paramètre de population inconnu. Le pourcentage de ces intervalles de confiance contenant le paramètre est le niveau de confiance de l'intervalle.

L'intervalle de confiance est composé de deux parties :

Estimation ponctuelle: L'estimation ponctuelle est l'estimation du paramètre calculé à partir des données échantillons.
Marge d'erreur: La marge d'erreur définit la largeur de l'intervalle de confiance et dépend de l'étendue des probabilités d'événement, de l'effectif d'échantillon et du niveau de confiance.

Interprétation

Utilisez l'intervalle de confiance afin d'évaluer l'estimation de la valeur ajustée pour les valeurs observées des variables.

Par exemple, avec un niveau de confiance de 95 %, vous pouvez être sûr à 95 % que l'intervalle de confiance comprend la probabilité d'événement pour les valeurs indiquées des variables du modèle. L'intervalle de confiance vous aide à évaluer la signification pratique de vos résultats. Utilisez vos connaissances spécialisées pour déterminer si l'intervalle de confiance comporte des valeurs ayant une signification pratique pour votre situation. Si l'intervalle est trop grand pour être utile, vous devez sans doute augmenter votre effectif d'échantillon.