Courbe ROC (efficacité du récepteur)

Cette macro effectue trois fonctions sous forme d'analyse à la suite d'une analyse de régression logistique binaire afin d'évaluer les performances du modèle :
  1. Elle génère une table de classement.
  2. Elle génère une courbe ROC (efficacité du récepteur).
  3. En fonction des probabilités d'événements, elle stocke une probabilité d'événement pour chaque ligne, pas seulement pour la première instance d'un ensemble unique de valeurs de prédicteurs.

Télécharger la macro

Assurez-vous que Minitab connaît l'emplacement de la macro que vous avez téléchargée. Sélectionnez Outils > Options > Général. Sous Emplacement de la macro, accédez à l'emplacement où vous avez enregistré les fichiers de macro.

Important

Si vous utilisez un ancien navigateur Web, lorsque vous cliquez sur le bouton Télécharger, il est possible que le fichier s'ouvre dans Quicktime, qui partage l'extension de fichier .mac avec les macros de Minitab. Pour enregistrer la macro, cliquez avec le bouton droit de la souris sur le bouton Télécharger, puis sélectionnez Enregistrer la cible sous.

Entrées requises

  • Une variable de réponse binaire, au format réponse/effectif
  • Au moins une colonne de variables de prédicteur
  • Une colonne de probabilités d'événements calculées lors de l'analyse de régression logistique binaire déjà réalisée sur les données
Remarque

Pour stocker les probabilités d'événements d'une régression logistique binaire, cliquez sur Stockage dans la boîte de dialogue principale et sélectionnez Probabilité d'événement.

Entrées facultatives

FREQ C
Utilisez cet élément si vous avez spécifié une colonne d'effectif lorsque vous avez exécuté la régression logistique binaire. Par exemple, si vous avez défini la colonne C4 comme colonne d'effectif, vous devez soumettre la commande FREQ C4.
REFEVENT "texte"
Utilisez cet élément si vous avez spécifié un événement de référence lors de l'exécution de la régression logistique binaire. Par exemple, si la variable de réponse binaire inclut les valeurs "Réussite" et "Echec" et que vous avez défini "Réussite" comme événement de référence, vous devez soumettre la commande REFEVENT "Réussite".
FITSTORE C
Permet de spécifier une colonne dans laquelle stocker les valeurs ajustées, qui sont utilisées pour générer la table de classement. Dans la régression logistique binaire, la valeur ajustée d'une observation correspond à l'événement de référence si la probabilité d'événement de cette observation est supérieure ou égale à 0,5.
ROCSTORE C C C
Utilisez cette fonction pour stocker des données utilisées pour générer la courbe ROC. Spécifiez trois colonnes : une pour stocker les valeurs de p, et deux pour stocker les valeurs de spécificité et de sensibilité pour chaque valeur de p (la courbe ROC représente la sensibilité en fonction de 1 - spécificité).

Exécution de la macro

Supposons que la colonne C3 contienne la variable de réponse binaire et que deux prédicteurs se trouvent dans les colonnes C1 et C2. Les probabilités d'événements sont stockées dans la colonne C5. Pour exécuter la macro, sélectionnez Edition > Editeur de ligne de commande et saisissez :

%ROCBLR C3;
MODEL C1 C2;
EPRO C5.

Cliquez sur Soumettre les commandes.

Informations supplémentaires

Tables de classement et courbes ROC

L'adéquation d'un modèle de régression logistique binaire peut être évaluée par sa capacité à prévoir avec exactitude une réponse binaire, en fonction des valeurs des termes (prédicteurs) dans le modèle. Cette capacité peut être résumée dans une table de classement, qui indique, sous forme de tableau, le nombre de fois que le modèle ajusté classe la réponse correctement pour chacune des deux valeurs de réponse.

Pour obtenir un exemple, reportez-vous à la rubrique Exemple de régression logistique binaire dans l'Aide de Minitab. Cet exemple concerne un modèle de régression logistique binaire où la réponse est PoulsRepos (Elevé ou Faible) et où les prédicteurs sont Poids (une variable continue) et Fumeur (une variable de catégorie avec deux valeurs, Oui ou Non).

Dans le fichier de données, un sujet non-fumeur pèse 175 livres. Pour déterminer si cette personne aura un pouls au repos élevé ou faible, son poids et le fait qu'elle fume ou non (1 si elle fume et 0 si elle ne fume pas) sont inclus dans l'équation de régression générée dans l'analyse. Le résultat est une estimation de la probabilité d'un pouls au repos faible (puisque "Faible" est l'événement de référence dans cet exemple) :

En d'autres termes, au vu des coefficients estimés, un sujet non-fumeur pesant 175 livres a 92 % de chances de présenter un pouls au repos faible. Il s'agit de la probabilité d'événement. Comme cette probabilité est très élevée, nous pouvons classer cette observation comme "Faible". Ainsi, nous classons l'estimation d'une probabilité comme l'une des deux valeurs. En outre, le pouls au repos observé et réel de cette personne en particulier était faible. Le modèle a donc prévu correctement le pouls au repos de ce sujet.

Nous pouvons faire de même pour les autres observations comprises dans le fichier de données, mais nous devons d'abord décider de la "limite" à associer à la probabilité d'événement. La limite la plus évidente est 0,5. Pour toutes les observations comprises dans le fichier de données, si la probabilité d'événement est supérieure à 0,5, nous classerons le pouls au repos comme "Faible", et si elle est inférieure à 0,5, nous classerons le pouls au repos comme "Elevé".

Enfin, nous pouvons comparer le pouls au repos prévu et le pouls au repos réel et afficher ces résultats dans une table de classement (illustration non disponible).

Cette table indiquerait que 68 sujets présentaient un pouls au repos faible et que la probabilité d'événement était supérieure à 0,5 ; le classement était donc exact. Elle indiquerait également que deux individus avaient un pouls au repos faible, mais que la probabilité d'événement était inférieure à 0,5 ; le classement était donc inexact. De même, deux individus présentaient un pouls au repos élevé et le modèle donnait un classement correct. Toutefois, 20 sujets avaient un pouls au repos élevé alors que le modèle l'avait classé à tort en tant que faible. Vous pouvez donc conclure que le modèle a tendance à prévoir le pouls au repos comme étant faible.

Deux autres statistiques, la sensibilité et la spécificité, permettent de résumer l'exactitude du modèle. La sensibilité mesure la capacité du modèle à prévoir correctement un pouls au repos faible si le pouls au repos réel d'un individu est faible. La spécificité mesure la capacité du modèle à prévoir correctement un pouls au repos élevé si le pouls au repos réel d'un individu est élevé. Pour ces deux statistiques, plus la valeur est élevée, plus le modèle est capable de classer les observations correctement.

Dans cet exemple, la sensibilité = 68/70 ≅ 97 % et la spécificité = 2/22 ≅ 9 %.

Toutefois, les tables de classement dépendent considérablement de la distribution des observations qu'elles contiennent, ce qui peut prêter à confusion. Les problèmes inhérents aux tables de classement sont abordés de façon approfondie et claire dans l'ouvrage d'Hosmer et Lemeshow intitulé "Applied Logistic Regression".

Une courbe ROC (efficacité du récepteur) constitue un meilleur moyen d'évaluer la capacité d'un modèle de régression logistique binaire à classer correctement les observations. Une courbe ROC est créée en générant plusieurs tables de classement pour les valeurs de seuil comprises entre 0 et 1, et en calculant la sensibilité et la spécificité pour chaque valeur. Pour créer une courbe ROC, la sensibilité est tracée par rapport à 1 - la spécificité.

La zone sous la courbe ROC (AUC) est une mesure de discrimination ; un modèle avec une zone importante sous la courbe ROC suggère qu'il est capable de prévoir correctement la valeur de la réponse de l'observation.

Hosmer et Lemeshow fournissent des règles générales permettant d'interpréter les valeurs de l'AUC. En paraphrasant ces règles, nous obtenons les indications de base suivantes :

AUC = 0,5 Aucune discrimination (cela revient à tirer à pile ou face)
0,7 ≤ AUC < 0,8 Discrimination acceptable
0,8 ≤ AUC < 0,9 Discrimination excellente
AUC ≥ 0,9 Discrimination exceptionnelle (mais extrêmement rare)

Etant donné que l'AUC de ce modèle est inférieure à 0,7, vous pouvez conclure que le modèle ne fournit pas de discrimination appropriée.

Références :

D.W. Hosmer et S. Lemeshow (2000), Applied Logistic Regression, 2e éd. John Wiley & Sons, Inc, pp. 156-164.

A. Agresti (2002). Categorical Data Analysis. 2e édition. John Wiley & Sons, Inc. pp 228-230.

En utilisant ce site, vous acceptez l'utilisation de cookies à des fins d'analyse et de personnalisation du contenu.  Lisez notre politique