Courbe ROC (Receiver Operating Characteristic) pour Ajuster le modèle logistique binaire et Regressão Logística Binária

La procédure pour les points sur la courbe ROC dépend de la méthode de validation.

Données d’entraînement ou absence de validation

Pour le graphique d’un ensemble de données d’entraînement, chaque point du graphique représente une probabilité d’événement ajustée distincte. La probabilité d’événement la plus élevée est le premier point du graphique et apparaît le plus à gauche. Les autres nœuds terminaux sont classés par ordre décroissant de probabilité d’événement.

Utilisez le processus suivant pour trouver les coordonnées x et y de la carte.

  1. Utilisez chaque probabilité d’événement comme seuil. Pour un seuil spécifique, les cas dont la probabilité d’événement estimée est supérieure ou égale au seuil obtiennent 1 comme classe prédite, 0 dans le cas contraire. Ensuite, vous pouvez former une table 2x2 pour tous les cas avec des classes observées sous forme de lignes et des classes prédites sous forme de colonnes pour calculer le taux de faux positifs et le taux de vrais positifs pour chaque probabilité d’événement. Les taux de faux positifs sont les coordonnées x de la carte. Les vrais taux positifs sont les coordonnées y.

    Par exemple, supposons que le tableau suivant récapitule un modèle avec deux prédicteurs catégoriels à 2 niveaux. Ces prédicteurs donnent quatre probabilités d’événements distinctes, qui sont arrondies à 2 décimales :

    Un: Commande B: Prédicteur 1 C: Prédicteur 2 D: Nombre d’événements E: Nombre de non-événements F: Nombre d’essais G: Seuil (D/F)
    1 1 1 18 12 30 0,60
    2 1 2 25 42 67 0,37
    3 2 1 12 44 56 0,21
    4 2 2 4 32 36 0,11
    Totaux 59 130 189

    Voici les quatre tables correspondantes avec leurs taux respectifs de faux positifs et de vrais positifs arrondis à 2 décimales :

    Tableau 1. Seuil = 0,60.

    Taux de faux positifs = 12 / (12 + 118) = 0,09

    Taux de vrais positifs = 18 / (18 + 41) = 0,31

    Prédit
    événement non-événement
    Observé événement 18 41
    non-événement 12 118
    Tableau 2. Seuil = 0,37.

    Taux de faux positifs = (12 + 42) / 130 = 0,42

    Taux de vrais positifs = (18 + 25) / 59 = 0,73

    Prédit
    événement non-événement
    Observé événement 43 16
    non-événement 54 76
    Tableau 3. Seuil = 0,21.

    Taux de faux positifs = (12 + 42 + 44) / 130 = 0,75

    Taux de vrais positifs = (18 + 25 + 12) / 59 = 0,93

    Prédit
    événement non-événement
    Observé événement 55 4
    non-événement 98 32
    Tableau 4. Seuil = 0,11.

    Taux de faux positifs = (12 + 42 + 44 + 32) / 130 = 1

    Taux de vrais positifs = (18 + 25 + 12 + 4) / 59 = 1

    Prédit
    événement non-événement
    Observé événement 59 0
    non-événement 130 0

Jeu de données de test séparé

Utilisez les mêmes étapes que la procédure d’ensemble de données d’entraînement, mais calculez la probabilité d’événement à partir des cas de l’ensemble de données de test.

Test avec validation croisée k-fold

Utilisez les mêmes étapes que la procédure d’ensemble de données d’entraînement, mais calculez les probabilités d’événement à partir des cas pour les données validées par croisement.