Méthodes et formules pour la courbe d'efficacité du récepteur (ROC) pour Classification Random Forests®

Remarque

Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.

La procédure utilisée pour les points de la courbe ROC dépend de la méthode de validation. Pour une variable de réponse multinomiale, Minitab affiche plusieurs courbes qui traitent chaque classe une à une comme l’événement.

Validation out-of-bag

Pour un arbre donné dans la forêt, un vote de classe pour une ligne dans les données out-of-bag est la classe prévue pour la ligne d'après l'arbre unique. La classe prévue pour une ligne dans les données out-of-bag est la classe de vote le plus élevé sur tous les arbres de la forêt. La probabilité de classe prévue pour une ligne dans les données out-of-bag est le rapport entre le nombre de votes pour la classe et le total des votes pour la ligne.

Pour la courbe des données out-of-bag, chaque point du graphique représente une probabilité distincte de classe prévue. La probabilité d’événement la plus élevée est le premier point sur la courbe et apparaît le plus à gauche. Les autres probabilités sont classées par ordre décroissant.

Utilisez le procédé suivant pour trouver les coordonnées X et Y sur la courbe.

  1. Utilisez chaque probabilité d’événement distincte comme seuil. Pour un seuil spécifique, les cas dont la probabilité d'événement estimée est supérieure ou égale au seuil ont une classe prévue de 1, contre 0 dans les autres cas. Vous pouvez ensuite créer un tableau 2 x 2 pour tous les cas, en indiquant les classes observées en ligne et les classes prédites en colonne pour calculer le taux de faux positif et le taux de vrai positif de chaque probabilité d’événement. Les taux de faux positif correspondent aux coordonnées X de la courbe. Les taux de vrai positif correspondent aux coordonnées Y.

    Supposons, par exemple, que le tableau suivant résume un modèle simple avec deux prédicteurs de catégorie à deux niveaux. Ces prédicteurs donnent quatre probabilités d’événement distinctes, arrondies à deux chiffres après la virgule :

    A : Commande B : Prédicteur 1 C : Prédicteur 2 D : Nombre d'événements E : Nombre de non-événements F : Nombre d'essais G : Seuil (probabilité d'événement ajustée)
    1 1 1 18 12 30 0,60
    2 1 2 25 42 67 0,37
    3 2 1 12 44 56 0,21
    4 2 2 4 32 36 0,11
    Totaux     59 130 189  

    Les quatre tableaux suivants contiennent leurs taux de faux positif et de vrai positif respectifs arrondis à deux chiffres après la virgule :

    Tableau 1. Seuil = 0,60.

    Taux de faux positifs = 12 / (12 + 118) = 0,09

    Taux de vrais positifs = 18 / (18 + 41) = 0,31

        Prévu
        événement non-événement
    Observé événement 18 41
    non-événement 12 118
    Tableau 2. Seuil = 0,37.

    Taux de faux positifs = (12 + 42) / 130 = 0,42

    Taux de vrais positifs = (18 + 25) / 59 = 0,73

        Prévu
        événement non-événement
    Observé événement 43 16
    non-événement 54 76
    Tableau 3. Seuil = 0,21.

    Taux de faux positifs = (12 + 42 + 44) / 130 = 0,75

    Taux de vrais positifs = (18 + 25 + 12) / 59 = 0,93

        Prévu
        événement non-événement
    Observé événement 55 4
    non-événement 98 32
    Tableau 4. Seuil = 0,11.

    Taux de faux positifs = (12 + 42 + 44 + 32) / 130 = 1

    Taux de vrais positifs = (18 + 25 + 12 + 4) / 59 = 1

        Prévu
        événement non-événement
    Observé événement 59 0
    non-événement 130 0

Ensemble de test distinct

Procédez comme pour la procédure out-of-bag, mais calculez les probabilités d'événements à partir des cas de l'ensemble de test.