Courbe de la fonction d'efficacité du récepteur (ROC) pour la fonction Classification CART®

La procédure utilisée pour les points de la courbe ROC dépend de la méthode de validation. Pour une variable de réponse multinomiale, Minitab affiche plusieurs courbes qui traitent chaque classe une à une comme l’événement.

Ensemble de données d’apprentissage ou aucune validation

Chaque point de la courbe d’un ensemble de données d’apprentissage représente un nœud terminal de l’arbre. Le nœud terminal avec la probabilité d’événement la plus élevée est le premier point sur la courbe et apparaît le plus à gauche. Les autres nœuds terminaux sont dans l’ordre de probabilité d’événement décroissante.

Utilisez le procédé suivant pour trouver les coordonnées X et Y sur la courbe.

  1. Calculez la probabilité d’événement de chaque nœud terminal :
    • N1,k1,k est le nombre d'événements dans le ke nœud
    • Nk est le nombre de cas dans le ke nœud
  2. Classez les nœuds terminaux par probabilité d'événement, de la plus élevée à la plus faible.
  3. Utilisez chaque probabilité d’événement comme seuil. Pour un seuil spécifique, les cas dont la probabilité d'événement est estimée supérieure ou égale au seuil ont une classe prévue de 1, contre 0 dans les autres cas. Vous pouvez ensuite créer un tableau 2 x 2 pour tous les cas, en indiquant les classes observées dans les lignes et les classes prédites dans les colonnes pour calculer le taux de faux positifs et le taux de vrais positifs de chaque nœud terminal. Les taux de faux positifs sont les coordonnées X de la courbe et les taux de vrais positifs les coordonnées Y.

    Supposons, par exemple, que le tableau suivant résume les valeurs d'un arbre avec 4 nœuds terminaux :

    A : Nœud terminal B : Nombre d'événements C : Nombre de non-événements D : Nombre de cas E : Seuil (B/D)
    4 18 12 30 0,60
    1 25 42 67 0,37
    3 12 44 56 0,21
    2 4 32 36 0,11
    Totaux 59 130 189  

    Les 4 tableaux suivants contiennent leurs taux de faux positifs et de vrais positifs respectifs avec 2 chiffres après la virgule :

    Tableau 1. Seuil = 0,60.

    Taux de faux positifs = 12 / (12 + 118) = 0,09

    Taux de vrais positifs = 18 / (18 + 41) = 0,31

        Prévu
        événement non-événement
    Observé événement 18 41
    non-événement 12 118
    Tableau 2. Seuil = 0,37.

    Taux de faux positifs = (12 + 42) / 130 = 0,42

    Taux de vrais positifs = (18 + 25) / 59 = 0,73

        Prévu
        événement non-événement
    Observé événement 43 16
    non-événement 54 76
    Tableau 3. Seuil = 0,21.

    Taux de faux positifs = (12 + 42 + 44) / 130 = 0,75

    Taux de vrais positifs = (18 + 25 + 12) / 59 = 0,93

        Prévu
        événement non-événement
    Observé événement 55 4
    non-événement 98 32
    Tableau 4. Seuil = 0,11.

    Taux de faux positifs = (12 + 42 + 44 + 32) / 130 = 1

    Taux de vrais positifs = (18 + 25 + 12 + 4) / 59 = 1

        Prévu
        événement non-événement
    Observé événement 59 0
    non-événement 130 0

Ensemble de données de test distinct

Suivez les mêmes étapes que pour la procédure de l’ensemble de données d'apprentissage, mais calculez la probabilité d’événement à partir des cas pour l’ensemble de données de test.

Test avec validation croisée sur K partitions

La procédure de définition des coordonnées X et Y sur la courbe ROC avec validation croisée sur K partitions comporte une étape supplémentaire. Cette étape crée de nombreuses probabilités d’événement distinctes. Supposons, par exemple, que l’arborescence contienne 4 nœuds terminaux. Nous avons une validation croisée de 10 partitions. Vous utilisez ensuite une portion de 9/10 des données pour la ie partition, afin d'estimer les probabilités d'événements pour les cas de la partition i. Lorsque ce procédé se répète pour chaque partition, le nombre maximal de probabilités d'événements distinctes est de 4 * 10 = 40. Après cela, triez toutes les probabilités d’événement distinctes dans l’ordre décroissant. Utilisez les probabilités d’événement pour chacune des valeurs seuils pour affecter les classes prévues aux cas dans tout l’ensemble de données. Après cette étape, appliquez l’étape 3 jusqu’à la dernière étape de la procédure d’ensemble de données d'apprentissage pour trouver les coordonnées X et Y.