Courbe de lift cumulé pour Classification CART®

La procédure de calcul du lift cumulé dépend de la méthode de validation. Pour une variable de réponse multinomiale, Minitab affiche plusieurs courbes qui traitent chaque classe une à une comme l’événement.

Ensemble de données d'apprentissage ou aucune validation

Chaque point de la courbe d’un ensemble de données d'apprentissage représente un nœud terminal de l’arbre. Le nœud terminal avec la probabilité d’événement la plus élevée est le premier point sur la courbe et apparaît le plus à gauche. Les autres nœuds terminaux sont dans l’ordre de probabilité d’événement décroissante.

Utilisez le processus suivant pour trouver les coordonnées X et Y des points.

  1. Calculez la probabilité d’événement de chaque nœud terminal :
    • n1,k est le nombre de cas dans la classe d’événements dans le ke nœud
    • Nk est le nombre de cas dans le ke nœud
  2. Classez les nœuds terminaux de la probabilité d’événement la plus élevée à la plus faible.
  3. Utilisez chaque probabilité d’événement comme seuil. Pour un seuil spécifique, les cas dont la probabilité d’événement est estimée supérieure ou égale au seuil ont une classe prévue de 1, et de 0 autrement. Vous pouvez ensuite créer un tableau 2 x 2 pour tous les cas, en indiquant les classes observées en lignes et les classes prédites en colonnes pour calculer le taux de vrais positifs de chaque nœud terminal.

    Supposons, par exemple, que le tableau suivant résume les valeurs d’un arbre avec quatre nœuds terminaux :

    A : Nœud terminal B : Nombre d'événements C : Nombre de cas D : Seuil (B/C)
    4 18 30 0,60
    1 25 67 0,37
    3 12 56 0,21
    2 4 36 0,11
    Totaux 59 189

    Les quatre tableaux suivants contiennent leurs taux de vrais positifs respectifs avec deux chiffres après la virgule :

    Tableau 1. Seuil = 0,60. Taux de vrais positifs = 18 / 59 = 0,31
    Prévu
    événement non-événement
    Observé événement 18 41
    non-événement 12 118
    Tableau 2. Seuil = 0,37. Taux de vrais positifs = (18 + 25) / 59 = 0,73
    Prévu
    événement non-événement
    Observé événement 43 16
    non-événement 54 76
    Tableau 3. Seuil = 0,21. Taux de vrais positifs = (18 + 25 + 12) / 59 = 0,93
    Prévu
    événement non-événement
    Observé événement 55 4
    non-événement 98 32
    Tableau 4. Seuil = 0,11. Taux de vrais positifs = (18 + 25 + 12 + 4) / 59 = 1
    Prévu
    événement non-événement
    Observé événement 59 0
    non-événement 130 0

  4. A partir des nœuds terminaux triés, trouvez le pourcentage de la population dans les nœuds terminaux :
    • Nk est le nombre de cas dans le ke nœud
    • N est le nombre de cas dans l’ensemble de données d'apprentissage
  5. A partir de la liste triée, calculez le pourcentage cumulé des données dans chaque nœud terminal. Ces valeurs cumulées sont représentées par les coordonnées X sur la courbe.

    Par exemple, si le nœud terminal avec la probabilité prévue la plus élevée contient 0,16 des données et que le nœud terminal avec la deuxième probabilité d’événement la plus élevée contient 0,35 de la population, alors le pourcentage cumulé des données pour le premier nœud terminal est de 0,16 et le pourcentage cumulé de la population pour le deuxième nœud terminal est de 0,16 + 0,35 = 0,51.

  6. Pour trouver le lift cumulé de la coordonnée Y, divisez le taux de vrais positifs par le pourcentage cumulé de la population :

Le tableau suivant montre un exemple des calculs pour un petit arbre. Les valeurs ont deux chiffres après la virgule.

A : Nœud terminal B : Nombre d'événements C : Nombre de cas D : Probabilité d’événement pour le tri (B/C) E : Taux de vrais positifs F : Pourcentage dans les données (C/somme de C) G : Pourcentage cumulé dans les données, coordonnée X H : Lift cumulé (E/G), coordonnée Y
4 18 30 0,60 0,31 0,16 0,16 1,92
1 25 67 0,37 0,73 0,35 0,51 1,42
3 12 56 0,21 0,93 0,30 0,81 1,15
2 4 36 0,11 1 0,19 1,00 1

Ensemble de données de test distinct

Suivez les mêmes étapes que pour le cas de l’ensemble de données d'apprentissage, mais calculez la probabilité d’événement à partir des cas pour l’ensemble de données de test.

Test avec validation croisée de K-ensemble(s)

La procédure de définition des coordonnées X et Y sur la courbe de lift cumulé avec validation croisée de K-ensemble(s) comporte une étape supplémentaire. Cette étape crée de nombreuses probabilités d’événement distinctes. Supposons, par exemple, que l’arborescence contienne 4 nœuds terminaux. Nous avons une validation croisée de 10 ensembles. Vous utilisez ensuite une portion de 9/10 des données pour le ie ensemble, afin d’estimer les probabilités d’événement pour les cas de l’ensemble i. Lorsque ce processus se répète pour chaque ensemble, le nombre maximal de probabilités d’événement distinctes est de 4 * 10 = 40. Après cela, triez toutes les probabilités d’événement distinctes dans l’ordre décroissant. Utilisez les probabilités d’événement comme chacune des valeurs seuils pour affecter les classes prévues aux cas dans tout l’ensemble des données. Après cette étape, appliquez l’étape 3 jusqu’à la dernière étape de la procédure d’ensemble de données d'apprentissage pour trouver les coordonnées X et Y.