Chaque point de la courbe d’un ensemble de données d’apprentissage représente un nœud terminal de l’arbre. Le nœud terminal avec la probabilité d’événement la plus élevée est le premier point sur la courbe et apparaît le plus à gauche. Les autres nœuds terminaux sont dans l’ordre de probabilité d’événement décroissante.
Utilisez le processus suivant pour trouver les coordonnées X et Y des points.
Supposons, par exemple, que le tableau suivant résume les valeurs d'un arbre avec 4 nœuds terminaux :
A : Nœud terminal | B : Nombre d'événements | C : Nombre de cas | D : Seuil (B/D) |
---|---|---|---|
4 | 18 | 30 | 0,60 |
1 | 25 | 67 | 0,37 |
3 | 12 | 56 | 0,21 |
2 | 4 | 36 | 0,11 |
Totaux | 59 | 189 |
Les quatre tableaux suivants contiennent leurs taux de vrais positifs respectifs avec deux chiffres après la virgule :
Prévu | |||
---|---|---|---|
événement | non-événement | ||
Observé | événement | 18 | 41 |
non-événement | 12 | 118 |
Prévu | |||
---|---|---|---|
événement | non-événement | ||
Observé | événement | 43 | 16 |
non-événement | 54 | 76 |
Prévu | |||
---|---|---|---|
événement | non-événement | ||
Observé | événement | 55 | 4 |
non-événement | 98 | 32 |
Prévu | |||
---|---|---|---|
événement | non-événement | ||
Observé | événement | 59 | 0 |
non-événement | 130 | 0 |
Par exemple, si le nœud terminal avec la probabilité prévue la plus élevée contient 0,16 des données et que le nœud terminal avec la deuxième probabilité prévue la plus élevée contient 0,35 des données, alors le pourcentage cumulé des données pour le premier nœud terminal est de 0,16 et le pourcentage cumulé des données pour le deuxième nœud terminal est de 0,16 + 0,35 = 0,51.
Le tableau suivant montre un exemple des calculs pour un petit arbre. Les valeurs ont 2 chiffres après la virgule.
A : Nœud terminal | B : Nombre d'événements | C : Nombre de cas | D : Probabilité d’événement pour le tri (B/C) | E : Taux de vrais positifs (coordonnée Y) | F : Pourcentage dans les données (C/somme de C) | G : Pourcentage cumulé dans les données, coordonnée X |
---|---|---|---|---|---|---|
4 | 18 | 30 | 0,60 | 0,31 | 0,16 | 0,16 |
1 | 25 | 67 | 0,37 | 0,73 | 0,35 | 0,51 |
3 | 12 | 56 | 0,21 | 0,93 | 0,30 | 0,81 |
2 | 4 | 36 | 0,11 | 1 | 0,19 | 1,00 |
Suivez les mêmes étapes que pour le cas de l'ensemble de données d'apprentissage, mais calculez les probabilités d'événements à partir des cas pour l'ensemble de données de test.
La procédure de définition des coordonnées X et Y sur la courbe des gains avec validation croisée sur K partitions comporte une étape supplémentaire. Cette étape crée de nombreuses probabilités d’événement distinctes. Supposons, par exemple, que l’arborescence contienne 4 nœuds terminaux. Nous avons une validation croisée de 10 partitions. Vous utilisez ensuite une portion de 9/10 des données pour la ie partition, afin d'estimer les probabilités d'événements pour les cas de la partition i. Lorsque ce procédé se répète pour chaque partition, le nombre maximal de probabilités d'événements distinctes est de 4 * 10 = 40. Après cela, triez toutes les probabilités d’événement distinctes dans l’ordre décroissant. Utilisez les probabilités d’événement pour chacune des valeurs seuils pour affecter les classes prévues aux cas dans tout l’ensemble de données. Après cette étape, appliquez l’étape 3 jusqu’à la dernière étape de la procédure d’ensemble de données d'apprentissage pour trouver les coordonnées X et Y.