Données d’entraînement ou absence de validation
Pour le graphique d’un ensemble de données d’entraînement, chaque point du graphique représente une probabilité d’événement ajustée distincte. La probabilité d’événement la plus élevée est le premier point du graphique et apparaît le plus à gauche. Les autres nœuds terminaux sont classés par ordre décroissant de probabilité d’événement.
Utilisez le processus suivant pour trouver les coordonnées x et y de la carte.
- Utilisez chaque probabilité d’événement comme seuil. Pour un seuil spécifique, les cas dont la probabilité d’événement estimée est supérieure ou égale au seuil obtiennent 1 comme classe prédite, 0 dans le cas contraire. Ensuite, vous pouvez former une table 2x2 pour tous les cas avec des classes observées sous forme de lignes et des classes prédites sous forme de colonnes pour calculer le taux de faux positifs et le taux de vrais positifs pour chaque probabilité d’événement. Les taux de faux positifs sont les coordonnées x de la carte. Les vrais taux positifs sont les coordonnées y.
Par exemple, supposons que le tableau suivant récapitule un modèle avec deux prédicteurs catégoriels à 2 niveaux. Ces prédicteurs donnent quatre probabilités d’événements distinctes, qui sont arrondies à 2 décimales :
Un: Commande |
B: Prédicteur 1 |
C: Prédicteur 2 |
D: Nombre d’événements |
E: Nombre de non-événements |
F: Nombre d’essais |
G: Seuil (D/F) |
1 |
1 |
1 |
18 |
12 |
30 |
0,60 |
2 |
1 |
2 |
25 |
42 |
67 |
0,37 |
3 |
2 |
1 |
12 |
44 |
56 |
0,21 |
4 |
2 |
2 |
4 |
32 |
36 |
0,11 |
Totaux |
|
|
59 |
130 |
189 |
|
Voici les quatre tables correspondantes avec leurs taux respectifs de faux positifs et de vrais positifs arrondis à 2 décimales :
Tableau 1. Seuil = 0,60.
Taux de faux positifs = 12 / (12 + 118) = 0,09
Taux de vrais positifs = 18 / (18 + 41) = 0,31
|
|
Prédit |
|
|
événement |
non-événement |
Observé |
événement |
18 |
41 |
non-événement |
12 |
118 |
Tableau 2. Seuil = 0,37.
Taux de faux positifs = (12 + 42) / 130 = 0,42
Taux de vrais positifs = (18 + 25) / 59 = 0,73
|
|
Prédit |
|
|
événement |
non-événement |
Observé |
événement |
43 |
16 |
non-événement |
54 |
76 |
Tableau 3. Seuil = 0,21.
Taux de faux positifs = (12 + 42 + 44) / 130 = 0,75
Taux de vrais positifs = (18 + 25 + 12) / 59 = 0,93
|
|
Prédit |
|
|
événement |
non-événement |
Observé |
événement |
55 |
4 |
non-événement |
98 |
32 |
Tableau 4. Seuil = 0,11.
Taux de faux positifs = (12 + 42 + 44 + 32) / 130 = 1
Taux de vrais positifs = (18 + 25 + 12 + 4) / 59 = 1
|
|
Prédit |
|
|
événement |
non-événement |
Observé |
événement |
59 |
0 |
non-événement |
130 |
0 |
Jeu de données de test séparé
Utilisez les mêmes étapes que la procédure d’ensemble de données d’entraînement, mais calculez la probabilité d’événement à partir des cas de l’ensemble de données de test.
Test avec validation croisée k-fold
Utilisez les mêmes étapes que la procédure d’ensemble de données d’entraînement, mais calculez les probabilités d’événement à partir des cas pour les données validées par croisement.