Méthodes et formules pour les diagrammes de dépendance partielle dans Ajuster le modèle et Découvrir les prédicteurs principaux avec Classification TreeNet®

Remarque

Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.

Diagrammes de dépendance partielle à un prédicteur

Supposons qu’il y ait m prédicteurs dans un ensemble de données d'apprentissage, indiqué comme x1, x2, ..., xm. Tout d’abord, triez les valeurs distinctes du prédicteur x1 dans l’ensemble de données d'apprentissage dans l’ordre croissant. Désignez x11 comme la première valeur distincte de x1. Ensuite, x11 est la coordonnée x pour le point le plus à gauche du diagramme.

La coordonnée y à x1 = x11 vaut
TermeDescription
Nle nombre total de lignes dans l'ensemble de données d'apprentissage
les valeurs observées pour dans l'ensemble de données d'apprentissage
jchaque ligne individuelle des J lignes
la valeur ajustée du modèle lorsque x1 = x11, x2 = x2j,...., xm = xmj

En remplaçant x11 par chacune des valeurs distinctes de x1, nous obtenons les coordonnées y pour le reste des points sur le diagramme. Les calculs pour le reste des prédicteurs sont effectués de la même façon.

Les calculs de toutes les coordonnées y pour toutes les valeurs distinctes de x peuvent prendre beaucoup de temps avec de grands ensembles de données. Pour TreeNet®, il y a un moyen plus rapide de faire les calculs. Consultez Friedman, J. H. (2001). Greedy function approximation: A gradient boosting machine. The Annals of Statistics, 29(5), page 1221.

Les calculs pour le cas de réponse multinomiale sont semblables. Ici, la valeur ajustée provient du modèle pour chaque classe individuelle.

Diagrammes de dépendance partielle à deux prédicteurs

Supposons qu’il y ait m prédicteurs dans un ensemble de données d'apprentissage, indiqué comme x1, x2, ..., xm. Tout d’abord, triez les valeurs distinctes des prédicteurs x1, x2 dans l'ensemble de données d'apprentissage dans l’ordre croissant. Désignez x11, x21 comme une des paires distinctes. Ensuite, chaque paire constitue les coordonnées x et y pour un point sur le diagramme de surface.

La coordonnée z à x1 = x11, x2 = x21 vaut
TermeDescription
Nle nombre total de lignes dans l’ensemble de données d'apprentissage qui partagent toutes le point commun de x1 = x11, x2 = x21
les valeurs observées pour dans l'ensemble de données d'apprentissage
jchaque ligne individuelle des J lignes
la valeur ajustée du modèle lorsque x1 = x11, x2 = x21, x3 = x3j...., xm = xmj

L’achèvement des calculs pour toutes les combinaisons de valeurs distinctes de x1 et x2 produit toutes les coordonnées z pour le contour ou le diagramme de surface. Pour les grands ensembles de données, les calculs pour toutes les paires distinctes de x et y prennent beaucoup de temps. Pour les modèles TreeNet®, il existe un moyen plus rapide de faire les calculs. Consultez Friedman, J. H. (2001). Greedy function approximation: A gradient boosting machine. The Annals of Statistics, 29(5), page 1221.