Cette commande est disponible avec le Module d'analyse prédictive. Cliquez ici pour plus d'informations sur l'activation du module.
Les modèles TreeNet® sont une approche de la résolution de problèmes de classification et de régression à la fois plus exacts et plus résistants au surajustement qu'un seul arbre de classification ou de régression. De manière générale, ce procédé consiste à commencer par un modèle initial composé d'un petit arbre de régression. Cet arbre donne des valeurs résiduelles pour chaque ligne des données qui deviennent la variable de réponse pour l’arbre de régression suivant. Nous construisons un autre petit arbre de régression pour prédire les valeurs résiduelles à partir du premier arbre et calculons à nouveau les valeurs résiduelles résultantes. Nous répétons cette séquence jusqu'à ce qu'un nombre optimal d'arbres présentant une erreur de prédiction minimale soit identifié à l'aide d'une méthode de validation. La séquence d'arbres qui en résulte constitue le modèle de classification TreeNet®.
Pour le cas de classification, nous pouvons ajouter des détails mathématiques afin d'effectuer une analyse avec une réponse binaire et une analyse avec une réponse multinomiale.
Où est le nombre d'événements et est le nombre de non-événements.
Entrée | Symbole |
---|---|
taux d'apprentissage | |
taux d'échantillonnage | |
nombre maximal de nœuds terminaux par arbre | |
nombre d'arbres |
et est un vecteur qui représente la ie ligne des valeurs du prédicteur dans les données d'apprentissage.
Terme | Description |
---|---|
nombre d'événements dans le nœud terminal m de l'arbre j | |
nombre de cas dans le nœud terminal m de l'arbre j | |
moyenne arithmétique de pour tous les cas dans le nœud terminal m de l'arbre j |
où est le nombre de cas où la valeur de réponse est k et N est le nombre de lignes dans les données d'apprentissage.
Entrée | Symbole |
---|---|
taux d'apprentissage | |
taux d'échantillonnage | |
nombre maximal de nœuds terminaux par arbre | |
nombre d'arbres |
Le calcul des probabilités à partir des ajustements prend en compte la nature dépendante de ces arbres. Autrement, le processus est sensiblement le même que pour le cas binaire.
où
et est un vecteur qui représente la ie ligne des valeurs de prédicteur dans l’ensemble de données d'apprentissage.
où
Terme | Description |
---|---|
nombre de cas pour le résultat k dans le nœud terminal m de l'arbre j | |
nombre de cas dans le nœud terminal m de l'arbre j | |
moyenne arithmétique de pour tous les cas dans le nœud terminal m de l’arbre j. |