Distance de Cook pour cas multiples

Cette macro calcule l'extension pour cas multiples de la mesure de la distance de Cook pour cas unique. Selon la taille de l'ensemble des données, la mesure de distance peut être calculée pour l'ensemble des paires et groupes de trois cas. En outre, la mesure de la distance peut être calculée pour des sous-ensembles sélectionnés par l'utilisateur, allant jusqu'à dix cas. Les graphiques produits incluent un diagramme de la distance de Cook pour des cas uniques en fonction du nombre de cas, un diagramme d'identification des paires de cas influentes, ainsi que des diagrammes des effets pour paires fixes montrant l'effet (ou la modification de la distance de Cook) produit par l'ajout d'un troisième cas à une paire de cas fixe. Une fonctionnalité similaire est disponible pour les modèles sans terme constant

Télécharger la macro

Assurez-vous que Minitab connaît l'emplacement de la macro que vous avez téléchargée. Sélectionnez .Fichier > Options > Général Sous Emplacement de la macro, accédez à l'emplacement où vous avez enregistré les fichiers macro.

Important

Si vous utilisez un ancien navigateur Web, lorsque vous cliquez sur le bouton Télécharger, il est possible que le fichier s'ouvre dans Quicktime, qui partage l'extension de fichier .mac avec les macros de Minitab. Pour enregistrer la macro, cliquez avec le bouton droit de la souris sur le bouton Télécharger, puis sélectionnez Enregistrer la cible sous.

Téléchargement MULTDIST.mac

Entrées requises

Une colonne de valeurs de réponse
Plusieurs colonnes de valeurs de prédicteur

Entrées facultatives

HOLD: Permet d'indiquer une paire de cas à partir de laquelle créer des diagrammes d'effets à paire fixe.
NOCONSTANT: A utiliser si vous ne souhaitez pas de terme constant dans le modèle. Cette commande est particulièrement utile si vous analysez un modèle de mélange dans lequel le terme constant est omis pour éviter une déficience des rangs dans la matrice XTX.
NOPAIR: A utiliser si vous ne souhaitez pas calculer les valeurs de distance pour toutes les paires de cas. L'utilisation de cette sous-commande requiert le calcul de tous les cas triples, le calcul d'au moins un sous-ensemble sélectionné, ou l'utilisation de la sous-commande HOLD.
NOPLOTS: A utiliser si vous ne souhaitez pas afficher de diagrammes de diagnostic.
REPORTALL: Permet de consigner toutes les valeurs de distance calculées. La sélection de cette sous-commande élimine les comparaisons avec la valeur de seuil, étant donné que toutes les valeurs de distance sont consignées. Si vous choisissez cette sous-commande, la valeur de seuil sera toujours affichée sur les graphiques en tant qu'aide visuelle.
SPAIRS C C C: Utilisez cette sous-commande pour stocker toutes les valeurs de distance pour les paires de cas de la feuille de travail. Spécifiez trois colonnes, les deux premières pour les indices et la troisième pour les valeurs de distance.
STRIPLES C C C C: Utilisez cette sous-commande pour stocker toutes les valeurs de distance pour les groupes de trois cas de la feuille de travail. Spécifiez quatre colonnes, les trois premières pour les indices et la quatrième pour les valeurs de distance.
SUB1 K…K: Utilisez cette sous-commande si vous souhaitez calculer la valeur de distance d'un sous-ensemble sélectionné de dix cas ou moins (K). Cette sous-commande est particulièrement utile pour les sous-ensembles de plus de trois cas. Vous pouvez spécifier jusqu'à cinq sous-ensembles en utilisant les sous-commandes SUB1, SUB2, SUB3, SUB4, et SUB5.
THRESHOLD K: Permet de spécifier une valeur de seuil. La valeur de seuil par défaut est 1,00. Les résultats afficheront tous les résultats calculés supérieurs ou égaux à cette valeur. Le seuil spécifié doit être une valeur numérique positive.
TRIPLE: Utilisez cette sous-commande si vous souhaitez que la macro calcule la distance de Cook pour tous les groupes de trois cas et qu'elle la compare à la valeur par défaut ou à la valeur de seuil spécifiée.

Exécution de la macro

La syntaxe utilisée pour exécuter la macro varie légèrement en fonction de la version que vous utilisez.

L'exemple suivant utilise l'ensemble de données échantillons à vingt cas et cinq prédicteurs "Modified Data on Wood Specific Gravity" (données modifiées sur la densité de Wood), tiré de Rousseeuw et Leroy (1987). Les résultats statistiques des sous-ensembles de cas sélectionnés correspondent à ceux données par Seaver, Triantis et Reeves (1999).

Supposons que les valeurs de la réponse Y, la densité relative, se trouvent en C1 et que les valeurs des cinq prédicteurs, X1-X5, se trouvent dans les colonnes 2 à 6. Cinq sous-ensemble de cas ont été sélectionnés.

Pour exécuter la macro, sélectionnez Affichage > Ligne de commande/Historique et saisissez :

%MULTDIST C1-C6;
SUB1 5;
SUB2 8 19;
SUB3 6 8 19;
SUB4 4 8 19;
SUB5 4 6 8 19.

Cliquez sur Essai.

Résultats

Voici ce que la macro produira.

Distance de Cook pour cas multiples

Informations sur le modèle
------------------------
Réponse :     Y

Prédicteurs :   X1 , X2 , X3 , X4 , X5                                            

Paramètres :    6
 
Valeur de seuil :    1,00
------------------------
 
*** Distance de Cook pour les paires de cas ***
 
     Cas        Distance de Cook

     7 , 11             1,03

 
*** Distance de Cook pour un sous-ensemble ***

     Cas :  5   Distance de Cook :  0,06                                              


     Cas :   8 , 19   Distance de Cook :  0,33                                        


     Cas :   6 ,  8 , 19   Distance de Cook :  1,99                                   


     Cas :   4 ,  8 , 19   Distance de Cook :  0,49                                   


     Cas :   4 ,  6 ,  8 , 19   Distance de Cook :  53,93

Remarque

Les résultats du graphique ne sont pas affichés.

Informations supplémentaires

Taille du fichier de données

La limite de taille de l'ensemble des données pour le calcul de la distance de Cook est respectivement de 60 pour les paires de cas et de 30 pour les groupes de trois cas. La limite de taille de l'ensemble des données pour les calculs de sous-ensembles de cas est de 500. Vous pouvez modifier les limites des paires de cas et des groupes de trois cas dans la macro. Pour ce faire, rendez-vous à la section de code de la macro appelée "MSE check, triple, nopair" et remplacez 30 et 60 par les tailles souhaitées. Remarque : le temps de calcul augmente avec la taille de l'ensemble de données, particulièrement pour le calcul de tous les groupes de trois cas.

L'inverse n'existe pas

Lors de l'analyse d'un modèle de mélange, vous devez spécifier la commande NCONSTANT. Si vous ne le faites pas, vous obtiendrez un message d'erreur indiquant que l'inverse de la matrice XTX n'existe pas. En règle générale, si des prédicteurs sont (presque) parfaitement corrélés, vous obtiendrez ce message d'erreur.

Valeurs manquantes

La macro gère les données manquantes en supprimant les lignes en contenant. Ceci est illustré dans les résultats et les graphiques.

Références

Rousseeuw, P. J. et Leroy, A. M. (1987), Robust Regression & Outlier Detection, John Wiley & Sons, Inc.

Seaver B., Triantis, K. et Reeves, C. (1999), The Identification of Influential Subsets in Regression Using a Fuzzy Clustering Strategy, Technometrics, 41, 340-351.