Cette macro calcule l'extension pour cas multiples de la mesure de la distance de Cook pour cas unique. Selon la taille de l'ensemble des données, la mesure de distance peut être calculée pour l'ensemble des paires et groupes de trois cas. En outre, la mesure de la distance peut être calculée pour des sous-ensembles sélectionnés par l'utilisateur, allant jusqu'à dix cas. Les graphiques produits incluent un diagramme de la distance de Cook pour des cas uniques en fonction du nombre de cas, un diagramme d'identification des paires de cas influentes, ainsi que des diagrammes des effets pour paires fixes montrant l'effet (ou la modification de la distance de Cook) produit par l'ajout d'un troisième cas à une paire de cas fixe. Une fonctionnalité similaire est disponible pour les modèles sans terme constant
Assurez-vous que Minitab connaît l'emplacement de la macro que vous avez téléchargée. Sélectionnez . Sous Emplacement de la macro, accédez à l'emplacement où vous avez enregistré les fichiers macro.
Si vous utilisez un ancien navigateur Web, lorsque vous cliquez sur le bouton Télécharger, il est possible que le fichier s'ouvre dans Quicktime, qui partage l'extension de fichier .mac avec les macros de Minitab. Pour enregistrer la macro, cliquez avec le bouton droit de la souris sur le bouton Télécharger, puis sélectionnez Enregistrer la cible sous.
La syntaxe utilisée pour exécuter la macro varie légèrement en fonction de la version que vous utilisez.
L'exemple suivant utilise l'ensemble de données échantillons à vingt cas et cinq prédicteurs "Modified Data on Wood Specific Gravity" (données modifiées sur la densité de Wood), tiré de Rousseeuw et Leroy (1987). Les résultats statistiques des sous-ensembles de cas sélectionnés correspondent à ceux données par Seaver, Triantis et Reeves (1999).
Supposons que les valeurs de la réponse Y, la densité relative, se trouvent en C1 et que les valeurs des cinq prédicteurs, X1-X5, se trouvent dans les colonnes 2 à 6. Cinq sous-ensemble de cas ont été sélectionnés.
%MULTDIST C1-C6;
SUB1 5;
SUB2 8 19;
SUB3 6 8 19;
SUB4 4 8 19;
SUB5 4 6 8 19.
Cliquez sur Essai.
Voici ce que la macro produira.
Distance de Cook pour cas multiples Informations sur le modèle ------------------------ Réponse : Y Prédicteurs : X1 , X2 , X3 , X4 , X5 Paramètres : 6 Valeur de seuil : 1,00 ------------------------ *** Distance de Cook pour les paires de cas *** Cas Distance de Cook 7 , 11 1,03 *** Distance de Cook pour un sous-ensemble *** Cas : 5 Distance de Cook : 0,06 Cas : 8 , 19 Distance de Cook : 0,33 Cas : 6 , 8 , 19 Distance de Cook : 1,99 Cas : 4 , 8 , 19 Distance de Cook : 0,49 Cas : 4 , 6 , 8 , 19 Distance de Cook : 53,93
Les résultats du graphique ne sont pas affichés.
Taille du fichier de données
La limite de taille de l'ensemble des données pour le calcul de la distance de Cook est respectivement de 60 pour les paires de cas et de 30 pour les groupes de trois cas. La limite de taille de l'ensemble des données pour les calculs de sous-ensembles de cas est de 500. Vous pouvez modifier les limites des paires de cas et des groupes de trois cas dans la macro. Pour ce faire, rendez-vous à la section de code de la macro appelée "MSE check, triple, nopair" et remplacez 30 et 60 par les tailles souhaitées. Remarque : le temps de calcul augmente avec la taille de l'ensemble de données, particulièrement pour le calcul de tous les groupes de trois cas.
L'inverse n'existe pas
Lors de l'analyse d'un modèle de mélange, vous devez spécifier la commande NCONSTANT. Si vous ne le faites pas, vous obtiendrez un message d'erreur indiquant que l'inverse de la matrice XTX n'existe pas. En règle générale, si des prédicteurs sont (presque) parfaitement corrélés, vous obtiendrez ce message d'erreur.
Valeurs manquantes
La macro gère les données manquantes en supprimant les lignes en contenant. Ceci est illustré dans les résultats et les graphiques.
Références
Rousseeuw, P. J. et Leroy, A. M. (1987), Robust Regression & Outlier Detection, John Wiley & Sons, Inc.
Seaver B., Triantis, K. et Reeves, C. (1999), The Identification of Influential Subsets in Regression Using a Fuzzy Clustering Strategy, Technometrics, 41, 340-351.