Distância de Cook para múltiplos casos

Esta macro calcula a extensão de casos múltiplos de medida da distância de Cook para caso individual. Dependendo do tamanho do conjunto de dados, a medida da distância pode ser calculada para todos os pares e tripletos de casos. Além disso, a medida de distância pode ser calculada para subconjuntos selecionados pelo usuário de até dez casos. Os gráficos produzidos incluem uma plotagem da distância de Cook para casos individuais contra número do caso, um gráfico de identificação de pares de casos influente, e gráficos de efeito de par fixo que mostram o efeito, ou a mudança na distância de Cook, devido à adição de um terceiro caso a um par fixo de casos. Como uma funcionalidade, está disponível para os modelos sem termo constante

Download da macro

Certifique-se de que o Minitab sabe onde encontrar a macro baixada. Escolha Arquivo > Opções > Geral. Em Local da macro navegue até o local em que você salva os arquivos de macro.

Importante

Se você usar um navegador mais antigo, quando clicar no botão Download, o arquivo pode abrir no Quicktime, que compartilha a extensão de arquivo .mac com macros do Minitab. Para salvar a macro, clique com o botão direito do mouse no botão Download e selecione Salvar arquivo como.

Entradas obrigatórias

  • Uma coluna de valores de resposta
  • Várias colunas de valores de preditoras

Entradas opcionais

segurar
Use para especificar um par de casos do qual criar gráficos de efeito de par fixo.
Nenhuma constante
Use se você não quiser nenhum termo constante no modelo. Este comando é especialmente útil se você estiver analisando um modelo de mistura, caso em que o termo constante é omitido do modelo para evitar deficiência no posto na matriz XTX.
NOPAIR
Use se você não quiser calcular valores de distância para todos os pares de casos. O uso deste subcomando requer o cálculo de todos tripletos, o cálculo de um ou mais subconjuntos selecionados, ou o uso do subcomando hold.
NOPLOTS
Use se você não quiser exibir gráficos de diagnóstico.
REPORTALL
Use para relatar todos os valores de distância calculados. Selecionar este subcomando elimina comparações com o valor limite uma vez que todos os valores de distância são relatados. Se você selecionar este subcomando, o valor limite ainda será mostrado nos gráficos como um recurso visual.
SPAIRS C C C
Use este subcomando para armazenar todos os valores de distância para pares de casos na worksheet. Especifique três colunas, as duas primeiras para os índices e a terceira para os valores de distância.
STRIPLES C C C C
Use para armazenar todos os valores de distância para tripletos de casos na worksheet. Especifique quatro colunas; as três primeiras para os índices e a quarta para os valores de distância.
SUB1 K…K
Use este subcomando se você quiser calcular o valor da distância para um subconjunto selecionado de até dez casos (K). Este subcomando é especialmente útil para subconjuntos de mais de três casos. Você pode especificar até cinco subconjuntos usando o subcomando SUB1, SUB2, SUB3, SUB4 e SUB5.
THRESHOLD K
Use para especificar um valor limite. Por padrão, o valor limite é 1,00. A saída irá mostrar todos os resultados calculados que são maiores que este valor ou iguais a ele. O limite especificado deve ser um valor numérico positivo.
triplicar
Use este subcomando se você deseja que a macro calcule a distância de Cook para todos os tripletos de caso e compare com o padrão ou valor limite especificado.

Execução da macro

A sintaxe usada para executar a macro varia um pouco dependendo da versão que é utilizada.

O exemplo a seguir usa os dados amostrais que são o conjunto de dados "Modified Data on Wood Specific Gravity" de vinte casos e cinco preditoras em Rousseeuw and Leroy (1987). Os resultados computacionais dos subconjuntos dos cinco casos selecionados correspondem àqueles fornecidos em Seaver, Triantis, and Reeves (1999).

Suponha que os valores de resposta Y, específicos da gravidade, estejam em C1 e que os valores das cinco preditoras, X1-X5, estejam nas colunas 2-6. Cinco casos de subconjuntos foram selecionados.

Para executar a macro, selecione Visualizar > Linha de comandos/histórico e digite:
%MULTDIST C1-C6;
SUB1 5;
SUB2 8 19;
SUB3 6 8 19;
SUB4 4 8 19;
SUB5 4 6 8 19.

Clique em Ensaio.

Saída

Aqui está o que a macro irá produzir.

Informações sobre o modelo de distância de vários casos ------------------------ resposta:Preditor Y%X2 X3 X4 - X5 C10valor do limite 1,00 ------------------------ *** Distância de Cook para Pares de Casos *** Casos Distância de Cook 7 , 11 1,03 *** Distância de Cook para um Subdefinito *** Casos:Distância de Cook 0.06 Casos:Distância de Cook 0.33 Casos: 6 , 8 , 19 Distância de Cook: 1,99 Casos: 4 , 8 , 19 Distância de Cook: 0.49 Casos: 4 , 6 , 8 , 19 Distância de Cook: 53,93
Observação

Saída do gráfico não mostrada.

Mais informações

Tamanho do conjunto de dados

O limite do tamanho do conjunto de dados para cálculo da Distância de Cook é 60 e 30 para pares e tripletos de casos respectivamente. O limite do tamanho do conjunto de dados para cálculos de subconjuntos de casos é 500. Você pode mudar os limites de pares e tripletos de casos dentro da macro. Para mudar os limites, vá para a seção no código da macro rotulado "MSE check, triple, nopair" e mude 30 e 60 para os tamanhos que você quer. Observe que o cálculo de tempo aumenta conforme aumenta o tamanho do conjunto de dados, especialmente para cálculos de todos os tripletos.

Inversa não existe

Se estiver analisando um modelo de mistura, você deve especificar o subcomando NOCONSTANT. Se você não fizer isso, receberá uma mensagem de erro indicando que a inversa da matriz XTX não existe. Geralmente, se houver alguma preditora (quase) perfeitamente correlacionado, você receberá esta mensagem de erro.

Valores faltantes

A macro lida com os dados ausentes removendo as linhas que têm dados ausentes nelas. Isso é mostrado na saída e nos gráficos.

Referências

Rousseeuw, P. J. and Leroy, A. M. (1987), Robust Regression & Outlier Detection, John Wiley & Sons, Inc.

(1999), The Identification of Influential Subsets in Regression Using a Fuzzy Clustering Strategy, Technometrics, 41, 340-351.