Insira seus dados para Agrupamento de variáveis

Estat > Multivariada > Agrupamento de variáveis

Inserir seus dados

Em Matriz de distância ou variáveis, insira as colunas que contêm os dados de medição ou uma matriz de distância armazenada que contém as distâncias entre todos os pares de variáveis.

Observação

Se você inserir uma matriz de distância armazenada, o Minitab não pode calcular estatísticas para a partição final.

Para os dados de medição, você deve ter duas ou mais colunas numéricas, e cada coluna deve representar uma medição diferente. Delete as linhas que têm dados faltantes da worksheet antes de realizar esta análise. Se você tiver várias linhas de dados, crie subconjuntos da sua worksheet para excluir as linhas com valores faltantes. Para obter mais informações, acesse Visão geral da worksheet de subconjunto.

Você não pode inserir uma variável categórica para esta análise. Se você tiver uma variável categórica, deverá, primeiro, converter os valores de texto para uma escala numérica, ou você deverá realizar uma análise separada para cada nível de variável categórica. Para obter mais informações, acesse Considerações de dados para Agrupamento de variáveis.

Para a matriz de distância armazenada, a entrada na linha i e na coluna j da matriz de distância D é a distância entre as variáveis i e j. Para obter mais informações sobre como criar e usar matrizes armazenadas no Minitab, acesse Visão geral para matrizes.

Nesta worksheet, cada coluna contém as medições em diferentes variáveis, medidas em diferentes cidades ao redor do mundo, que podem estar associadas com taxas de admissão na faculdade. As variáveis incluem o número de exemplares de jornal, aparelhos de rádio e televisão por 1.000 pessoas em diferentes cidades, o grau de alfabetização e a existência de uma universidade. Os investigadores esperam reduzir o número de variáveis combinando as variáveis com base em características similares.
C1 C2 C3 C4 C5
Jornal Rádio Aparelhos de TV Taxa de alfabetização Universidade
279 267 227 0,98 1
143 112 332 0,94 1
9 113 7 0,25 0
391 314 566 0,99 1
112 48 423 0,82 1
67 66 134 0,45 0

Especificar o método de ligação

Em Método de ligação, selecione um método para especificar como a distância entre dois agrupamentos é definida. Você pode querer experimentar diversos métodos de ligação para ver qual método fornece os resultados mais úteis para seus dados.

Observação

Para Agrupamento de observações, a distância se refere à distância entre observações, e a ligação se refere à distância entre os agrupamentos de observações. Para Agrupamento de variáveis, a distância se refere à distância entre variáveis e a ligação se refere à distância entre agrupamentos de variáveis.

Média
A distância entre dois agrupamentos é a distância média entre uma observação (ou variável) em um agrupamento e uma observação (ou variável) no outro agrupamento. Enquanto os métodos de ligação única ou completo são baseados em distâncias simples entre pares, o método de ligação por média usa uma medida mais central do local.
Centróide
A distância entre dois agrupamentos é a distância entre os centroides ou médias. Como o método de ligação por média, este método também é uma técnica de extração de média.
Completa
A distância entre dois agrupamentos é a distância máxima entre uma observação (ou variável) em um agrupamento e uma observação (ou variável) no outro agrupamento. Este método, também chamado de método do vizinho mais distante, assegura que todas as observações (ou variáveis) em um agrupamento estejam dentro de uma distância máxima, e tende a produzir agrupamentos que têm diâmetros similares. Contudo, os resultados são enormemente afetados por outliers.
McQuitty
A distância do novo agrupamento para qualquer outro agrupamento é calculada como a média das distâncias dos agrupamentos que serão unidos em breve até esse outro agrupamento. Por exemplo, se os agrupamentos 1 e 3 serão unidos em um novo agrupamento, digamos, 1*, a distância entre 1* e o agrupamento 4 será a média das distâncias de 1 a 4 e 3 a 4. Para este método, a distância depende de uma combinação de agrupamentos, em vez de observações individuais (ou variáveis) nos agrupamentos.
Mediana
A distância entre dois agrupamentos é a distância média entre uma observação (ou variável) em um agrupamento e uma observação (ou variável) no outro agrupamento. Como essa técnica de extração de média usa a mediana em vez da média, ela reduz o efeito de outliers.
Único
A distância entre dois agrupamentos é a distância média entre uma observação (ou variável) em um agrupamento e uma observação (ou variável) no outro agrupamento. Este método, também chamado de método do vizinho mais distante, é uma boa escolha quando os agrupamentos estão obviamente separados. Quando as observações (ou variáveis) estão próximas, o método de ligação única tende a identificar agrupamentos longos em forma de cadeia, com distâncias relativamente grandes separando as observações nos dois extremos da cadeia.
Ward
A distância entre dois agrupamentos é a soma dos desvios quadrados dos pontos aos centroides. O objetivo do método da ligação de Ward é minimizar a soma dos quadrados dentro do agrupamento. Este método tente a produzir agrupamentos que têm números similares de observações (ou variáveis), mas ele é sensível a outliers. Além disso, a distância entre dois agrupamentos pode, algumas vezes, ser maior do que dmax, que é o valor máximo na matriz da distância original. Quando isso ocorre, o valor da similaridade é negativo.

Especifique a medida da distância

Em Medida de distância, selecione o método para calcular a distância entre variáveis.
  • CorrelaçãoO método de correlação fornece distâncias entre 0 e 1 para correlações positivas e entre 1 e 2 para correlações negativas. Se fizer sentido considerar dados negativamente correlacionados como mais afastados do que dados correlacionados positivamente, use o método de correlação.
  • Correlação absoluta: O método de correlação absoluta fornece distâncias entre 0 e 1. Se você acha que a força da relação é importante ao considerar a distância e não o sinal, use o método de correlação absoluta.

Especificar a partição final

Indique os critérios que deseja usar para determinar os agrupamentos finais.
  • Número de agrupamentos: Selecione para inserir o número de agrupamentos para a partição final.
  • Nível de similaridade: Selecione para inserir o nível de similaridade para os agrupamentos na partição final.

Para os melhores resultados, você deve ser flexível com os critérios. Por exemplo, se definir a partição final usando o número de agrupamentos, você deverá também considerar mudanças no nível de similaridade, também. Uma queda abrupta na similaridade ao adicionar um agrupamento específico pode avisá-lo para especificar a partição final antes deste agrupamento. Por outro lado, se você definir a partição final usando o nível de similaridade, poderá determinar quais níveis de similaridade não mudam muito com relação a uma faixa de agrupamentos e, para fins de simplicidade, você pode escolher o passo com o menor número de agrupamentos.

Observação

Se você não souber que valor inserir para especificar a partição final, primeiro realize a análise usando a configuração padrão (1 agrupamento na partição final). O Minitab exibe os resultados para todos os números possíveis de agrupamentos. Use os resultados para determinar um valor a inserir para a partição final. Depois, repita a análise e especifique a partição final que você determinou. Para obter mais informações, vá para Determinar o agrupamento final dos agrupamentos.

Exibir dendrograma

Selecione para exibir um diagrama de árvore que mostra como os agrupamentos foram formados em cada passo no procedimento de amalgamação. O dendrograma permite visualizar os valores de similaridade (ou distância) para os agrupamentos em cada passo.

Para mudar a exibição padrão do dendrograma, clique em Personalizar.