Insira seus dados para Agrupar observações

Estat > Multivariada > Agrupamento de Observações

Especifique os dados da sua análise, selecione a ligação e os métodos de distância, indique se deve ou não padronizar as variáveis, especifique a partição final e selecione as opções de gráfico.

Insira seus dados

Em Matriz de distância ou variáveis, insira as colunas que contêm os dados de medição ou uma matriz de distância armazenada que contém as distâncias entre todos os pares de observações.

Observação

Se você inserir uma matriz de distância armazenada, o Minitab não pode calcular estatísticas para a partição final.

Para os dados de medição, você deve ter duas ou mais colunas numéricas, e cada coluna deve representar uma medição diferente. Delete as linhas que têm dados faltantes da worksheet antes de realizar esta análise. Se você tiver várias linhas de dados, crie subconjuntos da sua worksheet para excluir as linhas que têm valores faltantes. Para obter mais informações, vá para Visão geral de Subdividir worksheet.

Você não pode inserir uma variável categórica para esta análise. Se você tiver uma variável categórica, deverá, primeiro, converter os valores de texto para uma escala numérica, ou você deverá realizar uma análise separada para cada nível de variável categórica. Para obter mais informações, vá para Considerações de dados para Agrupar observações.

Para uma matriz de distância armazenada, a entrada na linha i e na coluna j da matriz de distância D é a distância entre as observações i e j. Para obter informações sobre a criação e uso de matrizes armazenadas no Minitab, vá para Visão geral de matrizes.

Nesta worksheet. cada coluna contém medições diferentes sobre atletas.
C1 C2 C3 C4
Gênero Altura Peso Lateralidade
2 67 155 1
1 74 193 1
2 68 152 1
1 70 172 0
1 72 169 1
2 66 134 0

Especificar o método de ligação

Em Método de ligação, selecione um método para especificar como a distância entre dois agrupamentos é definida. Você pode querer experimentar diversos métodos de ligação para ver qual método fornece os resultados mais úteis para seus dados.

Observação

Para Agrupar observações, a distância se refere à distância entre observações, e a ligação se refere à distância entre os agrupamentos de observações. Para Agrupar variáveis, a distância se refere à distância entre variáveis e a ligação se refere à distância entre agrupamentos de variáveis.

Média
A distância entre dois agrupamentos é a distância média entre uma observação (ou variável) em um agrupamento e uma observação (ou variável) no outro agrupamento. Enquanto os métodos de ligação única ou completo são baseados em distâncias simples entre pares, o método de ligação por média usa uma medida mais central do local.
Centróide
A distância entre dois agrupamentos é a distância entre os centroides ou médias. Como o método de ligação por média, este método também é uma técnica de extração de média.
Completa
A distância entre dois agrupamentos é a distância máxima entre uma observação (ou variável) em um agrupamento e uma observação (ou variável) no outro agrupamento. Este método, também chamado de método do vizinho mais distante, assegura que todas as observações (ou variáveis) em um agrupamento estejam dentro de uma distância máxima, e tende a produzir agrupamentos que têm diâmetros similares. Contudo, os resultados são enormemente afetados por outliers.
McQuitty
A distância do novo agrupamento para qualquer outro agrupamento é calculada como a média das distâncias dos agrupamentos que serão unidos em breve até esse outro agrupamento. Por exemplo, se os agrupamentos 1 e 3 serão unidos em um novo agrupamento, digamos, 1*, a distância entre 1* e o agrupamento 4 será a média das distâncias de 1 a 4 e 3 a 4. Para este método, a distância depende de uma combinação de agrupamentos, em vez de observações individuais (ou variáveis) nos agrupamentos.
Mediana
A distância entre dois agrupamentos é a distância média entre uma observação (ou variável) em um agrupamento e uma observação (ou variável) no outro agrupamento. Como essa técnica de extração de média usa a mediana em vez da média, ela reduz o efeito de outliers.
Único
A distância entre dois agrupamentos é a distância média entre uma observação (ou variável) em um agrupamento e uma observação (ou variável) no outro agrupamento. Este método, também chamado de método do vizinho mais distante, é uma boa escolha quando os agrupamentos estão obviamente separados. Quando as observações (ou variáveis) estão próximas, o método de ligação única tende a identificar agrupamentos longos em forma de cadeia, com distâncias relativamente grandes separando as observações nos dois extremos da cadeia.
Ward
A distância entre dois agrupamentos é a soma dos desvios quadrados dos pontos aos centroides. O objetivo do método da ligação de Ward é minimizar a soma dos quadrados dentro do agrupamento. Este método tente a produzir agrupamentos que têm números similares de observações (ou variáveis), mas ele é sensível a outliers. Além disso, a distância entre dois agrupamentos pode, algumas vezes, ser maior do que dmax, que é o valor máximo na matriz da distância original. Quando isso ocorre, o valor da similaridade é negativo.

Especifique a medida da distância

Em Medida de distância, selecione o método para calcular a distância entre pares de observações.
Euclidiano
A medida de distância mais comum, que calcula a raiz quadrada da soma das diferenças quadradas.
Euclidiano ao quadrado
O quadrado da distância que é calculado usando-se o método euclidiano. Este método dá mais peso aos outliers.
Pearson
A raiz quadrada da soma dos quadrados das distâncias dividida pelas variâncias. Esse método torna as variâncias as mesmas e é usado para padronização.
Pearson ao quadrado
O quadrado da distância que é calculado usando-se o método de Pearson. Este método dá mais peso aos outliers e torna as variâncias as mesmas.
Manhattan
A soma das distâncias absolutas. Este método dá menos peso aos outliers.
Dica

Se você tiver selecionado Média, Centróide, Mediana ou Ward como o método de ligação, você deve, normalmente, usar uma das medidas de distância quadrada.

Padronizar variáveis

Selecione Padronizar variáveis para que o Minitab pondere todas as variáveis igualmente. A padronização é uma boa prática na maioria dos casos, e é particularmente importante quando as variáveis usam diferentes escalas. Suponha que a variável A está em uma escala em dólares a partir de $0 até $10.000.000, e a variável B é uma razão em uma escala de 0,0 a 1,0. Se as variáveis não forem padronizadas, o procedimento de observações do agrupamento coloca muito mais peso na variável A do que na variável B devido aos valores maiores de sua escala, o que, provavelmente, não é o resultado desejado. Portanto, as variáveis devem ser padronizadas.

Quando você padroniza as variáveis, o Minitab torna todas as médias iguais a 0 e todas as variâncias iguais a 1. Para tornar apenas as variâncias iguais, não selecione a opção padronizada, mas, em vez disso, selecione Pearson ou Pearson ao quadrado em Medida de distância.

Especificar a partição final

Indique os critérios que deseja usar para determinar os agrupamentos finais.
  • Número de agrupamentos: Selecione para inserir o número de agrupamentos para a partição final.
  • Nível de similaridade: Selecione para inserir o nível de similaridade para os agrupamentos na partição final.

Para os melhores resultados, você deve ser flexível com os critérios. Por exemplo, se definir a partição final usando o número de agrupamentos, você deverá também considerar mudanças no nível de similaridade, também. Uma queda abrupta na similaridade ao adicionar um agrupamento específico pode avisá-lo para especificar a partição final antes deste agrupamento. Por outro lado, se você definir a partição final usando o nível de similaridade, poderá determinar quais níveis de similaridade não mudam muito com relação a uma faixa de agrupamentos e, para fins de simplicidade, você pode escolher o passo com o menor número de agrupamentos.

Observação

Se você não souber que valor inserir para especificar a partição final, primeiro realize a análise usando a configuração padrão (1 agrupamento na partição final). O Minitab exibe os resultados para todos os números possíveis de agrupamentos. Use os resultados para determinar um valor a inserir para a partição final. Depois, repita a análise e especifique a partição final que você determinou. Para obter mais informações, vá para Determinar o agrupamento final dos agrupamentos.

Exibir dendrograma

Selecione para exibir um diagrama de árvore que mostra como os agrupamentos foram formados em cada passo no procedimento de amalgamação. O dendrograma permite visualizar os valores de similaridade (ou distância) para os agrupamentos em cada passo.

Para mudar a exibição padrão do dendrograma, clique em Personalizar.

Ao usar esse site, você concorda com a utilização de cookies para análises e conteúdo personalizado.  Leia nossa política