덴드로그램은 각 단계에서 관측치의 군집화를 통해 형성된 그룹과 이들의 유사성 수준을 표시하는 트리 다이어그램입니다. 유사성 수준은 수직 축을 따라 측정되거나 사용자가 거리 수준을 표시할 수 있는데 다른 관측치는 수평 축을 따라 나열됩니다.

해석

덴드로그램을 사용하면 각 단계에서 군집이 어떻게 형성되는지 확인하고 형성된 군집의 유사성(또는 거리) 수준을 평가할 수 있습니다.

유사성(또는 거리) 수준을 보려면 덴드로그램의 수평선 위에 포인터를 놓습니다. 한 단계에서 다음 단계로 갈 때 유사성 또는 거리 값이 바뀌는 패턴을 보면 데이터의 최종 그룹을 쉽게 선택할 수 있습니다. 값이 급격히 바뀌는 단계는 최종 그룹화를 정의하는 데 좋은 지점이 될 수 있습니다.

최종 그룹화에 대해 결정하는 것을 덴드로그램 커팅이라고도 합니다. 덴드로그램 커팅은 덴드로그램에 선을 그려 최종 그룹을 지정하는 것과 유사합니다. 또한 서로 다른 최종 그룹화의 덴드로그램을 비교하여 데이터에 가장 의미 있는 최종 그룹화를 결정할 수도 있습니다.

이 덴드로그램은 약 40의 유사성 수준에서 발생하는 군집 4개의 최종 분할을 사용하여 생성되었습니다. 첫 번째 군집(가장 왼쪽)은 7개의 관측치(워크시트의 1, 3, 6, 9, 10, 11, 15행의 관측치)로 구성됩니다. 바로 오른쪽의 두 번째 군집은 3개의 관측치(워크시트의 4, 12, 19행의 관측치)로 구성됩니다. 세 번째 군집은 7개의 관측치(2, 14, 17, 20, 18, 5, 8행의 관측치)로 구성됩니다. 가장 오른쪽의 네 번째 군집은 3개의 관측치(7, 13, 16행의 관측치)로 구성됩니다. 덴드로그램을 더 높게 커팅할수록 최종 군집 수는 더 작지만 유사성 수준은 더 낮아집니다. 덴드로그램을 더 낮게 커팅할수록 유사성 수준은 더 높지만 최종 군집 수는 더 많습니다.

참고

일부 데이터 집합의 경우 평균, 중심, 중위수 및 Ward의 연결 방법으로 계층적 덴드로그램이 생성되지 않습니다. 즉, 결합 거리가 각 단계에서 항상 증가하지 않습니다. 덴드로그램에서 이러한 단계는 위쪽보다는 아래쪽으로 이동하는 결합을 생성합니다.