K-평균 군집에 대한 데이터 고려 사항

유효한 결과를 얻으려면 데이터를 수집하고 분석을 수행하거나 결과를 해석할 때 다음 지침을 따르십시오.

원시 데이터를 사용해야 함
각 행에는 하나의 항목 또는 피험자에 대한 측정값이 있습니다. 또한 서로 다른 측정값을 나타내는 숫자 열이 둘 이상 있어야 합니다. 이 분석을 사용하려면 먼저 워크시트에서 결측 데이터가 있는 행을 삭제해야 합니다.
군집 분석 공정은 실제 및/또는 공학적 지식을 기반으로 초기 군집을 지정할 때 가장 잘 작동합니다.
그러나 초기 군집에 대한 사전 지식이 있으면 만들 군집 수만 지정하여 공정을 초기화하지 않고 분석을 수행할 수 있습니다. 자세한 내용은 K-평균 군집에 대한 데이터 입력에서 확인하십시오.
데이터 열을 사용하여 군집 분석 공정을 초기화하려면 소속 군집을 나타내는 값의 열이 있어야 합니다.
초기화 열에는 연속된 양의 정수 또는 0이 있어야 하며 모두 0일 수는 없습니다. 처음에는 각 관측치가 이 열의 해당 값으로 식별되는 군집에 포함됩니다. 초기화 값이 0이면 관측치가 초기에 그룹에 포함되지 않았다는 것을 나타냅니다. 초기 분할 열에 있는 고유한 양의 정수 개수는 최종 분할에 있는 군집 수와 같아야 합니다.
특이치가 결과에 유의한 영향을 미칠 수 있음
데이터에 특이치(비정상적으로 크거나 작은 값)가 있으면 군집 분석 결과에 영향을 미칠 수 있습니다. 특이치가 제거되지 않을 경우 일반적으로 군집이 더 크며 결과 해가 논리적으로 보이지 않을 수도 있습니다. 특이치를 조사하여 측정 또는 기록 오류로 인한 값을 제거합니다. 극단 특이치는 또한 일부 특수 원인으로 인해, 데이터 집합의 다른 모든 관측치와 기본적으로 다른 특정 관측치를 나타낼 수도 있습니다. 극단 특이치를 분석에 포함하지 않는 실제적인 이유가 있으면 극단 특이치 없이 분석을 다시 실행하여 극단 특이치가 결과에 어떤 영향을 미치는지 확인하십시오.