판별 분석에 대한 데이터 고려 사항

유효한 결과를 얻으려면 데이터를 수집하고 분석을 수행하거나 결과를 해석할 때 다음 지침을 따르십시오.

예측 변수가 양적 변수여야 함
각 예측 변수에 대한 측정 데이터가 포함된 숫자 열이 하나 이상 있어야 합니다. Minitab에서는 예측 변수와 반응 간의 관계를 정의하기 위해 데이터를 사용합니다. 범주형 예측 변수가 있는 경우 이 분석을 사용할 수 없습니다. 로지스틱 회귀 분석을 대신 사용하십시오.
예측 변수들이 깊이 상관되지 않아야 함
예측 변수 간의 상관 관계는 다중 공선성이라고 합니다. 다중 공선성이 심하거나 예측 변수 중 하나 이상이 반드시 일정해야 하면 Minitab에서 판별 분석을 수행할 수 없으며 메시지를 표시합니다.
반응 변수가 그룹을 나타내야 함
최대 20개 그룹의 식별자가 포함된 하나의 그룹화 열이 있어야 합니다. 그룹 식별자는 숫자, 텍스트 또는 날짜/시간입니다.
예측 변수에 대한 데이터가 각 그룹별로 정규 분포를 따라야 함
다변량 정규성이 판별 분석에 대한 공식적인 가정입니다. 선형 판별 함수도 정규성에서 벗어나는 것에 상당히 로버스트하지만, 2차 판별 함수는 정규성 가정에 더 민감합니다. 예측 변수가 정규 분포를 따르지 않으면 로지스틱 회귀 분석을 사용하는 것을 고려해 보십시오. 이 경우 로지스틱 회귀 분석을 통해 더욱 정확한 결과를 얻을 수 있습니다.
가능한 경우 분석을 위한 사전 확률 입력
판별 분석을 수행하기 전에 그룹에 속한 관측 개체의 확률을 알고 있는 경우도 있습니다. 예를 들어, 특정 자동차의 구매자를 분류하는 경우 구매자의 60%가 남성이고 40%가 여성이라는 사실을 이미 알고 있을 수 있습니다. 사전 확률을 알고 있거나 추정할 수 있는 경우 분석을 위해 사전 확률을 지정하여 결과의 정확도를 높여보십시오.