어느 모형 관계가 데이터에 가장 적합한지 확인하고 관계의 강도를 평가합니다.
이 예제에서는 Minitab이 데이터를 직사각형 빈으로 그룹화합니다. Minitab은 빈에 있는 관측치 수에 따라 빈에 대해 밝은 회색에서 진한 파란색을 사용합니다. 경제학자는 많은 사람들이 나이에 관계없이 0에 가까운 부채 비율을 가지고 있으며, 극소수 사람들의 부채 비율은 1에 가깝다고 보고 있습니다. 그림 중간에 있는 어두운 지역은 나이가 증가함에 따라 부채 비율이 증가한다는 것을 보여줍니다. 그러나 나이가 50세 전후에 도달하면 어두운 영역이 아래로 오목해지고 나이가 들면서 감소하기 시작합니다. 나이와 부채 비율은 2차 관계를 가진 것처럼 보입니다. 경제학자는 부채 비율에 대한 회귀 모형에 나이에 대한 두 번째 순서 항이 포함되어야 한다고 결정합니다.
세 번째 변수를 포함하는 경우 해당 변수와 x-변수 및 y-변수 간의 관계를 찾습니다. Minitab은 해당 빈의 모든 관측치에 대한 세 번째 변수의 평균값을 기준으로 빈 색상을 지정합니다. 관계가 없는 경우 빈의 색상은 바인드 산점도 주위에 랜덤하게 흩어집니다. 색상의 패턴은 관계가 존재할 수 있음을 나타냅니다.
이 예제에서 연구팀은 캐럿과 색상이 다이아몬드 가격에 미치는 영향을 결정하려고 합니다. Minitab은 다이아몬드 색상을 기반으로 빈에 대해 진한 파란색에서 진한 빨간색을 사용합니다. 빨간색의 어두운 음영은 색상 변수의 높은 값에 해당합니다. 파란색의 어두운 음영은 색상 변수의 낮은 값에 해당합니다. 캐럿 숫자가 커지면 가격이 높아집니다. 그러나 캐럿의 동일한 숫자와 다이아몬드 가격에는 여전히 큰 변동이 있습니다. 다이아몬드 색상은 이러한 변동의 일부를 설명합니다. 캐럿 수가 비슷한 다이아몬드의 경우, 더 높은 색상 번호는 더 높은 가격에 해당합니다.
다이아몬드의 색상은 문자로 표시됩니다. 모든 변수는 숫자여야 하기 때문에 연구원은 다이아몬드의 색상을 0~6 범위의 숫자 척도로 코딩합니다. 사업주는 무색 다이아몬드에 더 높은 숫자를 지정하고 밝은 노란색 다이아몬드에 더 낮은 숫자를 지정합니다.
다른 데이터 값에서 멀리 떨어져 있는 데이터 값인 특이치는 데이터의 비정상적인 조건을 나타낼 수 있으며 결과에 큰 영향을 미칠 수 있습니다.
특이치의 원인을 식별해 보십시오. 모든 데이터 입력 또는 측정 오류를 수정하십시오. 비정상적인 일회성 사건과 연관된 데이터 값을 삭제해 보십시오(특수 원인). 그런 다음 분석을 반복하십시오.