데이터 중심을 나타내는 하나의 값으로 표본을 설명하려면 평균을 사용하십시오. 많은 통계 분석에서 평균을 데이터의 분포 중심에 대한 표준 측도로 사용합니다.
중위수는 데이터의 분포 중심에 대한 또 하나의 측도입니다. 중위수는 일반적으로 평균보다 특이치의 영향을 덜 받습니다. 데이터 값의 반은 중위수 값보다 크고, 데이터 값의 반은 중위수 값보다 작습니다.
대칭 분포의 경우 평균(파란색 선)과 중위수(주황색 선)가 너무 비슷하여 두 선을 모두 쉽게 볼 수 없습니다. 그러나 비대칭 분포는 오른쪽으로 치우칩니다.
이 결과에서 치약 뚜껑을 열기 위해 필요한 평균 회전력은 21.265이고 회전력의 중위수는 20입니다. 데이터는 오른쪽으로 치우쳐 있는 것으로 보이며, 이는 평균이 중위수보다 큰 이유를 설명합니다.
신뢰 구간은 모집단 모수가 될 수 있는 값의 범위를 제공합니다. 예를 들어, 95% 신뢰 수준은 모집단에서 100개의 랜덤 표본을 추출할 경우 약 95개의 표본이 모집단 모수가 포함된 구간을 생성할 것으로 예상된다는 것을 나타냅니다.
데이터의 모양과 산포를 평가하고 잠재적 특이치를 식별하려면 히스토그램과 상자 그림을 사용합니다.
데이터가 치우쳐 있으면 대부분의 데이터가 그래프의 높은 쪽이나 낮은 쪽에 위치합니다. 일반적으로 히스토그램이나 상자 그림에서 왜도를 탐지하기가 가장 쉽습니다.
오른쪽으로 치우친 데이터의 히스토그램은 대기 시간을 보여줍니다. 대부분의 대기 시간이 비교적 짧고 몇 개의 대기 시간만 깁니다. 왼쪽으로 치우친 데이터의 히스토그램은 수명 데이터를 보여줍니다. 몇 개의 품목이 즉시 고장나고 더 많은 품목이 나중에 고장납니다.
다른 데이터 값에서 멀리 떨어져 있는 데이터 값인 특이치는 분석 결과에 크게 영향을 미칠 수 있습니다. 일반적으로 상자 그림에서 특이치를 식별하기가 가장 쉽습니다.
상자 그림에서는 별표(*)가 특이치를 나타냅니다.
특이치의 원인을 식별합니다. 모든 데이터 입력 오류 또는 측정 오류를 수정합니다. 비정상적인 일회성 사건에 대한 데이터 값을 삭제합니다(특수 원인이라고도 함). 그런 다음 분석을 반복합니다. 자세한 내용은 특이치 식별에서 확인하십시오.
다봉 데이터에는 봉우리(최빈값이라고도 함)가 여러 개 있습니다. 다봉 데이터는 보통 중요한 변수가 아직 확인되지 않았다는 것을 의미합니다.
관측치를 그룹으로 분류할 수 있는 추가 정보가 있는 경우 이 정보를 사용하여 그룹 변수를 만들 수 있습니다. 그런 다음, 그룹으로 그래프를 생성하여 그룹 변수가 데이터의 봉우리를 설명하는지 여부를 확인할 수 있습니다.
예를 들어, 한 은행의 관리자가 대기 시간 데이터를 수집하여 단순 히스토그램을 생성합니다. 히스토그램에는 두 개의 봉우리가 있는 것으로 보입니다. 추가 조사 후, 관리자는 수표를 현금으로 바꾸려는 고객의 대기 시간이 부동산 융자를 신청하는 고객의 대기 시간보다 짧은 것을 확인합니다. 관리자는 고객 작업에 대한 그룹 변수를 추가한 후 그룹을 사용하여 히스토그램을 생성합니다.