데이터 준비

데이터 준비 도구를 사용하여 보다 강력한 분석을 위해 데이터를 구성하고 준비합니다.

데이터 원본 열기

Minitab Solution Center 홈 페이지에서 에 액세스할 수 있습니다 Minitab Data Center.
  1. Solution Center 홈페이지에서 을 선택합니다 데이터 준비.
  2. 데이터 추가을 선택합니다. 온라인 저장소에 로그인합니다. 로컬 데이터 파일을 추가할 수도 있습니다.
  3. 파일 위치로 이동한 다음 을 선택합니다 열기.
개략도는 데이터 처리 단계를 나타냅니다.
정리 보기
보기에 있을 때 데이터 정리를 시작할 수 있습니다. 정리
데이터 출처 보기
데이터 세트 스키마 또는 전체 데이터 세트에 영향을 주는 설정을 변경해야 하는 경우 데이터 소스 파일 아이콘을 선택하여 패널을 옵션 엽니다.

자세한 내용은 데이터 세트 스키마 편집 또는 데이터 원본 옵션 설정(으)로 이동하십시오.

데이터 준비 단계

이 예에서 규정 준수 팀은 자동차 산업의 사기 탐지 정확도에 대해 우려하고 있습니다. 그러나 분석을 시작하기 전에 데이터를 준비해야 합니다. 다음 단계에 따라 추가 분석을 위해 insurance_fraud_data.csv 준비합니다.
  1. 에서 보험 사기 데이터를 Minitab Data Center엽니다.
  2. 보기에 있는지 확인하십시오. 정리
  3. 열을 선택하고 드롭다운 메뉴를 데이터 준비 옵션 열어 열 정리 옵션에 액세스합니다.
  4. 예를 claim_number 경우 데이터 유형을 숫자에서 텍스트로 변경합니다.
  5. 예를 claim_number 경우 열 값 앞에 #을 추가합니다.
  6. 예를 age_of_driver 경우 100년 이하인 드라이버만 포함하도록 필터링합니다.
  7. 성별에서 M남성 으로, F여성으로 변경합니다.
  8. 예를 annual_income 경우 1보다 큰 드라이버만 포함하도록 필터링합니다.
  9. address_change의 경우 데이터 유형을 숫자에서 텍스트로 변경합니다.
  10. address_change에서 1 로, 0아니요로 변경합니다.
  11. 우편 번호의 경우 데이터 유형을 숫자에서 텍스트로 변경합니다.
  12. 사기, 부상 청구 및 우편 번호를 기준으로 정렬하는 데 사용합니다 고급 정렬.

Minitab AI를 사용하여 데이터 정리

보기 Minitab Data Center 에 있는 동안 데이터 준비를 안내하는 대화형 인터페이스를 제공합니다. 정리 위의 예에서 프롬프트에 Minitab AI 다음 텍스트를 입력하여 개별 단계와 동일한 결과를 얻을 수 있습니다.

청구 번호를 문자로 작성하십시오. 번호를 청구하기 위해 숫자 기호를 추가합니다. 100개보다 오래된 드라이버를 제거합니다. m을 수컷으로, f를 암컷으로 변경합니다. 유효한 소득이 없는 운전자를 제거합니다. address_change 텍스트로 변경합니다. 주소 변경의 경우 1을 예로, 0을 아니오로 만드십시오. 사기, 상해 청구 및 우편번호별로 정렬합니다.

에서 사용하는 Minitab AI Data Center방법에 대한 자세한 내용은 을 참조하십시오 Minitab AI를 사용하여 데이터 정리.

데이터 내보내기 준비 단계

모든 준비 단계를 적용한 후 동일한 열이 있는 향후 데이터 세트에 사용할 단계를 저장합니다. 단계를 저장하려면 .mdcs 파일로 내보냅니다.
  1. 왼쪽의 Steps 창에서 드롭다운 메뉴를 선택합니다 단계 내보내기 .
  2. 파일은 다운로드 폴더 또는 다른 저장 위치에 저장되며 데이터 파일과 동일한 이름을 사용합니다. 그에 따라 이름을 변경합니다.

데이터 가져오기 준비 단계

새 데이터 파일에 단계를 적용하려면 .mdcs 파일로 가져옵니다. 창의 드롭다운 메뉴에서 단계 선택합니다 단계 가져오기.

데이터 요약 살펴보기

각 열에는 데이터의 모양, 데이터 범위 및 데이터 형식을 나타내는 아이콘을 표시하는 요약이 있습니다.

열 그래픽 요약을 간단히 살펴보면 채널에 3개의 레벨이 있고 날짜가 열려 있음을 알 수 있으며 이중 모드 분포를 보여줍니다.

데이터 요약 열어 이러한 열의 요약 통계에 대한 자세한 정보를 가져옵니다.

채널에 대한 데이터 요약에는 3가지 수준 각각에 대한 빈도가 표시됩니다.

마우스 오른쪽 단추 클릭 메뉴를 사용하여 그룹화 레이블을 편집하거나, 데이터 세트에서 그룹을 제외하거나, 이 값이 포함된 행만 표시하십시오.

다음 단계

개봉 일수 동안의 데이터는 두 가지 분포를 나타내기 때문에 보험 회사는 이를 더 자세히 살펴보려고 합니다. 데이터 분석으로 이동하십시오.