중요한 예측 변수

상대적 중요도가 양수인 예측 변수의 수입니다.

모든 분류 트리는 분할의 컬렉션입니다. 각 분할은 트리를 개선합니다. 각 분할에는 트리를 개선하는 대리 분할도 포함됩니다. 트리가 변수를 사용하여 노드를 분할하거나 다른 변수에 결측값이 있을 때 노드를 분할하는 대리로 변수의 중요도가 부여됩니다.

다음 수식은 단일 노드에서 개선된 기능을 제공합니다.

값은 I(t), p왼쪽p오른쪽(R) 노드 분할 기준에 따라 달라집니다. 자세히 알려면 노드 분할 방법 카트® 분류.

q번째 예측 변수의 상대 중요도에 대한 수식은 가장 중요한 변수로 중요도를 조정합니다.

이탈도 결정계수

Minitab은 반응이 이항일 때 이탈도 결정계수 값을 계산합니다. 다음 방정식은 이탈도 결정계수에 대한 수식을 제공합니다:

이탈도 값의 계산은 검증 기술에 따라 다릅니다.

학습 데이터 또는 검증 없음

학습 데이터 표기법 또는 검증 없음

용어설명
데이터에서 사건의 확률
N전체 데이터 또는 학습 데이터의 표본 크기
wi가중치 i번째 전체 데이터 세트 또는 학습 데이터 세트의 관측치
yi사건에 대해 1이고 전체 데이터 세트 또는 학습 데이터 세트에서 0인 표시기 변수
로그 우도

K-폴드 교차 검증

교차 검증의 경우 계산은 한 번에 폴드 하나씩 생략합니다.

k-폴드 교차 검증 표기법

용어설명
K폴드 수
폴드의 관측치를 포함하지 않는 데이터의 사건 확률 j
nj폴드의 표본 크기 j
wij가중치 i번째 폴드의 관측치 j
yij사건에 대해 1이고 폴드의 데이터에 대해 0인 표시기 변수 j
관측치를 포함하지 않는 모형 추정에서 사건의 예측 확률 i번째 폴드의 관측치 j

검정 데이터 세트

검정 데이터 세트에 대한 계산은 학습 데이터에 대한 계산과 유사하지만 검정 데이터를 사용합니다.

검정 데이터 세트 표기법

용어설명
학습 데이터 세트에서 사건의 확률
n검정검정 데이터 세트의 표본 크기
wi, 검정가중치 i번째 검정 데이터 세트의 관측치
yi, 검정사건에 대해 1이고 검정 데이터 세트의 데이터에 대해 0인 표시기 변수
로그 우도

평균 -로그 우도

Minitab은 반응이 이항일 때 음수 로그 우도 함수의 평균을 계산합니다. 계산은 검증 방법에 따라 다릅니다.

학습 데이터 또는 검증 없음

설명

학습 데이터 표기법 또는 검증 없음

용어설명
N전체 데이터 또는 학습 데이터의 표본 크기
wi가중치 i번째 전체 또는 학습 데이터 세트의 관측치
yi사건에 대해 1이고 전체 또는 학습 데이터 세트에서 0인 표시기 변수
사건의 예측 확률 i번째 전체 또는 학습 데이터 세트의 행

K-폴드 교차 검증

설명

k-폴드 교차 검증 표기법

용어설명
N전체 또는 학습 데이터의 표본 크기
nj폴드의 표본 크기 j
wij가중치 i번째 폴드의 관측치 j
yij사건에 대해 1이고 폴드의 데이터에 대해 0인 표시기 변수 j
관측치를 포함하지 않는 모형 추정에서 사건의 예측 확률 i번째 폴드의 관측치 j

검정 데이터 세트

설명

검정 데이터 세트 표기법

용어설명
n검정검정 데이터 세트의 표본 크기
wi, 검정가중치 i번째 검정 데이터 세트의 관측치
yi, 검정사건에 대해 1이고 검정 데이터 세트의 데이터에 대해 0인 표시기 변수
사건의 예측 확률 i번째 학습 데이터 세트의 행

ROC 곡선 아래 면적

ROC 곡선은 y축에서 검정력이라고도 하는 진양성률(TPR)과 x축에서 유형 1 오차라고도 하는 가양성률(FPR)을 플로팅합니다. ROC 곡선 아래 면적 값은 0.5에서 1 사이입니다.

수식

곡선 아래의 면적에 대해 Minitab은 통합을 사용합니다.

대부분의 경우 이 통합은 사다리꼴 면적의 다음 합계와 동일합니다.

설명 k 터미널 노드 수 및 (x0, y0)는 점(0, 0)입니다.

예를 들어 ROC 곡선에 다음과 같은 좌표가 있는 4개의 터미널 노드가 결과에 있다고 가정합니다.
x(가양성률) y(진양성률)
0.0923 0.3051
0.4154 0.7288
0.7538 0.9322
0 0
그런 다음 ROC 곡선 아래 면적은 다음 계산에 의해 지정됩니다.

표기법

용어설명
TRP 진양성률
FPR 가양성률
TP진양성, 올바르게 평가된 사건
P 실제 긍정적인 사건의 수
FP진음성, 올바르게 평가된 비사건
N 실제 부정적인 사건 수
FNR가음성률
TNR진음성률

ROC 곡선 아래 면적에 대한 95% CI

Minitab은 반응이 이항일 때 수신자 검사 특성 곡선 아래의 면적에 대한 신뢰 구간을 계산합니다.

다음 간격은 신뢰 구간에 대한 상한 및 하한을 제공합니다.

ROC 곡선 아래 면적의 표준 오차 계산()는 Salford Predictive Modeler®에서 비롯됩니다. ROC 곡선 아래의 면적 분산 추정에 대한 일반적인 정보는 다음 참조 자료를 참고하십시오.

Engelmann, B. (2011). Measures of a ratings discriminative power: Applications and limitations. In B. Engelmann & R. Rauhmeier (Eds.), The Basel II Risk Parameters: Estimation, Validation, Stress Testing - With Applications to Loan Risk Management (2nd ed.) Heidelberg; New York: Springer. doi:10.1007/978-3-642-16114-8

Cortes, C. and Mohri, M. (2005). Confidence intervals for the area under the ROC curve. Advances in neural information processing systems, 305-312.

Feng, D., Cortese, G., & Baumgartner, R. %1 = %2 %3 작은 표본 크기의 연속 진단 검정을 위해 ROC 곡선 아래의 면적에 대한 신뢰도/신뢰할 수 있는 구간 방법의 비교입니다. Statistical Methods in Medical Research, 26(6), 2603-2621. doi:10.1177/0962280215602040

표기법

용어설명
AROC 곡선 아래의 면적
표준 정규 분포의 백분위수

향상도

반응이 이항인 경우 Minitab은 모형 요약 표에 향상도를 표시합니다. 모형 요약 표의 향상도는 올바른 분류가 가장 좋은 데이터의 10%에 대한 누적 향상도입니다.

수식

사건 클래스에 할당될 확률이 가장 높은 데이터에 있는 관측치의 10%에 대해 다음 수식을 사용합니다.

검정 데이터 세트가 있는 검정 향상도의 경우 검정 데이터 세트의 관측치를 사용합니다. k-폴드 교차 검증을 사용한 검정 향상도의 경우 사용할 데이터를 선택하고 모형 추정에 없는 데이터에 대한 예측 확률에서 향상도를 계산합니다.

표기법

용어설명
d데이터의 10%에 있는 사례 수
사건의 예측 확률
학습 데이터 또는 분석에서 검증을 사용하지 않는 경우 전체 데이터 세트에서 사건의 확률

오분류 비용

모형 요약 표의 오분류 비용은 모든 관측치를 가장 빈번한 클래스로 분류하는 사소한 분류기와 관련된 모형의 상대적 분류 비용입니다.

오분류 비용을 찾으려면 다음 정의로 시작합니다.

상대적 오분류 비용의 형식은 다음과 같습니다.

설명 R0 는 사소한 분류기의 비용입니다.

수식 R 사전 확률이 같거나 데이터에서 나온 경우 단순화됩니다.

사전 확률이 같음

사전 확률이 같으면 다음 정의가 적용됩니다.
이 정의를 사용하면 R 형식은 다음과 같습니다.

데이터의 사전 확률

사전 확률이 데이터에서 나온 경우 다음 정의가 적용됩니다.

이 정의를 사용하면 R 형식은 다음과 같습니다.

표기법

용어설명
πj사전 확률 j번째 반응 변수의 클래스
클래스 오분류 비용 i 클래스로 j
클래스 수 i 클래스로 잘못 분류된 레코드 j
Nj사례 수 j번째 반응 변수의 클래스
K반응 변수의 클래스 수
N데이터의 사례 수
이 사이트를 사용하면 분석 및 사용자 개인 컨텐츠에 대한 쿠키 사용에 동의하는 것입니다.  당사의 개인정보 보호정책을 확인하십시오