におけるモデルの要約の方法と計算式 カート®分類

使用する方法または数式を選択します。

重要な予測変数

有益な相対重要度がある予測変数の数。

分類木は、分岐の集合です。各分岐は、木の改善を提供します。各分岐には、木の改善を提供する代理変数による分岐も含まれます。木が変数を使用してノードを分岐したり、別の変数に欠損値がある場合にノードを分岐する代理変数として使用する場合、すべてのその改善度によって変数の重要性が与えられます。

次式は、単一のノードでの改善度を示します。

I(t)、pLeft、およびpRightの値は、ノードを分岐するための基準によって異なります。詳細については、 におけるノード分岐方法 カート®分類を参照してください。

q番目の予測変数の相対重要度の計算式は、最も重要な変数によって重要度のスケールを調整します。

逸脱R二乗

応答が2値の場合、逸脱R二乗値が計算されます。次式は逸脱R2の計算式を示します。

逸脱値の計算は、検証手法によって異なります。

トレーニングデータまたは検証なし

トレーニングデータまたは検証なしの場合の表記

用語説明
probability of the event in the data
Nsample size of the full data or of the training data
wiweight for the i番目 observation in the full data set or the training data set
yiindicator variable that is 1 for the event and 0 otherwise in the full data set or the training data set
mean log-likelihood

K分割交差検証

交差検証では、計算では一度に1つの分割を除外します。

K分割交差検証の表記

用語説明
Knumber of folds
probability of the event in the data that does not include the observations in fold j
njsample size of fold j
wijweight for the i番目 observation in fold j
yijindicator variable that is 1 for the event and 0 otherwise for the data in fold j
predicted probability of the event from the model estimation that does not include the observations for the i番目 observation in fold j

テストデータセット

テストデータセットの計算は、トレーニングデータの計算と類似していますが、テストデータを使用します。

テストデータセットの表記

用語説明
probability of the event in the training data set
nテストsample size of the test data set
wiテストweight for the i番目 observation in the test data set
yi, テストindicator variable that is 1 for the event and 0 otherwise for data in the test data set
mean log-likelihood

平均対数尤度

応答が2値の場合、負の対数尤度関数の平均が計算されます。計算は検証法によって異なります。

トレーニングデータまたは検証なし

ここで

トレーニングデータまたは検証なしの場合の表記

用語説明
Nsample size of the full data or the training data
wiweight for the i番目 observation in the full or training data set
yiindicator variable that is 1 for the event and 0 otherwise for the full or training data set
predicted probability of the event for the i番目 row in the full or training data set

K分割交差検証

ここで

K分割交差検証の表記

用語説明
Nsample size of the full or training data
njsample size of fold j
wijweight for the i番目 observation in fold j
yijindicator variable that is 1 for the event and 0 otherwise for the data in fold j
predicted probability of the event from the model estimation that does not include the observations for the i番目 observation in fold j

テストデータセット

ここで

テストデータセットの表記

用語説明
nテストsample size of the test data set
wi, テストweight for the i番目 observation in the test data set
yi, テストindicator variable that is 1 for the event and 0 otherwise for the data in the test data set
predicted probability of the event for the i番目 row in the training data set

ROC曲線下の面積

ROC曲線は、検出力とも呼ばれる真陽性率 (TPR) をy軸に、第1種の過誤とも呼ばれる偽陽性率 (FPR) をx軸にプロットします。ROC曲線下の面積の範囲は0.5から1です。

計算式

曲線下の面積に関して、積分が使用されます。

ほとんどの場合、この積分は、台形の面積の次の合計に相当します。

ここで、kはターミナルノードの数、(x0, y0) は点 (0, 0) です。

たとえば、結果に4つのターミナルノードがあり、ROC曲線上に次の座標があるとします。
x (偽陽性率) y (真陽性率)
0.0923 0.3051
0.4154 0.7288
0.7538 0.9322
1 1
そして、ROC曲線下の面積は、次の計算によって与えられます。

表記

用語説明
TRP true positive rate
FPR false positive rate
TPtrue positive, events that were correctly assessed
P number of actual positive events
FPtrue negative, nonevents that were correctly assessed
N number of actual negative events
FNRfalse negative rate
TNRtrue negative rate

ROC曲線下の面積に対する95%信頼区間

応答が2値の場合、Minitabは受信者動作特性曲線下の面積の信頼区間を計算します。

次の区間は、信頼区間の上限と下限を示します。

ROC曲線下の面積の標準誤差の計算()はSalford Predictive Modeler®はからのものです。ROC曲線下の面積の分散の推定に関する一般的な情報は、次の参考資料を参照してください。

Engelmann, B.(2011).Measures of a ratings discriminative power:Applications and limitations.In B. Engelmann & R. Rauhmeier (Eds.), The Basel II Risk Parameters:Estimation, Validation, Stress Testing - With Applications to Loan Risk Management (2nd ed.)Heidelberg; New York:Springer。doi:10.1007/978-3-642-16114-8

Cortes, C. and Mohri, M.(2005).Confidence intervals for the area under the ROC curve.Advances in neural information processing systems, 305-312.

Feng, D., Cortese, G., & Baumgartner, R.(2017).A comparison of confidence/credible interval methods for the area under the ROC curve for continuous diagnostic tests with small sample size.Statistical Methods in Medical Research, 26(6), 2603-2621. doi:10.1177/0962280215602040

表記

用語説明
Aarea under the ROC curve
percentile of the standard normal distribution

リフト

応答が2値の場合、Minitabではモデル要約表にリフトが表示されます。モデル要約表のリフトは、正しい可能性が最も高い分類が行われる、データの10%に関する累積リフトです。

計算式

事象のクラスに割り当てられる確率が最も高いデータの観測値の10%については、次の式を使用します。

テストデータセットのテストリフトの場合は、テストデータセットからの観測値を使用します。K分割交差検証を使用するテストリフトの場合、使用するデータを選択し、モデル推定に含まれていないデータの予測確率からリフトを計算します。

表記

用語説明
dnumber of cases in 10% of the data
predicted probability of the event
probability of the event in the training data or, if the analysis uses no validation, in the full data set

誤分類コスト

モデル要約表の誤分類コストは、すべての観測値を最も頻度が高いクラスに分類する単純な分類器に対する、モデルの相対誤分類コストです。

誤分類コストを計算するには、次の定義から始めます。

相対誤分類コストは、次の形式になります。

ここでR0 は、単純な分類器のコストです。

Rの計算式は、事前確率が等しい場合、またはデータから得られている場合に単純化されます。

等しい事前確率

事前確率が等しい場合、次の定義が適用されます。
この定義では、Rは次の形式になります。

データからの事前確率

事前確率がデータから得られている場合、以下の定義が適用されます。

この定義では、Rは次の形式になります。

表記

用語説明
πjprior probability of the j番目 class of the response variable
cost of misclassifying class i as class j
number of class i records misclassified as class j
Njnumber of cases in the j番目 class of the response variable
Knumber of classes in the response variable
Nnumber of cases in the data
本サイトを使用すると、分析およびコンテンツのカスタマイズのためにクッキーが使用されることに同意したことになります。  当社のプライバシーポリシーをご確認ください