CART^® 分類におけるモデルの要約の方法と計算式

使用する方法また計算式を選択します。

このトピックの内容

重要な予測変数
平均対数尤度
ROC曲線下の面積

ROC曲線下の面積に対する95%信頼区間
リフト
誤分類コスト

重要な予測変数

正の相対重要度を持つ予測変数の数。

分類木は、分岐の集合です。各分岐は、木の改善を提供します。各分岐には、木の改善を提供する代理変数も含まれます。木が変数を使用してノードを分岐したり、別の変数に欠損値がある場合にノードを分岐する代理変数としてある変数を使用する場合、すべての改善度によって変数の重要性が与えられます。

次の式は、単一のノードでの改善度を示します。

I(t)、p_Left、および p_Rightの値は、ノードを分割するための基準によって異なります。詳細については、におけるノード分岐方法 CART® 分類を参照してください。

q^番目の予測変数の相対重要度の計算式は、最も重要な変数によって重要度のスケールを調整します。

平均対数尤度

応答が2値の場合、負の対数尤度関数の平均が計算されます。計算は検証法によって異なります。

トレーニングデータまたは検証なし

ここで、

トレーニングデータまたは検証なしの場合の表記

用語	説明
N	完全なデータまたはトレーニングデータのサンプルサイズ
w_i	完全なデータセットまたはトレーニングデータセット内のi^番目の観測の重み
y_i	事象の場合は1、それ以外の完全またはトレーニングデータセットの場合は0の指標変数
	完全なデータセットまたはトレーニングデータセット内のi^番目の行の事象の予測確率

K分割交差検証

ここで、

K分割交差検証の表記

用語	説明
N	完全なデータまたはトレーニングデータのサンプルサイズ
n_j	分割jのサンプルサイズ
w_ij	分割jのi^番目の観測値の重み
y_ij	事象の場合は1、分割jのデータに対しては0の指標変数
	分割jのi^番目の観測値を含まないモデル推定から事象の予測確率

テストデータセット

ここで、

テストデータセットの表記

用語	説明
n_Test	テストセットのサンプルサイズ
w_i_{, Test}	テストデータセット内のi^番目の観測値の重み
y_i_{, Test}	事象の場合は1、それ以外はテストセット内のデータに対して0の指標変数
	テストセット内のi^番目の行の事象の予測確率

ROC曲線下の面積

ROC曲線は、検出力とも呼ばれる真陽性率 (TPR) をy軸に、第1種の過誤とも呼ばれる偽陽性率 (FPR) をx軸にプロットします。ROC曲線下の面積の範囲は、一般的に0.5から1です。

計算式

曲線下の面積には、積分が使用されます。

ほとんどの場合、この積分は、次の台形の領域の合計に相当します。

ここで、kはターミナルノードの数、(x₀, y₀) は点 (0, 0) です。

たとえば、結果に4つのターミナルノードがあり、ROC曲線上に次の座標があるとします。

x (偽陽性率)	y (真陽性率)
0.0923	0.3051
0.4154	0.7288
0.7538	0.9322
1	1

次に、ROC曲線下の面積は、次の計算によって与えられます。

表記

用語	説明
TRP	真陽性率
FPR	偽陽性率
TP	真陽性、正しく評価された事象
P	実際の正の事象の数
FP	真陰性、正しく評価された非事象
N	実際の負の事象の数
FNR	偽陰性率
TNR	真陰性率

ROC曲線下の面積に対する95%信頼区間

応答が2値の場合、Minitabは受信者動作特性曲線下の面積の信頼区間を計算します。

次の区間は、信頼区間の上限と下限を示します。

ROC曲線下の面積の標準誤差の計算()はSalford Predictive Modeler^®からのものです。ROC曲線下の面積の分散の推定に関する一般的な情報は、次の参考資料を参照してください。

Engelmann, B. (2011).Measures of a ratings discriminative power: Applications and limitations.In B. Engelmann & R. Rauhmeier (Eds.), The Basel II Risk Parameters: Estimation, Validation, Stress Testing - With Applications to Loan Risk Management (2nd ed.) Heidelberg; New York: Springer。doi:10.1007/978-3-642-16114-8

Cortes, C. and Mohri, M. (2005).Confidence intervals for the area under the ROC curve.Advances in neural information processing systems, 305-312.

Feng, D., Cortese, G., & Baumgartner, R. (2017).A comparison of confidence/credible interval methods for the area under the ROC curve for continuous diagnostic tests with small sample size.Statistical Methods in Medical Research, 26(6), 2603-2621. doi:10.1177/0962280215602040

表記

用語	説明
A	ROC曲線下の面積
	標準正規分布の0.975百分位数

リフト

応答が2値の場合、Minitabではモデル要約表にリフトが表示されます。モデル要約表のリフトは、正しい可能性が最も高い分類が行われる、データの10%に関する累積リフトです。

計算式

事象のクラスに割り当てられる確率が最も高いデータの観測値の10%については、次の式を使用します。

テストデータセットのテストリフトの場合は、テストデータセットからの観測値を使用します。K分割交差検証を使用するテストリフトの場合、使用するデータを選択し、モデル推定に含まれていないデータの予測確率からリフトを計算します。

表記

用語	説明
d	データの10%のケース数
	事象の予測確率
	トレーニングデータ内の事象の確率、または分析で検証が使用されていない場合は、完全なデータセット内

誤分類コスト

モデル要約表の誤分類コストは、すべての観測値を最も頻度が高いクラスに分類する単純な分類器に対する、モデルの相対誤分類コストです。

誤分類コストを計算するには、次の定義から始めます。

相対誤分類コストは、次の形式になります。

ここでR₀ は、単純な分類器のコストです。

Rの計算式は、事前確率が等しい場合、またはデータから得られている場合に単純化されます。

等しい事前確率

事前確率が等しい場合、次の定義が適用されます。

この定義では、Rは次の形式になります。

データからの事前確率

事前確率がデータから得られている場合、以下の定義が適用されます。

この定義では、Rは次の形式になります。

表記

用語	説明
π_j	応答変数のj^番目のクラスの事前確率
	クラスiクラスjとして誤分類するコスト
	クラスjとして誤分類されたクラスiのレコードの数
N_j	応答変数のj^番目のクラスのケースの数
K	応答変数のクラス数
N	データに含まれるケースの数

CART® 分類におけるモデルの要約の方法と計算式

このトピックの内容

重要な予測変数

平均対数尤度

トレーニングデータまたは検証なし

トレーニングデータまたは検証なしの場合の表記

K分割交差検証

K分割交差検証の表記

テストデータセット

テストデータセットの表記

ROC曲線下の面積

計算式

表記

ROC曲線下の面積に対する95%信頼区間

表記

リフト

計算式

表記

誤分類コスト

等しい事前確率

データからの事前確率

表記

CART^® 分類におけるモデルの要約の方法と計算式