CART® 分類のモデル要約表

モデル要約表の定義と解釈について理解してください。

Minitabでは、トレーニングとテストの両方のデータセットの結果が表示されます。テストの結果は、モデルが新しい観測値の応答値を適切に予測できるか、または応答変数と予測変数の関係を適切に要約できるかを示します。トレーニングの結果は、通常、実際よりも理想的であり、参考用です。

代替木を選択をクリックして、モデル要約統計量の表を含む交互作用プロットを開きます。このプロットを使用して、パフォーマンスが類似している、より小さい木を調査します。

通常、ターミナルノードがより少ない木で、各予測変数が応答値にどのように影響するかを明確に把握できます。より小さい木を使用すると、さらに調査を行うために、対象となるいくつかのグループを簡単に特定することもできます。より小さい木の予測の正確性の差が無視できる場合は、小さい方の木を使用して、応答と予測変数の関係を評価することができます。

合計予測変数

分類木で使用できる予測変数の合計数。これは、指定した連続予測変数とカテゴリー予測変数の総数です。

重要な予測変数

分類木の重要な予測変数の数。重要な予測変数は、最良の分岐変数または代理変数として使用される変数です。

解釈

相対変数重要度プロットを使用して、相対変数の重要度の順序を表示することができます。たとえば、分類木で20個の予測変数のうち10個が重要であるとすると、相対変数重要度プロットは重要な順に変数を表示します。

ターミナルノードの数

ターミナルノードは、それ以上分岐できない最終ノードです。

解釈

ターミナルノードは、分類木の方法で識別された、最終的な、より純度の高いグループです。ターミナルノードの情報を使用して、予測を行うことができます。

最小ターミナルノードサイズ

最小ターミナルノードサイズは、ケースの数が最も少ないターミナルノードのサイズです。

解釈

デフォルトでは、ターミナルノードで許可されるケースの最少数は3ケースに設定されます。ただし、ターミナルノードの最小サイズを3より大きくすることもできます。このしきい値は、オプションサブダイアログボックスで変更することもできます。

平均対数尤度

応答が2値の場合、負の対数尤度関数の平均が計算されます。

解釈

異なるモデルからのテストの平均対数尤度値を比較して、最適なモデルを決定します。平均対数尤度の値が低いほど、適合度が高いことを示します。

ROC曲線下の面積

ROC曲線は、検出力とも呼ばれる真陽性率 (TPR) をy軸にプロットします。ROC曲線は、第1種の過誤とも呼ばれる偽陽性率 (FPR) をx軸にプロットします。ROC曲線下の面積は、分類木が適切な分類器であるかどうかを示します。

解釈

分類木の場合、ROC曲線下の面積の範囲は0.5から1です。分類木がクラスを完全に分離できる場合、曲線下の面積は1になります。分類木がクラスをランダムな分類より良く分離できない場合、曲線下の面積は0.5になります。

リフト

応答が2値の場合、Minitabはリフトを表示します。リフトは、正しい分類の可能性が最も高い、データの10%の累積リフトです。

解釈

リフトは、目的応答を平均応答で割った比率を表します。リフトが1より大きい場合、あるデータの区分は予測よりも大きい応答を有します。

誤分類コスト

誤分類コストは、相対的な誤分類コストです。コストは、すべてのケースに関して最も共通な結果とする予測を行う木に対して相対的です。相対コストは、誤差率と重み付きコストを説明します。

解釈

[テスト] の下の誤分類コストは、Minitabが別の木ではなくその結果の木を使用して新しい観測値の応答値を予測する場合に、すべての水準で発生する誤分類コストを表します。値が小さいほど、結果の木のパフォーマンスが良いです。1未満の値は、結果のモデルのコストが、すべてのケースを最も共通の結果と予測するモデルよりも低いことを示します。