のモデル要約表CART^® 分類

モデル要約表の定義と解釈について理解してください。

注

Minitabは訓練データと検証結果の両方の結果を表示します。検証結果は、モデルが新しい観測値の応答値を十分に予測できるか、または反応変数と予測変数の関係を適切に要約できるかを示します。トレーニングの結果は通常、実際よりも理想的であり、参考に過ぎません。

このトピックの内容

合計予測変数
重要な予測変数
ターミナルノードの数
最小端末ノードサイズ

平均対数尤度
ROC曲線下の面積
リフト
誤分類コスト

代替木を選択をクリックして、モデル要約統計量の表を含む交互作用プロットを開きます。このプロットを使用して、パフォーマンスが類似している、より小さい木を調査します。

通常、ターミナルノードがより少ない木で、各予測変数が応答値にどのように影響するかを明確に把握できます。より小さい木を使用すると、さらに調査を行うために、対象となるいくつかのグループを簡単に特定することもできます。より小さい木の予測の正確性の差がごくわずかである場合は、小さい方の木を使用して、応答変数と予測変数の関係を評価することができます。

合計予測変数

分類木で使用できる予測変数の合計数。これは、指定した連続予測変数とカテゴリー予測変数の総数です。

重要な予測変数

分類木の重要な予測変数の数。重要な予測変数は、最良の分岐変数または代理変数として使用される変数です。

解釈

相対変数重要度プロットを使って、相対変数の重要度の順序を表示できます。例えば、分類木で20個中10個の予測変数が重要であるとすると、相対変数重要度プロットは重要度順に変数を表示します。

ターミナルノードの数

ターミナルノードとは、これ以上分割できない最終ノードのことです。

解釈

ターミナルノードは、分類木の方法で識別された、最終的な、より純度の高いグループです。ターミナルノードの情報を使って予測を行うことができます。

最小端末ノードサイズ

最小終端ノードサイズは、ケース数が最も少ない終端ノードです。

解釈

Minitabはデフォルトで、ターミナルノードに許可される最小ケース数を3ケースと設定しています。ただし、ツリーのターミナルノードサイズが3より大きい場合もあります。このしきい値は、オプションサブダイアログボックスで変更することもできます。

平均対数尤度

応答が2値の場合、負の対数尤度関数の平均が計算されます。

解釈

モデル間の検証結果の平均対数尤度値を比較し、最適なモデルを決定します。平均対数尤度の値が低いほど、適合度が高いことを示します。

ROC曲線下の面積

ROC曲線は、検出力とも呼ばれる真陽性率 (TPR) をy軸にプロットします。ROC曲線は、第1種の過誤とも呼ばれる偽陽性率 (FPR) をx軸にプロットします。ROC曲線下の面積は、分類木が適切な分類器であるかどうかを示します。

解釈

分類木の場合、ROC曲線下の面積の範囲は0.5から1です。分類木がクラスを完全に分離できる場合、曲線下の面積は1になります。分類木がクラスをランダムな分類より良く分離できない場合、曲線下の面積は0.5になります。

リフト

応答が2値の場合、Minitabはリフトを表示します。リフトは、正しい分類の可能性が最も高い、データの10%の累積リフトです。

解釈

リフトは、目的応答を平均応答で割った比率を表します。リフトが1より大きい場合、あるデータの区分は予測よりも大きい応答を有します。

誤分類コスト

誤分類コストは、相対的な誤分類コストです。コストは、すべてのケースに関して最も共通な結果とする予測を行う木に対して相対的です。相対コストは、誤差率と重み付きコストを説明します。

解釈

検証結果の誤分類コストは、Minitabが新しい観測値の応答値を予測するために別の木ではなく木を用いた場合に発生する誤分類コストを表しています。値が小さいほど、結果の木のパフォーマンスが良いです。1未満の値は、結果のモデルのコストが、すべてのケースを最も共通の結果と予測するモデルよりも低いことを示します。

のモデル要約表CART® 分類

注