適合モデル および 主要な予測変数を検出 のモデル概要表 TreeNet® 分類

モデル要約表の定義と解釈について理解してください。

Minitabはトレーニングデータと検証結果の両方の結果を表示します。検証結果は、モデルが新しい観測値の応答値を十分に予測できるか、または反応変数と予測変数の関係を適切に要約できるかを示します。トレーニング結果を使用して、モデルのオーバーフィットを評価します。

合計予測変数

TreeNet®モデルで使用できる合計予測変数。合計は、指定した連続予測変数とカテゴリ予測変数の総数です。

重要な予測変数

TreeNet®モデルの重要な予測変数の数。重要な予測変数には、0 より大きい重要度スコアがあります。相対変数重要度チャートを使って、相対変数の重要度の順序を表示できます。例えば、モデルで20の予測変数のうち10が重要であるとすると、相対変数重要度チャートは重要度の順序で変数を表示します。

栽培された樹木の数

デフォルトでは、TreeNet®モデルを作成するために300の小さなCART®ツリーが成長します。この値はデータの探索に適していますが、最終的なモデルを生成するためにより多くのツリーを成長させるかどうかを検討してください。成長する木の数を変更するには、[オプション]サブダイアログボックスに移動します。

最適な木の数

最適な木数は、平均負の対数尤度または誤分類率の最低値、またはROC曲線下の面積の最高値に対応します。

最適な木の数が、モデルが成長する木の最大数に近い場合は、木の数が多い解析を検討してください。したがって、300本のツリーを成長させ、最適な数が298として戻ってきた場合は、より多くのツリーを使用してモデルを再構築します。最適な数が最大数に近い場合は、木の数を増やし続けます。

平均対数尤度

応答が2値の場合、負の対数尤度関数の平均が計算されます。異なるモデルの検証結果に対する平均対数尤度値を比較し、最適なモデルを決定します。平均対数尤度の値が低いほど、適合性が高いことを示します。

ROC曲線下の面積

ROC曲線は、検出力とも呼ばれる真陽性率 (TPR) をy軸にプロットします。ROC曲線は、第1種の過誤とも呼ばれる偽陽性率 (FPR) をx軸にプロットします。ROC曲線下の面積は、モデルが適切な分類器であるかどうかを示します。

分類木の場合、ROC曲線下の面積の通常範囲は0.5から1です。値が大きいほど、分類モデルが適切であることを示します。モデルがクラスを完全に分離できる場合、曲線下の面積は1です。モデルがランダムな割り当てよりも良くクラスを分離できない場合、曲線下の面積は0.5です。

リフト

応答が2値の場合、Minitabはリフトを表示します。リフトは、正しい分類の可能性が最も高い、データの10%の累積リフトです。

リフトは、目的応答を平均応答で割った比率を表します。リフトが1より大きい場合、あるデータの区分は予測よりも大きい応答を有します。

誤分類率

最適な誤分類率は、ROC 曲線の下に最適な面積を持つツリーで発生します。誤分類率は、モデルがイベントと非イベントを正確に分類する頻度を示します。

値が小さいほど、パフォーマンスが高いことを示します。