TreeNet® 分類による主要な予測変数を検出の重要でない/重要な予測を排除するモデル評価

モデル評価表の定義と解釈について説明します。

このコマンドは、予測分析モジュールで使用できます。モジュールをアクティブにする方法については、ここをクリックしてください

主要な予測変数を検出のオプションを指定すると、トレーニングデータとテストデータの両方でモデル選択結果を選択できます。テストの結果は、モデルが新しい観測値の応答値を適切に予測できるか、または応答変数と予測変数の関係を適切に要約できるかを示します。トレーニング結果は通常、参考用です。

結果を使用して、さまざまなステップからモデルを比較します。表からの代替モデルをさらに詳しく調べるには、 代替モデルの選択をクリックします。Minitabは、代替モデルの結果の完全なセットを生成します。ハイパーパラメーターを調整し、それに応じて予測を行うことができます。

最適な木の数

通常、最適な木の数は、各ステップで異なります。最適な数が分析のツリーの総数に近い場合、モデルは改善の可能性が高くなります。改善の可能性が高いと思われる代替モデルを調べることを検討することもできます。

平均対数尤度

平均対数尤度は、モデルの精度の尺度です。値が小さいほど、適合性が高いことを示します。

応答が2値の場合、最良モデルの選択基準として最大対数尤度を使用できます。表の後に続く完全な結果は、平均対数尤度の最小値を持つモデルに対するものです。項の数が少ないモデルが最適値に近い平均対数尤度を持つ場合は、代替モデルをさらに探索するかどうかを検討します。予測変数が少ないモデルは解釈しやすく、少数の予測変数を使用できます。

ROC曲線下の面積

ROC曲線は、検出力とも呼ばれる真陽性率 (TPR) をy軸にプロットします。ROC曲線は、第1種の過誤とも呼ばれる偽陽性率 (FPR) をx軸にプロットします。ROC曲線下の面積は、モデルが適切な分類器であるかどうかを示します。

分類木の場合、ROC曲線下の面積の通常範囲は0.5から1です。値が大きいほど、分類モデルが適切であることを示します。モデルがクラスを完全に分離できる場合、曲線下の面積は1です。モデルがランダムな割り当てよりも良くクラスを分離できない場合、曲線下の面積は0.5です。

最適なモデルの選択基準としてROC曲線下の最大面積を使用する場合、表には各モデルのROC曲線下の面積が含まれます。表の後に続く完全な結果は、ROC曲線下の最大面積を持つモデルのものです。項の数が少ないモデルが最適値に近い値を持つ場合は、代替モデルをさらに探索するかどうかを検討します。予測変数が少ないモデルは解釈しやすく、少数の予測変数を使用できます。

誤分類率

誤分類率は、モデルが応答値を正確に分類する頻度を示します。値が小さいほど、パフォーマンスが高いことを示します。

最適なモデルの選択基準として最小誤分類率を使用する場合、表には各モデルの誤分類率が含まれます。表に続く完全な結果は、誤分類率が最も少ないモデルに対してのものです。項の数が少ないモデルが最適値に近い値を持つ場合は、代替モデルをさらに探索するかどうかを検討します。予測変数が少ないモデルは解釈しやすく、少数の予測変数を使用できます。

予測変数の数

予測変数の数とは、モデル内の予測変数の数です。表の最初の行の予測変数の数は、常に分析で考慮されるすべての予測変数です。最初の行の後の予測変数の数は、分析によって重要でない予測変数または重要な予測変数が排除されるかどうかによって変化します。

分析によって最も重要度の低い予測変数が削除されると、各ステップで指定された予測変数の数と、重要度スコアが0の予測変数の数だけ予測変数の数が減少します。たとえば、分析によってステップあたり10個の予測変数が削除される場合、最初のモデルに900個の予測変数があり、重要度スコアが0の450個の予測変数が含まれる場合、表の最初の行には900個の予測変数があります。2行目には440個の予測変数があります。これは分析によって重要度スコアが0の予測変数が450個と、重要度が最も低い10個の予測変数が削除されるためです。

分析によって最も重要な予測変数が削除されると、各ステップで指定された数の予測変数によって予測変数の数が減少します。重要度が0の予測変数はモデルに残ります。

削除された予測変数

列は各ステップで削除された予測変数を表示します。このリストには、ステップごとに予測変数のタイトルが最大25個表示されます。モデルにはすべての予測変数が含まれるため、最初の行には常に「なし」と表示されます。最初の行の後の予測変数の数は、分析によって重要でない予測変数または重要な予測変数が排除されるかどうかによって変化します。

分析によって最も重要度の低い予測変数が削除されると、各ステップで指定された予測変数の数と、重要度スコアが0の予測変数の数だけ予測変数の数が減少します。重要度スコアが0の予測変数が分析によって排除された場合、それらの予測変数がリストの最初に表示されます。分析によっていずれかのカテゴリで複数の予測変数が削除された場合、名前の順序はワークシートの予測変数の順序になります。

分析によって最も重要な予測変数が削除されると、リストには各ステップから削除された予測変数が表示されます。分析によっていずれかのステップで複数の予測変数が削除された場合、名前の順序はワークシートから得られた予測変数の順序になります。