Random Forests® 分類の相対変数重要度グラフ

このコマンドは、予測分析モジュールで使用できます。モジュールをアクティブにする方法については、ここをクリックしてください

相対変数重要度グラフは、フォレスト全体で予測変数に分割が行われたときに、モデルの改善に対する予測変数の効果の順に予測変数をプロットします。改善度のスコアが最も高い変数が最も重要な変数とされ、他の変数は重要度の順に設定されます。相対変数重要度は、解釈を容易にするために重要度値が標準化されたものです。相対重要度は、100%の重要度を持つ、最も重要な予測変数に対するパーセント改善度として定義されます。

相対重要度は、各変数重要度スコアを変数の最高の重要度スコアで除算し、100%を乗算して計算されます。

解釈

相対変数重要度値の範囲は0%から100%です。最も重要な変数の相対重要度は、常に100%です。ある変数が木でまったく使用されない場合、その変数は重要ではありません。

Minitabでは変数重要度チャートで変数の相対的重要度スコアを計算するために、2つの方法が用意されています。順列の場合、Minitabは、チャート上の変数の変更された値を使用してモデルを再検証することによって、モデルがどの程度悪いパフォーマンスを示すかを評価します。ジニの場合、Minitabは変数がすべての木に対して行う改善を合計します。順列は、レコード数が5000以下のデータセットのデフォルトの方法です。分析に時間がかかりすぎておらず、重要な予測変数の特定が重要な目標である場合に、より大きなデータセットに順列を使用するか検討してください。

最も重要な予測変数は主要血管です。最上の予測変数である主要血管の寄与度を100%とすると、この例で次に重要な変数であるタールの寄与度は89.7%です。これは、この分類モデルで、タールは主要血管の89.7%重要であることを意味します。