R二乗対ターミナルノード数のプロットには、各木のR2値が表示されます。デフォルトでは、最初の回帰木は、R2値が最大の木の1標準誤差内の R2値をもつ最小の木です。分析で交差検証またはテストデータセットを使用する場合、R2値は検証サンプルから得られます。検証サンプルの値は、通常は横ばいになり、木が大きくなるにつれて最終的に増加し始めます。
代替木を選択をクリックして、モデルの要約の統計量の表を含むインタラクティブプロットを開きます。このプロットを使用して、類似したパフォーマンスの代替の木を調査します。
21個のターミナルノードがある回帰木のR2値は約0.78です。木の生成基準は、最大のR2 の1標準偏差以内のR2値をもつ最小の木であるため、この木には「最適」というラベルがついています。このグラフは、約20個のノードがある木と約70個のノードがある木の間でR2値が比較的安定していることを示しているので、研究者は結果の木に類似した何本かのより小さな木のパフォーマンスを調べたいと考えます。次のグラフを比較して、17個のノードがある木の結果を確認します。
17のターミナルノードがある回帰木のR2値は0.7661 です。代替木を選択を使用して別の木の結果を生成するときに、最初の結果の木は「最適」というラベルを保持します。
木を選択した後、ツリー図で特徴的なターミナルノードを調べます。たとえば、大きな平均値をもつノードや、標準偏差が小さいノードに関心がある場合があります。詳細ビューから、各ノードの平均、標準偏差、および合計カウント数を確認できます。
ツリー図を右クリックして、次の操作を実行します。
ノードは、ターミナルノードをそれ以上のグループに分割できなくなるまで、分割を続けます。他のノードを調べ、どの変数が最も興味深いかを確認します。
ツリー図は、完全なデータセットからのすべての4453ケースを示しています。詳細ビューとノード分岐ビューの間で、木のビューを切り替えることができます。
その後、ノード2は 薬物乱用の頻度 によって分岐され、ノード8は アルコール使用によって分岐されます。ターミナルノード17には、 計画された薬物療法 = 2、アルコール使用 = 1、および 紹介ソース = 3、5、6、100、300、400、600、700、または800のケースがあります。研究者は、ターミナルノード17の平均値が最も高く、標準偏差が最も小さく、最もケースが多い点に注目しています。
ターミナルノード1の平均は最小で、標準偏差は約4.3です。ターミナルノード1の平均値は約5.9で応答値は負にならないため、ノードの統計量は、ターミナルノード1のデータが右に歪んでいる可能性が高いことを示しています。
相対変数重要度グラフを使用して、木にとって最も重要な変数である予測変数を確認します。
重要な変数は、木の最良の分岐変数または代理変数です。改善度のスコアが最も高い変数が最も重要な変数とされ、他の変数もそれに応じてランク付けされます。相対変数重要度は解釈を容易にするために重要度値が標準化されたものです。相対重要度は、最も重要な予測変数に対するパーセント改善度として定義されます。
相対変数重要度値の範囲は0%から100%です。最も重要な変数の相対重要度は、常に100%です。ある変数が木でまったく使用されない場合、その変数は重要ではありません。
これらの結果には、確かに重要な33個の変数が含まれますが、相対順位が、特定の応用に関して制御または監視する変数の数に関する情報を提供します。ある変数から次の変数への相対重要度値の急な低下は、どの変数を制御するかまたは監視するかの決定を導くことができます。たとえば、これらのデータでは、3 つの最も重要な変数重要度値は、次の変数に対する相対重要度が40%近く低下する前の比較的近い値になります。同じように、3つの変数の重要度は類似した50%近くです。さまざまなグループから変数を削除し、分析をやり直して、さまざまなグループの変数がモデル要約表の予測の正確性の値にどのように影響するかを評価できます。