R二乗対ターミナルノード数のプロットには、各木のR2値が表示されます。デフォルトでは、最初の回帰木は、R2値が最大の木の1標準誤差内の R2値をもつ最小の木です。分析で交差検証またはテストデータセットを使用する場合、R2値は検証サンプルから得られます。検証サンプルの値は、通常は横ばいになり、木が大きくなるにつれて最終的に増加し始めます。
代替木を選択をクリックして、モデルの要約の統計量の表を含むインタラクティブプロットを開きます。このプロットを使用して、類似したパフォーマンスの代替の木を調査します。
木を選択した後、ツリー図で特徴的なターミナルノードを調べます。たとえば、大きな平均値をもつノードや、標準偏差が小さいノードに関心がある場合があります。詳細ビューから、各ノードの平均、標準偏差、および合計カウント数を確認できます。
ツリー図を右クリックして、次の操作を実行します。
ノードは、ターミナルノードをそれ以上のグループに分割できなくなるまで、分割を続けます。他のノードを調べ、どの変数が最も興味深いかを確認します。
その後、ノード2は 薬物乱用の頻度 によって分岐され、ノード8は アルコール使用によって分岐されます。ターミナルノード17には、 計画された薬物療法 = 2、アルコール使用 = 1、および 紹介ソース = 3、5、6、100、300、400、600、700、または800のケースがあります。研究者は、ターミナルノード17の平均値が最も高く、標準偏差が最も小さく、最もケースが多い点に注目しています。
ターミナルノード1の平均は最小で、標準偏差は約4.3です。ターミナルノード1の平均値は約5.9で応答値は負にならないため、ノードの統計量は、ターミナルノード1のデータが右に歪んでいる可能性が高いことを示しています。
相対変数重要度グラフを使用して、木にとって最も重要な変数である予測変数を確認します。
重要な変数は、木の最良の分岐変数または代理変数です。改善度のスコアが最も高い変数が最も重要な変数とされ、他の変数もそれに応じてランク付けされます。相対変数重要度は解釈を容易にするために重要度値が標準化されたものです。相対重要度は、最も重要な予測変数に対するパーセント改善度として定義されます。
相対変数重要度値の範囲は0%から100%です。最も重要な変数の相対重要度は、常に100%です。ある変数が木でまったく使用されない場合、その変数は重要ではありません。