の主要な結果を解釈する CART® 回帰

以下のステップを実行して、 CART® 回帰を解釈します。主要な出力には、ツリー図、R2、変数重要度、残差プロットが含まれます。

ステップ 1:代替の木の調査

R二乗対ターミナルノード数のプロットには、各木のR2値が表示されます。デフォルトでは、最初の回帰木は、R2値が最大の木の1標準誤差内の R2値をもつ最小の木です。分析で交差検証またはテストデータセットを使用する場合、R2値は検証サンプルから得られます。検証サンプルの値は、通常は横ばいになり、木が大きくなるにつれて最終的に増加し始めます。

代替木を選択をクリックして、モデルの要約の統計量の表を含むインタラクティブプロットを開きます。このプロットを使用して、類似したパフォーマンスの代替の木を調査します。

通常、代替の木は、次の2つの理由のいずれかのため選択されます。
  • Minitabが選択する木は、基準が改善されているパターンの一部にあります。さらにいくつかのノードがある1本以上の木が同じパターンの一部にあります。通常、できるだけ予測の正確性が高い木から予測を行う必要があります。
  • Minitabが選択する木は、基準が比較的平坦になるパターンの一部にあります。モデルの要約統計量が類似している1本以上の木で、最適な木よりもノード数が非常に少なくなります。通常、ターミナルノードがより少ない木で、各予測変数が応答値にどのように影響するかを明確に把握できます。より小さい木を使用すると、さらに調査を行うための、いくつかの目的のグループをより簡単に特定できます。より小さい木の予測の正確性の差がごくわずかである場合は、小さい木を使用して応答と予測変数の関係を評価することもできます。
主要な結果:21個のターミナルノードがある木のR二乗対ターミナルノード数のプロット

21個のターミナルノードがある回帰木のR2値は約0.78です。木の生成基準は、最大のR2 の1標準偏差以内のR2値をもつ最小の木であるため、この木には「最適」というラベルがついています。このグラフは、約20個のノードがある木と約70個のノードがある木の間でR2値が比較的安定していることを示しているので、研究者は結果の木に類似した何本かのより小さな木のパフォーマンスを調べたいと考えます。次のグラフを比較して、17個のノードがある木の結果を確認します。

主要な結果:17のターミナルノードがある木のR二乗対ターミナルノード数のプロット

17のターミナルノードがある回帰木のR2値は0.7661 です。代替木を選択を使用して別の木の結果を生成するときに、最初の結果の木は「最適」というラベルを保持します。

ステップ 2:ツリー図で対象のノードを調査する

木を選択した後、ツリー図で特徴的なターミナルノードを調べます。たとえば、大きな平均値をもつノードや、標準偏差が小さいノードに関心がある場合があります。詳細ビューから、各ノードの平均、標準偏差、および合計カウント数を確認できます。

ツリー図を右クリックして、次の操作を実行します。

  • ノードの適合値から最小の変動をもつ5つのノードをハイライト表示します。これらのノードは最適なノードです。
  • 木の基準に応じて、最大の平均または中央値をもつ5つのノードをハイライト表示します。
  • 木の基準に応じて、平均値または中央値が最も低い5つのノードをハイライト表示します。
  • 選択したノードに導く予測変数の値をコピーします。これらの値はノードのルールです。
  • ノード分岐ビューを表示します。このビューは、大きな木で、どの変数がノードを分岐するかのみを確認する必要がある場合に有用です。

ノードは、ターミナルノードをそれ以上のグループに分割できなくなるまで、分割を続けます。他のノードを調べ、どの変数が最も興味深いかを確認します。

主要な結果:17ノードの木のツリー図

ツリー図は、完全なデータセットからのすべての4453ケースを示しています。詳細ビューとノード分岐ビューの間で、木のビューを切り替えることができます。

最初のノードは、患者が投薬療法を受けたかどうかを記録する変数を使用して分岐されます。
  • ノード2には、 計画された薬物療法 = 1のケースがあります。このノードには1881ケースがあります。ノードの平均は全体平均より小さいです。ノード2の標準偏差は約5.4で、分岐によってより純粋なノードが得られるので、全体の標準偏差より小さくなります。
  • ノード8には、 計画された薬物療法 = 2のケースがあります。このノードには2572ケースがあります。ノードの平均は全体平均を超えています。ノード8の標準偏差は約6.1で、全体の標準偏差よりも小さいです。

その後、ノード2は 薬物乱用の頻度 によって分岐され、ノード8は アルコール使用によって分岐されます。ターミナルノード17には、 計画された薬物療法 = 2、アルコール使用 = 1、および 紹介ソース = 3、5、6、100、300、400、600、700、または800のケースがあります。研究者は、ターミナルノード17の平均値が最も高く、標準偏差が最も小さく、最もケースが多い点に注目しています。

ターミナルノード1の平均は最小で、標準偏差は約4.3です。ターミナルノード1の平均値は約5.9で応答値は負にならないため、ノードの統計量は、ターミナルノード1のデータが右に歪んでいる可能性が高いことを示しています。

ステップ 3:重要な変数を決定する

相対変数重要度グラフを使用して、木にとって最も重要な変数である予測変数を確認します。

重要な変数は、木の最良の分岐変数または代理変数です。改善度のスコアが最も高い変数が最も重要な変数とされ、他の変数もそれに応じてランク付けされます。相対変数重要度は解釈を容易にするために重要度値が標準化されたものです。相対重要度は、最も重要な予測変数に対するパーセント改善度として定義されます。

相対変数重要度値の範囲は0%から100%です。最も重要な変数の相対重要度は、常に100%です。ある変数が木でまったく使用されない場合、その変数は重要ではありません。

主要な結果:相対変数重要度

この例では、最も重要な予測変数は アルコール使用です。最上の予測変数の寄与度アルコール使用が100%の場合、他の変数を アルコール使用 と比較してその重要性を判断することができます。したがって、最も重要な予測変数に着目することができます。次のリストは、この木の、次に重要な変数を示しています。
  • 乱用の主な物質 および 計画された薬物療法アルコール使用の約92%重要です。
  • ヘロイン使用アルコール使用の約55%重要です。
  • サブの一次摂取ルート および 紹介ソースアルコール使用の約48%重要です。

これらの結果には、確かに重要な33個の変数が含まれますが、相対順位が、特定の応用に関して制御または監視する変数の数に関する情報を提供します。ある変数から次の変数への相対重要度値の急な低下は、どの変数を制御するかまたは監視するかの決定を導くことができます。たとえば、これらのデータでは、3 つの最も重要な変数重要度値は、次の変数に対する相対重要度が40%近く低下する前の比較的近い値になります。同じように、3つの変数の重要度は類似した50%近くです。さまざまなグループから変数を削除し、分析をやり直して、さまざまなグループの変数がモデル要約表の予測の正確性の値にどのように影響するかを評価できます。