のR二乗対ターミナルノード数のプロット CART® 回帰

木のターミナルノード数に対するR2値のプロットが表示されるため、ある木を選択してさらに評価することができます。テストデータセットまたはK分割交差検証を使用して木のパフォーマンスを検証する場合、R2値は検証データに関するものです。

R二乗対ターミナルノード数のプロットには、各木のR2値が表示されます。デフォルトでは、最初の回帰木は、最大のR2値の1標準誤差内のR2値をもつ最小の木です。分析で交差検証またはテストデータセットを使用する場合、R2値は検証サンプルからのものです。検証サンプルの値は、通常は横ばいになり、木が大きくなるにつれて最終的に減少し始めます。

代替木を選択をクリックして、モデルの要約の統計量の表を含むインタラクティブプロットを開きます。このプロットを使用して、類似したパフォーマンスをもつ代替の木を調べます。

通常、代替の木は、次の2つの理由のいずれかのため選択されます。
  • Minitabが選択する木は、基準が改善されるパターンの一部にあります。さらにいくつかのノードがある1本以上の木が同じパターンの一部にあります。通常、できるだけ予測の正確性が高い木から予測を行う必要があります。
  • Minitabが選択する木は、基準が比較的平坦なパターンの一部にあります。モデルの要約統計量が類似している1本以上の木で、最適な木よりもノード数が非常に少なくなります。通常、ターミナルノードがより少ない木で、各予測変数が応答値にどのように影響するかを明確に把握できます。より小さい木を使用すると、さらに調査を行うための、いくつかの目的のグループをより簡単に特定できます。より小さい木の予測の正確性の差がごくわずかである場合は、小さい木を使用して応答と予測変数の関係を評価することもできます。

解釈

主要な結果:21個のターミナルノードがある木のR二乗対ターミナルノード数のプロット

21個のターミナルノードがある回帰木のR2値は約0.78です。木の生成基準は、R2の最大値の1標準偏差以内のR2値をもつ最小の木であるため、この木には「最適」というラベルがついています。このグラフは、約20個のノードがある木と約70個のノードがある木の間でR2値が比較的安定していることを示しているので、研究者は結果の木に類似した、いくつかの小さな木のパフォーマンスを調べたいと考えています。次のグラフを比較して、17個のノードがある木の結果を確認します。

主要な結果:17個のターミナルノードがある木のR二乗対ターミナルノード数のプロット

17個のターミナルノードがある回帰木のR2値は0.7661 です。別の木の結果を生成するときに、最初の結果の木は「最適」というラベルを保持します。