総予測変数

木で使用できる予測変数の合計数。これは、指定した連続予測変数とカテゴリー予測変数の総数です。

重要な予測変数

木の重要な予測変数の数。重要な予測変数は、最良の分岐変数または代理変数として使用される変数です。

解釈

相対変数重要度プロットを使用して、相対変数の重要度の順序を表示することができます。たとえば、20個の予測変数のうち10個がその木で重要であるとします。

ターミナルノードの数

ターミナルノードは、それ以上分岐できない最終ノードです。

解釈

ターミナルノード情報を使用して予測を行うことができます。

最小ターミナルノードサイズ

最小ターミナルノードサイズは、ケースの数が最も少ないターミナルノードのサイズです。

解釈

デフォルトでは、ターミナルノードで許可されるケースの最少数は3ケースに設定されます。ただし、木の最小ターミナルノードサイズは、分析で許可されている最小数よりも大きくなる場合があります。このしきい値は、オプションサブダイアログボックスで変更できます。

R二乗

R2は、モデルによって説明される応答の変動のパーセントです。外れ値は、平均絶対偏差 (MAD) や 平均絶対パーセント誤差 (MAPE) に対してよりも、 R2に大きな影響を与えます。

検証法を使用する場合、表にはトレーニングデータセットのR2統計量とテストデータセットのR2統計量が含まれます。検証法がK分割交差検証の場合、テストデータセットは木の生成において除外される各分割になります。通常、テストのR2統計量は、新しいデータに対してモデルがどのように働くかについての、優れた指標です。

解釈

R2を使用して、モデルがデータにどの程度適合するかを判断します。R2値が高いほど、モデルが良好にデータに適合します。R2は常に0%から100%の間です。

さまざまなR2値の意味をグラフィカルに示すことができます。最初のプロットは、応答の変動の85.5%を説明する単回帰モデルを示しています。2番目のプロットは、応答の変動の22.6%を説明するモデルを示しています。モデルによって説明される変動が多いほど、データ点が適合値に近づきます。理論上、モデルが変動の100%を説明できる場合、適合値は常に観測値と等しく、すべてのデータ点はy = x 線上にあるでしょう。

テストのR2がトレーニングのR2より大幅に小さい場合は、木が現在のデータセットに適合するほどは新しいケースの応答値を予測しない可能性があることを示します。

二乗平均平方根誤差 (RMSE)

二乗平均平方根誤差 (RMSE) は、木の正確性を評価します。外れ値は、MADやMAPEに対してよりも、RMSEに大きな影響を与えます。

検証法を使用する場合、表にはトレーニングデータセットのRMSE統計量とテストデータセットのRMSE統計量が含まれます。検証法がK分割交差検証の場合、テストデータセットは木の生成において除外される各分割になります。通常、テストのRMSE統計量は、新しいデータに対してモデルがどのように働くかについての、優れた指標です。

解釈

さまざまな木の適合値を比較するためにを使用します。値が小さいほど、適合性が高いことを示します。テストのRMSEがトレーニングのRMSEより大幅に小さい場合は、木が現在のデータセットに適合するほどは新しいケースの応答値を予測しない可能性があることを示します。

平均平方誤差 (MSE)

平均平方誤差 (MSE)は、木の正確性を測定します。外れ値は、MADやMAPEに対してよりも、MSEに大きな影響を与えます。

検証法を使用する場合、表にはトレーニングデータセットの誤差のMSE統計量とテストデータセットのMSE統計量が含まれます。検証法がK分割交差検証の場合、テストデータセットは木の生成において除外される各分割になります。通常、テストのMSE統計量は、新しいデータに対してモデルがどのように働くかについての、優れた指標です。

解釈

さまざまな木の適合値を比較するためにを使用します。値が小さいほど、適合性が高いことを示します。テストのMSEがトレーニングのMSEより大幅に小さい場合は、木が現在のデータセットに適合するほどは新しいケースの応答値を予測しない可能性があることを示します。

平均絶対偏差 (MAD)

平均絶対偏差(MAD)は、データと同じ単位で正確性を表し、誤差の量を概念化するのに役立つます。外れ値は、R2、RMSE、およびMSEに対してよりも、MADに対する影響が少ないです。

検証法を使用する場合、表には、トレーニングデータセットの MAD統計量とテストデータセットのMAD統計量が含まれます。検証法がK分割交差検証の場合、テストデータセットは木の生成において除外される各分割になります。通常、テスト MAD統計は、新しいデータに対してモデルがどのように働くかについての、優れた指標です

解釈

さまざまな木の適合値を比較するためにを使用します。値が小さいほど、適合性が高いことを示します。テストのMADがトレーニングのMADより大幅に小さい場合は、木が現在のデータセットに適合するほどは新しいケースの応答値を予測しない可能性があることを示します。

平均絶対パーセント誤差 (MAPE)

平均絶対パーセント誤差 (MAPE) は、誤差のパーセントとして正確性を表します。MAPEはパーセントであるため、他の正確性の基準となる統計量よりも理解しやすい可能性があります。たとえば、MAPEが5の場合、平均すると、適合は5%外れていることになります。外れ値は、R2、RMSE、およびMSEに対してよりも、MAPEに対する影響が少ないです。

しかし、木がデータに良好に適合しているように見えても、非常に大きなMAPE値が表示されることがあります。適合値対実際の応答値のプロットを調べて、データ値が0に近いかどうかを調べます。MAPEは絶対誤差を実際のデータで割るため、0に近い値は MAPEを大きくせ増大させる可能性があります。

検証法を使用する場合、表にはトレーニングデータセットの MAPE統計量とテストデータセットのMAPE統計量が含まれます。検証法がK分割交差検証の場合、テストデータセットは木の生成において除外される各分割になります。通常、テストのMAPE統計量は、新しいデータに対してモデルがどのように働くかについての、優れた指標です。

解釈

さまざまな木の適合値を比較するためにを使用します。値が小さいほど、適合性が高いことを示します。テストのMAPEがトレーニングのMAPEより大幅に小さい場合、木が現在のデータセットに適合するほどは新しいケースの応答値を予測しない可能性があることを示します。

本サイトを使用すると、分析およびコンテンツのカスタマイズのためにクッキーが使用されることに同意したことになります。  当社のプライバシーポリシーをご確認ください