モデル概要 CART^® 回帰

モデル要約表のすべての統計量の定義と解釈について理解してください。

このトピックの内容

合計予測変数
重要な予測変数
ターミナルノードの数
最小端末ノードサイズ
R二乗

二乗平均平方根誤差 (RMSE)
平均二乗誤差(MSE)
平均絶対偏差 (MAD)
平均絶対パーセント誤差 (MAPE)

合計予測変数

木で使用できる合計予測変数。これは、指定した連続予測変数とカテゴリ予測変数の総数です。

重要な予測変数

木の重要な予測変数の数。重要な予測変数は、最良の分岐変数または代理変数として使用される変数です。

解釈

相対変数重要度プロットを使って、相対変数の重要度の順序を表示できます。例えば、20個中10個の予測変数が木の中で重要であるとすると、相対変数重要度プロットは重要度順に変数を表示します。

ターミナルノードの数

ターミナルノードとは、これ以上分割できない最終ノードのことです。

解釈

ターミナルノードの情報を使って予測を行うことができます。

最小端末ノードサイズ

最小終端ノードサイズは、ケース数が最も少ない終端ノードです。

解釈

Minitabはデフォルトで、ターミナルノードに許可される最小ケース数を3ケースと設定しています。しかし、木における最小終端ノードサイズは解析で許容される最小数を超えることがあります。このしきい値は、オプションサブダイアログボックスで変更できます。

R二乗

R²は、モデルによって説明される応答の変動のパーセントです。外れ値は、平均絶対偏差 (MAD) や平均絶対パーセント誤差 (MAPE) に対してよりも、 R²に大きな影響を与えます。

検証方法を使う場合、表にはトレーニングデータセット用のR² 統計量と検証方法用のR² 統計量が含まれています。検証手法がk-フォールドクロス検証の場合、ツリー構築でそのフォールドが除外された場合、検証は各フォールドを使用します。検証結果のR² 統計量は、新しいデータに対するモデルの動作をよりよく測る指標です。

解釈

R²を使用して、モデルがデータにどの程度適合するかを判断します。R²値が高いほど、モデルが良好にデータに適合します。R² は常に0%と100%の間である。

さまざまなR²値の意味をグラフィカルに示すことができます。最初のプロットは、応答における85.5%の変動を説明する単回帰モデルを図示しています。2つ目のプロットは、応答における22.6%の変動を説明するモデルを図示しています。モデルによって説明される変動が多いほど、データ点が適合値に近づきます。理論上、モデルが変動の100%を説明できる場合、適合値は常に観測値と等しく、すべてのデータ点はy = x 線上にあるでしょう。

トレーニング^R2 よりも大幅に小さい検証^R2 は、木が新しいケースの応答値を予測しきれず、現在のデータセットに適合している可能性を示しています。

二乗平均平方根誤差 (RMSE)

二乗平均平方根誤差 (RMSE) は、木の正確性を評価します。外れ値は、MADやMAPEに対してよりも、RMSEに大きな影響を与えます。

検証方法を使うと、訓練データセットのRMSE統計量と検証結果のRMSE統計量が表に含まれます。検証手法がk-フォールドクロス検証の場合、ツリー構築でそのフォールドが除外された場合、検証は各フォールドを使用します。検証RMSE統計量は、新しいデータに対してモデルがどのように機能するかをよりよく測る指標であることが多いです。

解釈

さまざまな木の適合値を比較するためにを使用します。値が小さいほど、適合性が高いことを示します。訓練RMSEを大きく上回る検定RMSEは、木が新しいケースの応答値を予測しきれず、木が現在のデータセットに適合している可能性を示しています。

平均二乗誤差(MSE)

平均二乗誤差 (MSE)は、木の正確性を測定します。外れ値は、MADやMAPEに対してよりも、MSEに大きな影響を与えます。

検証方法を使うと、訓練データセットのMSE統計量と検証結果のMSE統計量が表に含まれます。検証手法がkフォールドクロス検証の場合、モデル構築でそのフォールドが除外された場合、検証は各フォールドを使用します。検証MSE統計量は、新しいデータに対してモデルがどのように機能するかをよりよく測る指標であることが多いです。

解釈

さまざまな木の適合値を比較するためにを使用します。値が小さいほど、適合性が高いことを示します。訓練MSEを大きく上回る検証MSEは、木が新しいケースの応答値を予測しきれず、木が現在のデータセットに適合している可能性を示しています。

平均絶対偏差 (MAD)

平均絶対偏差(MAD)は、データと同じ単位で正確性を表し、誤差の量を概念化するのに役立つます。外れ値は、R²、RMSE、およびMSEに対してよりも、MADに対する影響が少ないです。

検証方法を使うと、訓練データセットのMAD統計量と検証結果のMAD統計量が表に含まれます。検証手法がkフォールドクロス検証の場合、モデル構築でそのフォールドが除外された場合、検証は各フォールドを使用します。検証MAD統計量は、新しいデータに対してモデルがどのように機能するかをよりよく測る指標であることが多いです。

解釈

さまざまな木の適合値を比較するためにを使用します。値が小さいほど、適合性が高いことを示します。訓練MADを大きく上回る検証MADは、木が新しいケースの応答値を予測しきれず、木が現在のデータセットに適合している可能性を示しています。

平均絶対パーセント誤差 (MAPE)

平均絶対パーセント誤差（MAPE）では、精度を誤差のパーセント値として表します。MAPEはパーセント値であるため、他の精度の測度を表す統計量よりも容易に理解できます。たとえば、MAPE が平均で0.05の場合、適合誤差とすべてのケースの実際の値の平均比率は5%になります。外れ値は、R²、RMSE、およびMSEに対してよりも、MAPEに対する影響が少ないです。

しかし、木がデータに良好に適合しているように見えても、非常に大きなMAPE値が表示されることがあります。フィットした反応値と実際の反応値のプロットを見て、データ値が0に近いかどうかを確認しましょう。MAPEは絶対誤差を実際のデータで割るため、0に近い値はMAPE を大きく増大させる可能性があります。

検証方法を使うと、訓練データセットのMAPE統計量と検証結果のMAPE統計量が表に含まれます。検証手法がkフォールドクロス検証の場合、モデル構築でそのフォールドが除外された場合、検証は各フォールドを使用します。検証MAPE統計量は、新しいデータに対してモデルがどのように機能するかをよりよく測る指標であることが多いです。

解釈

さまざまな木の適合値を比較するためにを使用します。値が小さいほど、適合性が高いことを示します。訓練MAPEを大きく上回る検証MAPEは、木が新しいケースの応答値を予測しきれず、木が現在のデータセットに適合している可能性を示しています。

モデル概要 CART® 回帰