MARS® 回帰のモデル要約表

どの程度モデルがデータに適合するかを判断するには、モデル要約表の統計量を調べます。

合計予測変数

モデルで使用可能な合計予測変数の数。これは、指定した連続予測変数とカテゴリ予測変数の総数です。

重要な予測変数

モデル内の重要な予測変数の数。重要な予測変数は、モデル内で少なくとも1つの基底関数を持つ変数です。

解釈

相対変数重要度プロットを使って、相対変数の重要度の順序を表示できます。例えば、20の予測変数のうち10個がモデルに基底関数を持っているとすると、相対変数重要度プロットは重要度の順序で変数を表示します。

基底関数の最大数

最適なモデルを検索するためにアルゴリズムが構築する基底関数の数。

解釈

Minitab統計ソフトウェアはデフォルトで基底関数の最大数を30に設定しています。30基底関数がデータに対して小さすぎると思われる場合は、より大きな値を検討してください。たとえば、30個を超える予測変数が重要であると思われる場合は、より大きな値を検討します。

最適基底関数数

最適モデル内の基底関数の数。

解釈

解析が基底関数数の最大数を推定した後、解析は逆消去法を用いて基底関数をモデルから除去します。分析では、モデルの適合に最も寄与しない基底関数が1つずつ削除されます。各ステップで、解析は最適性基準の値(R二乗または平均絶対偏差)を計算します。消去法が完了した後、最適基底関数の数は、除去法から基準の最適値を生成した数となります。

R二乗

R2は、モデルによって説明される応答の変動のパーセントです。外れ値は、平均絶対偏差 (MAD) や 平均絶対パーセント誤差 (MAPE) に対してよりも、 R2に大きな影響を与えます。

検証方法を使う場合、表にはトレーニングデータセット用のR2 統計量と検証方法用のR2 統計量が含まれています。検証手法がk-フォールドクロス検証の場合、ツリー構築でそのフォールドが除外された場合、検証は各フォールドを使用します。検証結果のR2 統計量は、新しいデータに対するモデルの動作をよりよく測る指標です。

解釈

R2を使用して、モデルがデータにどの程度適合するかを判断します。R2値が高いほど、モデルが良好にデータに適合します。R2 は常に0%と100%の間である。

さまざまなR2値の意味をグラフィカルに示すことができます。最初のプロットは、応答における85.5%の変動を説明する単回帰モデルを図示しています。2つ目のプロットは、応答における22.6%の変動を説明するモデルを図示しています。モデルによって説明される変動が多いほど、データ点が適合値に近づきます。理論上、モデルが変動の100%を説明できる場合、適合値は常に観測値と等しく、すべてのデータ点はy = x 線上にあるでしょう。

検証R2 が訓練R2 より大幅に小さい場合、モデルは新しいケースの応答値を予測できず、モデルが現在のデータセットに適合している可能性を示します。

二乗平均平方根誤差 (RMSE)

二乗平均平方根誤差 (RMSE) は、モデルの正確性を評価します。外れ値は、MADやMAPEに対してよりも、RMSEに大きな影響を与えます。

検証方法を使うと、訓練データセットのRMSE統計量と検証結果のRMSE統計量が表に含まれます。検証手法がk-フォールドクロス検証の場合、ツリー構築でそのフォールドが除外された場合、検証は各フォールドを使用します。検証RMSE統計量は、新しいデータに対してモデルがどのように機能するかをよりよく測る指標であることが多いです。

解釈

さまざまなモデルの適合値を比較するためにを使用します。値が小さいほど、適合性が高いことを示します。学習RMSEよりも大幅に小さい検証RMSEは、モデルが新しいケースの応答値を予測できていない可能性があり、モデルが現在のデータセットに適合している可能性を示しています。

平均二乗誤差(MSE)

平均二乗誤差 (MSE) は、モデルの正確性を評価します。外れ値は、MADやMAPEに対してよりも、MSEに大きな影響を与えます。

検証方法を使うと、訓練データセットのMSE統計量と検証結果のMSE統計量が表に含まれます。検証手法がkフォールドクロス検証の場合、モデル構築でそのフォールドが除外された場合、検証は各フォールドを使用します。検証MSE統計量は、新しいデータに対してモデルがどのように機能するかをよりよく測る指標であることが多いです。

解釈

さまざまなモデルの適合値を比較するためにを使用します。値が小さいほど、適合性が高いことを示します。学習MSEよりも大幅に小さい検証MSEは、モデルが新しいケースの応答値を予測できていない可能性があり、モデルが現在のデータセットに適合している可能性を示しています。

平均絶対偏差 (MAD)

平均絶対偏差(MAD)は、データと同じ単位で正確性を表し、誤差の量を概念化するのに役立つます。外れ値は、R2、RMSE、およびMSEに対してよりも、MADに対する影響が少ないです。

検証方法を使うと、訓練データセットのMAD統計量と検証結果のMAD統計量が表に含まれます。検証手法がkフォールドクロス検証の場合、モデル構築でそのフォールドが除外された場合、検証は各フォールドを使用します。検証MAD統計量は、新しいデータに対してモデルがどのように機能するかをよりよく測る指標であることが多いです。

解釈

さまざまなモデルの適合値を比較するためにを使用します。値が小さいほど、適合性が高いことを示します。学習MADよりも大幅に小さい検証MADは、モデルが新しいケースの応答値を予測できていない可能性があり、モデルが現在のデータセットに適合している可能性を示しています。