基底関数の最適数の選択 MARS^® 回帰

注

このコマンドは、予測分析モジュールで使用できます。モジュールをアクティブにする方法については、ここをクリックしてください。

分析では、指定した数の基底関数が構築され、各関数の情報からモデルに少し変更を加えます。分析に検証方法が含まれている場合、分析では、トレーニングデータのモデル選択基準の値と、基底関数の数ごとのテストデータが計算されます。テストデータの最適値によって、最適モデルの関数数が決まります。

モデル検証法

最大R²などの最適化基準は、モデルに適合するために使用するのと同じデータで計算する場合、楽観的になる傾向があります。モデル検証法は、データのある割合をモデル適合プロセス外に残し、除外されたデータに対するモデルのパフォーマンスを評価する統計量を計算します。モデル検証法は、モデルが新しいデータに対してどの程度良好に機能するかを良く推定します。分析の損失関数の選択に応じて、基準は最大R²または最小平均絶対偏差(MAD)となります。Minitabでは、K分割交差検証と、別のテストデータセットによる検証の2つの検証法を提供しています。

K分割交差検証による最適モデル

K分割交差検証は、データのケース数が2000以下の場合のMinitabのデフォルトの方法です。このプロセスはK回繰り返されるため、交差検証は、通常、テストデータによる検証よりも時間がかかります。

K分割交差検証の手順

K分割交差検証を完了するために、Minitab統計ソフトウェアは次の手順を使用します。

データを可能な限り同じサイズのK個のランダムサブセットに分割します。サブセットは分割と呼ばれます。
分割 k, k = 1, ..., K の場合、残りの K–1 分割のデータを使用して基底関数を追加します。 k^番目の折り目のデータを使用して、モデルのモデル選択基準の値を計算します。
すべてのK分割でステップ2を繰り返します。
関数の数ごとに K 分割全体でモデル選択基準の値を平均します。最良の平均値を持つ関数の数が最適なモデルになります。

個別のテストセットを持つ最適モデル

テストセットを使用した検証では、データの一部が検証用に確保されます。残りのデータはトレーニングセットです。まず、学習セットとともに基底関数を追加します。次に、Minitabは、テストセットを使用して関数の数ごとにモデル選択基準の値を計算します。最良の値を持つ関数の数が最適なモデルになります。

検証なしの最適モデル

検証を行わない場合、Minitabではデータセット全体を使用してモデルを適合します。最終モデルには通常、最大数の基底関数が含まれています。