TreeNet® 回帰での適合モデルおよび主要な予測変数を検出の最適な木の数の選択

このコマンドは、予測分析モジュールで使用できます。モジュールをアクティブにする方法については、ここをクリックしてください

解析では、指定した数の木が構築され、各木の情報からモデルに小さな変更が加えられます。分析に検証法が含まれる場合、この分析では、それぞれの木の数に対するトレーニングデータおよびテストデータのモデル選択基準の値が計算されます。テストデータから得られる最適値によって、最適なモデルの木の数が決まります。

モデル検証法

最大R2などの最適化基準は、モデルに適合するために使用するのと同じデータで計算する場合、楽観的になる傾向があります。モデル検証法は、データのある割合をモデル適合プロセス外に残し、除外されたデータに対するモデルのパフォーマンスを評価する統計量を計算します。モデル検証法は、モデルが新しいデータに対してどの程度良好に機能するかを良く推定します。分析の損失関数の選択に応じて、基準は最大R2または最小平均絶対偏差(MAD)となります。Minitabでは、K分割交差検証と、別のテストデータセットによる検証の2つの検証法を提供しています。

K分割交差検証を使用した最適な木

K分割交差検証は、データのケース数が2,000以下の場合のMinitabのデフォルトの方法です。このプロセスはK回繰り返されるため、交差検証は、通常、テストデータによる検証よりも時間がかかります。

K分割交差検証の手順

K分割交差検証を完了するために、Minitab統計ソフトウェアは次の手順に従います。
  1. データを可能な限り同じサイズのK個のランダムサブセットに分割します。サブセットは分割と呼ばれます。
  2. 分割k, k = 1, ..., Kに対し、残りの K-1個の分割データを使用して木の系列を拡張します。k番目の分割におけるデータを使用して各木のモデル選択基準の値を計算します。
  3. すべてのK分割でステップ2を繰り返します。
  4. 木の数ごとにK分割全体のモデル選択基準の値を平均化します。最適な平均値を持つ木の数が最適なモデルです。

別のテストデータセットによる最適な木

テストセットを使用した検証では、データの一部が検証用に確保されます。残りのデータはトレーニングセットです。まず、Minitabは、トレーニングセットで木の系列を成長させます。次に、テストセットを使用して、各木の数ごとにモデル選択基準の値が計算されます。最適値を持つ木の数が最適なモデルです。

検証のない最適な木

検証を行わない場合、Minitabではデータセット全体を使用してモデルを適合します。最後のモデルに、木の数の最大値が含まれます。

本サイトを使用すると、分析およびコンテンツのカスタマイズのためにクッキーが使用されることに同意したことになります。  当社のプライバシーポリシーをご確認ください