TreeNet® 分類での適合モデルおよび主要な予測変数を検出の最適な木の数の選択

このコマンドは、予測分析モジュールで使用できます。モジュールをアクティブにする方法については、ここをクリックしてください

目的の方法また計算式を選択します。

解析では、指定した数の木が構築され、各木の情報からモデルに小さな変更が加えられます。分析に検証法が含まれる場合、この分析では、それぞれの木の数に対するトレーニングデータおよびテストデータのモデル選択基準の値が計算されます。テストセットから得られる最適値によって、最適なモデルの木の数が決まります。

モデル検証法

最大対数尤度などの最適化基準は、モデルに適合するために使用するのと同じデータで計算する場合、楽観的になる傾向があります。モデル検証法は、データのある割合をモデル適合プロセス外に残し、除外されたデータに対するモデルのパフォーマンスを評価する統計量を計算します。モデル検証法は、モデルが新しいデータに対してどの程度良好に機能するかを良く推定します。分析の選択に応じて、基準は、最大対数尤度、ROC曲線下の最大面積、または最小誤分類率です。Minitabでは、K分割交差検証と、別のテストデータセットによる検証の2つの検証法を提供しています。

K分割交差検証を使用した最適な木

K分割交差検証は、データのケース数が2,000以下の場合のMinitabのデフォルトの方法です。このプロセスはK回繰り返されるため、交差検証は、通常、テストセットによる検証よりも時間がかかります。

K分割交差検証の手順

K分割交差検証を完了するために、Minitab統計ソフトウェアは次の手順に従います。
  1. データを可能な限り同じサイズのK個のランダムサブセットに分割します。サブセットは分割と呼ばれます。
  2. 分割k, k = 1, ..., Kに対し、残りの K-1個の分割データを使用して木の系列を拡張します。k番目の分割におけるデータを使用して各木のモデル選択基準の値を計算します。
  3. すべてのK分割でステップ2を繰り返します。
  4. 木の数ごとにK分割全体のモデル選択基準の値を平均化します。最適な平均値を持つ木の数が最適なモデルです。

別のテストデータセットによる最適な木

テストセットを使用した検証では、データの一部が検証用に確保されます。残りのデータはトレーニングセットです。まず、Minitabは、トレーニングセットで木の系列を成長させます。次に、テストセットを使用して、各木の数ごとにモデル選択基準の値が計算されます。最適値を持つ木の数が最適なモデルです。

検証のない最適な木

検証を行わない場合、Minitabではデータセット全体を使用してモデルを適合します。最後のモデルに、木の数の最大値が含まれます。