最適なツリーの選択 カート®回帰

最適なツリーが最小二乗誤差のツリー、または絶対偏差が最も少ないツリーであることを指定できます。選択した基準の最高値を持つツリーの決定は、検証方法によって異なります。

モデル検証方法と複雑度パラメータの詳細については、ブレイマン、フリードマン、オルシェン、ストーン (1984) を参照してください。1.

モデル検証メソッド

R2 などのモデル要約統計量は、モデルに適合するために使用するのと同じデータで計算する場合、楽観的になる傾向があります。モデル検証メソッドは、データの一部をモデルフィッティングプロセスの外に残し、省略されたデータに対するモデルのパフォーマンスを評価する統計を計算します。モデル検証手法は、モデルが新しいデータに対してどの程度うまく機能するかをより良く見積もります。Minitabでは、予測分析手法に対する2つの検証方法を提供しています: K-フォールド交差検証と、別のテストデータセットを使用した検証。

Kフォールドクロス検証を備えた最適なツリー

K-fold 交差検証は、データのケースが 5,000 以下の場合の Minitab のデフォルトの方法です。この方法では、データが K サブセットに分割されます。サブセットはフォールドと呼ばれます。K フォールドのクロス検証は、テスト データ セットで適切に機能するデータ セットと比較して、比較的小さいデータ セットで適切に機能する傾向があります。プロセスは K 回繰り返されるため、クロス検証は通常、テスト データ セットの検証よりも遅くなります。

Kフォールドクロス検証手順

K-フォールド交差検証を完了するために、サブツリーの 1 + k シーケンスが生成されます。サブツリーの 1 つのシーケンスであるマスター シーケンスは、トレーニング データ セット全体を使用します。他のk配列はkの折り目のためのものです。各折り目に対して、サブツリーのシーケンスは、トレーニング データ セット内のケースの (k – 1)/k を使用します。

各シーケンスは、ネストされたサブツリーの有限シーケンスで構成されます。各フォールドには、シーケンス内の最大のツリーとサブツリーに対応する複雑性パラメータ αd ≤ α ≤ αd + 1 の有限シーケンスがあります。完全なデータセットのシーケンスには、複雑なパラメータβ ≤ β ≤ βd + 1 where d = 0, 1, ..ここで、列の中で最も大きいツリーのパラメータは、β0 です。

マスターシーケンス内のサブツリーに対して、対応する複雑性パラメータが βd および βd + 1 であると仮定します。しましょう .次に、このアルファを使用して、k 折り目から対応するサブツリー k を検索します。各折り目について、 の式を使用して、サブツリーに対して選択した基準を計算します。k フォールド全体の基準の平均は、マスターシーケンス内のサブツリーの推定値です。マスタシーケンスの各サブツリーに対して、基準の計算を繰り返します。最小平均値を持つサブツリーは、最適なツリーです。

別のテスト・データ・セットを持つ最適ツリー

テスト データセットを使用した検証では、データの一部が検証用に確保されます。データのこの部分は、トレーニング データ セットです。まず、Minitabはトレーニングデータセットに合わせてすべてのツリーを適合します。次に、各ツリーのテスト データセットの平均平方誤差または絶対偏差が計算されます。テスト・データ・セットの基準の最適値を持つツリーは、最適ツリーです。

検証のない最適ツリー

検証を行わない場合、Minitabではデータセット全体を使用してサブツリーのシーケンスが拡張されます。最も多い終端ノードを持つサブツリーは、最小平均の二乗誤差または最小絶対偏差を持ち、最適なツリーです。

1 ブレイマン、フリードマン、オルシェン&ストーン。(1984).分類ツリーと回帰ツリー。ボカラトン, フロリダ州:チャップマン&ホール/CRC.
本サイトを使用すると、分析およびコンテンツのカスタマイズのためにクッキーが使用されることに同意したことになります。  当社のプライバシーポリシーをご確認ください