におけるノード分岐方法 CART^® 回帰

回帰木は、トレーニングデータセットの2値の再帰的な分割の結果として生成されます。トレーニングデータセットの親ノードは、ノード内のデータ値に応じて、有限の方法で2つの相互排他的な子ノードに分岐できます。連続変数がXで値cの場合、分岐は X ≤ c の値をもつすべての記録を左のノードに、残りの記録を右のノードに送ります。

このトピックの内容

代理変数の分岐

CARTは、cを計算するために、隣接する2つの値の平均を常に使用します。N個の個別値をもつ連続変数は、親ノードについて、最大N – 1個の可能性がある分岐を生成します。解析では、最小ノードサイズが1より大きい場合、可能性がある分岐の実際の数は小さくなります。

{c₁, c₂, c₃, .., c_k} のカテゴリー変数Xの場合、分割は左のノードに送られる水準のサブセットです。k個の水準があるカテゴリ変数は、最大 2^{k -
1}の分岐を生成します。

木の成長段階で可能性がある分岐について、改善基準は最小二乗 (LS) または最小絶対偏差 (LAD) のいずれかです。木に最高の改善を与えた分岐が追加されます。2 つの予測変数の改善が同じである場合、アルゴリズムを続行するには選択が必要です。選択では、ワークシート内の予測変数の位置、予測変数のタイプ、およびカテゴリ予測変数のクラス数を含む確定的な結合スキームが使用されます。

Minitabでは、解析にモデル検証方法が含まれている場合にのみ、トレーニングデータからの改善度が計算されます。次式を使用して、各基準の改善度を計算します。