におけるノード分岐方法 カート®回帰

回帰木は、トレーニングデータセットの2値の再帰的な分割の結果として生成されます。トレーニングデータセットの親ノードは、ノード内のデータ値に応じて、有限の方法で2つの相互排他的な子ノードに分岐できます。連続変数がXで値cの場合、分岐は X ≤ c の値をもつすべての記録を左のノードに、残りの記録を右のノードに送ります。

CARTは、cを計算するために、隣接する2つの値の平均を常に使用します。N個の個別値をもつ連続変数は、親ノードについて、最大N – 1個の可能性がある分岐を生成します。解析では、最小ノードサイズが1より大きい場合、可能性がある分岐の実際の数は小さくなります。

{c1, c2, c3, .., ck} のカテゴリー変数Xの場合、分割は左のノードに送られる水準のサブセットです。k個の水準があるカテゴリ変数は、最大 2k - 1の分岐を生成します。

木の成長段階で可能性がある分岐について、改善基準は最小二乗 (LS) または最小絶対偏差 (LAD) のいずれかです。木に最高の改善を与えた分岐が追加されます。Minitabでは、解析にモデル検証方法が含まれている場合にのみ、トレーニングデータからの改善度が計算されます。次式を使用して、各基準の改善度を計算します。

最小二乗 (LS)

ここで

最小絶対偏差 (LAD)

ここで

表記

用語説明
SSEsum of squared errors
i番目 record in the node
SAEsum of the absolute errors
median of the response for the node

代理変数の分岐

最適な分岐を特定した後、他の可能性がある分岐の中で代理変数による分岐が探されます。代理変数の分岐は、記録が左と右のノードに移動する最適な分岐に類似しています。類似の尺度は関連です。

1の関連は、代理変数の分岐が最適な分岐を再現することを示します。関連が0の場合、最適な分岐の記録数が多いノードにすべての記録が送られます。正の関連による分岐は、可能な代理変数です。代理変数による分岐の改善度は、変数重要度の計算にあります。

分岐を形成する予測変数の欠損値が新しいデータに含まれる場合、Minitabは木に表示される予測変数ではなく、最適な欠損していない代理の予測変数を使用します。

本サイトを使用すると、分析およびコンテンツのカスタマイズのためにクッキーが使用されることに同意したことになります。  当社のプライバシーポリシーをご確認ください