の残差の箱ひげ図 CART® 回帰

残差の箱ひげ図を使用して、木の全体的な正確性を評価します。また、分析で検証法を使用する場合、トレーニングデータとテストデータの木の正確性を比較することができます。

箱ひげ図には、実際の値と適合値の差が表示されます。最も近い四分位数から四分位間の1.5倍以上の範囲にある点には、個別の記号がつけられます。

解釈

残差が応答変数のスケールに対して0に近い値となるのが理想的です。検証法を使用すると、トレーニングデータとテストデータ用に別々のプロットが作成されます。プロットを比較して、トレーニングデータと新しいデータに対する、木の相対的なパフォーマンスを調べることができます。トレーニングデータとテストデータの間で調査すべき違いを示す、さまざまなパターンを探すこともできます。

これらの箱ひげ図は、トレーニングとテストのデータセットに対して同様の結果を示します。この類似性は、新しいデータに対する木のパフォーマンスが、トレーニングデータに対する木のパフォーマンスに近いことを示唆しています。

両方のデータセットの箱ひげ図の四分位間範囲は、約-2.6から2.6です。データの50%がこの範囲内に残差を有しています。残りの残差は、より大きいです。四分位間範囲は約5であるため、約-10.5から10.5の範囲外の残差には、別の記号がつけられています。最大の残差は、正方向と負方向の20近くです。これらの大きな残差は、木がすべてのデータにうまく適合していないことを示している可能性があります。