CART® 回帰の最大の残差による誤差統計量の百分率

誤差の統計量のパーセントを使用して、最悪の適合から木の適合値の誤差の量を調べます。分析で検証手法を使用する場合、トレーニングデータとテストデータの木の統計量を比較することもできます。

表の各行には、指定された残差のパーセントに関する誤差の統計量が表示されます。最大の残差からの平均2乗誤差 (MSE) のパーセントは、通常、他の2つの統計量のパーセントよりも高くなります。MSEは計算で誤差の二乗を使用するため、最も極端な観測値は通常、統計量に最も大きな影響を与えます。MSEの誤差のパーセントと他の2つの基準との大きな違いは、最小2乗誤差または最小絶対偏差でノードを分岐する選択に対して、木がより敏感であることを示す可能性があります。

検証法を使用すると、トレーニングデータとテストデータに対して個別の統計量が計算されます。統計量を比較して、トレーニングデータと新しいデータに対する、木の相対的なパフォーマンスを調べることができます。通常、テストの統計量は、新しいデータに対して木がどのように働くかについての、優れた指標です。

可能性があるパターンは、残差のごく一部がデータの誤差の大部分を占めているというものです。たとえば、次の表では、データセットの合計サイズは約4500 です。MSEの観点からは、データの1%が誤差の約12%を占めていることを示しています。このような場合、木の誤差の大部分の原因となる45個のケースは、木を改善する最も当然な機会を表す可能性があります。これらのケースの適合値を改善する方法を見つけることは、木全体のパフォーマンスの比較的大きな向上につながります。

この状況は、この木の、最も大きな誤差が発生したケースがないノードに対する信頼度が高いことを示している場合もあります。誤差のほとんどは少数のケースから発生するため、他のケースの適合値は比較的正確です。

最大残差による誤差統計のパーセント



トレーニングテスト
最大残差の%計数%平均平方誤差%平均絶対偏差%平均絶対パーセント誤差%平均平方誤差%平均絶対偏差%平均絶対パーセント誤差
1.04512.06624.428617.099311.75954.360116.9809
2.09019.61057.959027.761119.06397.824228.0537
2.511222.66119.529231.431322.06719.377531.8497
3.013425.426711.024535.101424.792610.857635.4683
4.017930.347313.875942.608629.710313.700342.7628
5.022334.586616.493849.948933.952316.311649.8103
7.533443.267222.441963.285043.031922.375063.0140
10.044650.479727.887570.723950.341427.840670.3832
15.066861.120037.191978.521661.016137.132778.1782
20.089169.231945.335482.557769.060245.222782.2440