表の各行には、指定された残差のパーセントに関する誤差の統計量が表示されます。最大の残差からの平均2乗誤差 (MSE) のパーセントは、通常、他の2つの統計量のパーセントよりも高くなります。MSEは計算で誤差の二乗を使用するため、最も極端な観測値は通常、統計量に最も大きな影響を与えます。MSEの誤差のパーセントと他の2つの基準との大きな違いは、最小2乗誤差または最小絶対偏差でノードを分岐する選択に対して、木がより敏感であることを示す可能性があります。
検証法を使用すると、トレーニングデータとテストデータに対して個別の統計量が計算されます。統計量を比較して、トレーニングデータと新しいデータに対する、木の相対的なパフォーマンスを調べることができます。通常、テストの統計量は、新しいデータに対して木がどのように働くかについての、優れた指標です。
可能性があるパターンは、残差のごく一部がデータの誤差の大部分を占めているというものです。たとえば、次の表では、データセットの合計サイズは約4500 です。MSEの観点からは、データの1%が誤差の約12%を占めていることを示しています。このような場合、木の誤差の大部分の原因となる45個のケースは、木を改善する最も当然な機会を表す可能性があります。これらのケースの適合値を改善する方法を見つけることは、木全体のパフォーマンスの比較的大きな向上につながります。
この状況は、この木の、最も大きな誤差が発生したケースがないノードに対する信頼度が高いことを示している場合もあります。誤差のほとんどは少数のケースから発生するため、他のケースの適合値は比較的正確です。
トレーニング | テスト | ||||||
---|---|---|---|---|---|---|---|
最大残差の% | 計数 | %平均平方誤差 | %平均絶対偏差 | %平均絶対パーセント誤差 | %平均平方誤差 | %平均絶対偏差 | %平均絶対パーセント誤差 |
1.0 | 45 | 12.0662 | 4.4286 | 17.0993 | 11.7595 | 4.3601 | 16.9809 |
2.0 | 90 | 19.6105 | 7.9590 | 27.7611 | 19.0639 | 7.8242 | 28.0537 |
2.5 | 112 | 22.6611 | 9.5292 | 31.4313 | 22.0671 | 9.3775 | 31.8497 |
3.0 | 134 | 25.4267 | 11.0245 | 35.1014 | 24.7926 | 10.8576 | 35.4683 |
4.0 | 179 | 30.3473 | 13.8759 | 42.6086 | 29.7103 | 13.7003 | 42.7628 |
5.0 | 223 | 34.5866 | 16.4938 | 49.9489 | 33.9523 | 16.3116 | 49.8103 |
7.5 | 334 | 43.2672 | 22.4419 | 63.2850 | 43.0319 | 22.3750 | 63.0140 |
10.0 | 446 | 50.4797 | 27.8875 | 70.7239 | 50.3414 | 27.8406 | 70.3832 |
15.0 | 668 | 61.1200 | 37.1919 | 78.5216 | 61.0161 | 37.1327 | 78.1782 |
20.0 | 891 | 69.2319 | 45.3354 | 82.5577 | 69.0602 | 45.2227 | 82.2440 |