CART^® 回帰の最大の残差による誤差統計量の百分率

誤差の統計量のパーセントを使用して、最悪の適合から木の適合値の誤差の量を調べます。分析で検証手法を使用する場合、トレーニングデータとテストデータの木の統計量を比較することもできます。

表の各行には、指定された残差のパーセントに関する誤差の統計量が表示されます。最大の残差からの平均2乗誤差 (MSE) のパーセントは、通常、他の2つの統計量のパーセントよりも高くなります。MSEは計算で誤差の二乗を使用するため、最も極端な観測値は通常、統計量に最も大きな影響を与えます。MSEの誤差のパーセントと他の2つの基準との大きな違いは、最小2乗誤差または最小絶対偏差でノードを分岐する選択に対して、木がより敏感であることを示す可能性があります。

検証法を使用すると、トレーニングデータとテストデータに対して個別の統計量が計算されます。統計量を比較して、トレーニングデータと新しいデータに対する、木の相対的なパフォーマンスを調べることができます。通常、テストの統計量は、新しいデータに対して木がどのように働くかについての、優れた指標です。

可能性があるパターンは、残差のごく一部がデータの誤差の大部分を占めているというものです。たとえば、次の表では、データセットの合計サイズは約4500 です。MSEの観点からは、データの1%が誤差の約12%を占めていることを示しています。このような場合、木の誤差の大部分の原因となる45個のケースは、木を改善する最も当然な機会を表す可能性があります。これらのケースの適合値を改善する方法を見つけることは、木全体のパフォーマンスの比較的大きな向上につながります。

この状況は、この木の、最も大きな誤差が発生したケースがないノードに対する信頼度が高いことを示している場合もあります。誤差のほとんどは少数のケースから発生するため、他のケースの適合値は比較的正確です。

最大残差による誤差統計のパーセント

		トレーニング			テスト
最大残差の%	計数	%平均平方誤差	%平均絶対偏差	%平均絶対パーセント誤差	%平均平方誤差	%平均絶対偏差	%平均絶対パーセント誤差
1.0	45	12.0662	4.4286	17.0993	11.7595	4.3601	16.9809
2.0	90	19.6105	7.9590	27.7611	19.0639	7.8242	28.0537
2.5	112	22.6611	9.5292	31.4313	22.0671	9.3775	31.8497
3.0	134	25.4267	11.0245	35.1014	24.7926	10.8576	35.4683
4.0	179	30.3473	13.8759	42.6086	29.7103	13.7003	42.7628
5.0	223	34.5866	16.4938	49.9489	33.9523	16.3116	49.8103
7.5	334	43.2672	22.4419	63.2850	43.0319	22.3750	63.0140
10.0	446	50.4797	27.8875	70.7239	50.3414	27.8406	70.3832
15.0	668	61.1200	37.1919	78.5216	61.0161	37.1327	78.1782
20.0	891	69.2319	45.3354	82.5577	69.0602	45.2227	82.2440

CART® 回帰の最大の残差による誤差統計量の百分率

最大残差による誤差統計のパーセント

CART^® 回帰の最大の残差による誤差統計量の百分率