Random Forests® 回帰の最大の残差による誤差統計量の百分率

このコマンドは、予測分析モジュールで使用できます。モジュールをアクティブにする方法については、ここをクリックしてください

誤差統計量の百分率を使用して、最悪の適合からモデルの適合値の誤差の量を調べます。

表の各行には、指定された残差のパーセントに関する誤差の統計量が表示されます。最大の残差からの平均2乗誤差 (MSE) のパーセントは、通常、他の2つの統計量のパーセントよりも高くなります。MSEは計算で誤差の二乗を使用するため、最も極端な観測値は通常、統計量に最も大きな影響を与えます。

アウトオブバッグ検証に加えてテストセットによる検証を選択すると、アウトオブバッグデータおよびテストセットデータの両方に対して結果が表に表示されます。

可能性があるパターンは、残差のごく一部がデータの誤差の大部分を占めているというものです。たとえば、次の表では、データセットの合計サイズは約2930 です。MSEの観点からは、データの1%が誤差の約36%を占めていることを示しています。このような場合、モデルの誤差の大部分の原因となる30個のケースは、モデルを改善する最も当然な機会を表す可能性があります。これらのケースの適合値を改善する方法を見つけることは、モデル全体のパフォーマンスの比較的大きな向上につながります。

この状況は、このモデルの、最も大きな誤差が発生したケースがないノードに対する信頼度が高いことを示している場合もあります。誤差のほとんどは少数のケースから発生するため、他のケースの適合値は比較的正確です。

最大残差による誤差統計のパーセント


アウトオブバッグ
最大残差の%計数%平均平方誤差%平均絶対偏差%平均絶対パーセント誤差
1.03036.38559.584013.0409
2.05946.943414.834718.0932
2.57450.362216.995320.2317
3.08853.170118.888022.0186
4.011858.087922.552725.4151
5.014762.042525.784528.3840
7.522069.782432.950434.8161
10.029375.027338.850740.2386
15.044082.281648.688149.2733
20.058686.955756.561056.7304