解釈
表の各行には、ノードの適合値と誤差の統計量が表示されます。最良のノードは、最小の誤差から最大の誤差までの順に表示されます。最悪のノードは、最大の誤差から最小の誤差までの順に表示されます。
テストデータセットを使用する場合、トレーニングデータとテストデータの個別の統計量が計算されます。統計量を比較して、トレーニングデータと新しいデータに対する、木の相対的なパフォーマンスを調べることができます。通常、テストの統計量は、新しいデータに対して木がどのように実行されるのかを示す、優れた指標です。
- 適合値
- 適合値は、ノード内のケースの平均応答値です。適合値は、同じノードに含まれる新しいデータの予測値です。他のターミナルノードと異なる適合値をもつターミナルノードは、それらのターミナルノードのケースの適合値が異なるため、特に興味深い点があります。
- カウント数
- カウント数は、ノード内のケースの数です。分析に重みが含まれる場合、カウント数は重み付きカウント数です。多くのケースが含まれるターミナルノードは、通常、より一般的な場合を表すので、特別な関心の対象となる可能性があります。
- 標準偏差 (StDev)
- 標準偏差は、ノード内の応答値の標準偏差です。標準偏差が小さいターミナルノードは、標準偏差が大きいターミナルノードよりも精度が高いため、特別な関心の対象となる可能性があります。
- 平均平方誤差 (MSE)
- 平均平方誤差 (MSE) は、ノードの正確性を評価します。外れ値は、MADやMAPEに対してよりも、MSEに大きな影響を与えます。
- 平均絶対偏差 (MAD)
-
平均絶対偏差(MAD)は、データと同じ単位で正確性を表し、誤差の量を概念化するのに役立つます。外れ値は、MSEに対してよりも、MADに対する影響が少ないです。
- 平均絶対パーセント誤差 (MAPE)
- 平均絶対パーセント誤差 (MAPE) は、誤差のパーセントとして正確性を表します。MAPEはパーセントであるため、他の正確性の基準となる統計量よりも理解しやすい可能性があります。たとえば、MAPEが5の場合、平均すると、適合は5%外れていることになります。外れ値は、MSEに対してよりも、 MAPEに対する影響が少ないです。
-
しかし、ノードがデータに良好に適合しているように見えても、非常に大きなMAPE値が表示されることがあります。適合値と実際の応答値のプロットを調べて、データ値が0に近いかどうかを調べます。MAPEは絶対誤差を実際のデータで割るため、0に近い値はMAPE を大きく増大させる可能性があります。