CART® 回帰の最大の残差による誤差統計量の百分率

誤差の統計量のパーセントを使用して、最悪の適合から木の適合値の誤差の量を調べます。分析で検証手法を使用する場合、トレーニングデータとテストデータの木の統計量を比較することもできます。

表の各行には、指定された残差のパーセントに関する誤差の統計量が表示されます。最大の残差からの平均2乗誤差 (MSE) のパーセントは、通常、他の2つの統計量のパーセントよりも高くなります。MSEは計算で誤差の二乗を使用するため、最も極端な観測値は通常、統計量に最も大きな影響を与えます。MSEの誤差のパーセントと他の2つの基準との大きな違いは、最小2乗誤差または最小絶対偏差でノードを分岐する選択に対して、木がより敏感であることを示す可能性があります。

検証法を使用すると、トレーニングデータとテストデータに対して個別の統計量が計算されます。統計量を比較して、トレーニングデータと新しいデータに対する、木の相対的なパフォーマンスを調べることができます。通常、テストの統計量は、新しいデータに対して木がどのように働くかについての、優れた指標です。

可能性があるパターンは、残差のごく一部がデータの誤差の大部分を占めているというものです。たとえば、次の表では、データセットの合計サイズは約4500 です。MSEの観点からは、データの1%が誤差の約12%を占めていることを示しています。このような場合、木の誤差の大部分の原因となる45個のケースは、木を改善する最も当然な機会を表す可能性があります。これらのケースの適合値を改善する方法を見つけることは、木全体のパフォーマンスの比較的大きな向上につながります。

この状況は、この木の、最も大きな誤差が発生したケースがないノードに対する信頼度が高いことを示している場合もあります。誤差のほとんどは少数のケースから発生するため、他のケースの適合値は比較的正確です。

17ノード CART® 回帰:サービス期間 対 入学時の年齢, 初めて薬物使用を行う年齢, 過去30日間の逮捕, サービスを待つ日数, 以前の治療エピソード, 教育の年, その他の刺激剤の使用, 計画された薬物療法, 精神状態, 妊娠, 性別, ベテラン, アルコール使用, コカイン使用, マリファナの使用, ヘロイン使用, その他のオピオド使用, PCP の使用, メフタドン使用, その他の幻覚物質の使用, メタンフェタミン使用, その他のアンフェタミン使用, ベンゾジアゼピン使用, その他の精神安定剤の使用, バルビツールト使用, その他の鎮静剤使用, 吸入使用, 非処方薬の使用, その他の薬物使用, 静脈内薬物使用, リビングアレンジメント, 薬物乱用の頻度, 健康保険, 婚姻状況, 民族, 収入源, サブの一次摂取ルート, セルフヘルプ出席, 支払いのソース, レース, 雇用状況, 紹介ソース, 乱用の主な物質, DSM 診断

最大残差による誤差統計の百分率 トレーニング テスト 最大残差の% 計数 %平均平方誤差 %平均絶対偏差 %平均絶対パーセント誤差 %平均平方誤差 %平均絶対偏差 %平均絶対パーセント誤差 1.0 45 12.0662 4.4286 17.0993 11.7595 4.3601 16.9809 2.0 90 19.6105 7.9590 27.7611 19.0639 7.8242 28.0537 2.5 112 22.6611 9.5292 31.4313 22.0671 9.3775 31.8497 3.0 134 25.4267 11.0245 35.1014 24.7926 10.8576 35.4683 4.0 179 30.3473 13.8759 42.6086 29.7103 13.7003 42.7628 5.0 223 34.5866 16.4938 49.9489 33.9523 16.3116 49.8103 7.5 334 43.2672 22.4419 63.2850 43.0319 22.3750 63.0140 10.0 446 50.4797 27.8875 70.7239 50.3414 27.8406 70.3832 15.0 668 61.1200 37.1919 78.5216 61.0161 37.1327 78.1782 20.0 891 69.2319 45.3354 82.5577 69.0602 45.2227 82.2440