ある医療機関が、薬物乱用治療サービスを提供する施設を運営しています。この施設のサービスの1つは、通常の治療コースが1日から30日間続く可能性がある外来解毒プログラムです。人員配置と補給品の予測を担当するチームは、患者がプログラムに加入するときに患者に関して収集できる情報に基づいて、患者がサービスを利用する期間の長さについて、より良い予測を行うことができるかどうかを調査したいと考えています。これらの変数には、人口統計情報と患者の薬物乱用に関する変数が含まれます。
まず、Minitabの従来の回帰分析を検討します。データに欠損値パターンがあるため、分析ではデータの 70% 以上が省略されています。このような大量のデータが除かれるということは、多くの情報が失われていることを意味します。データが欠損していないケースの分析結果は、データセット全体を使用する結果とは大きく異なる場合があります。CART® 回帰は予測変数の欠損値を自動的に処理するので、チームはCART® 回帰を使用してデータをさらに評価することを決めます。
デフォルトでは、最大R2値をもつ木の1標準誤差内のR2値をもつ最小の木が表示されます。ヘルスケアチームはK分割検証を使用するため、基準は最大K分割R2値です。この木には21個のターミナルノードがあります。
研究者は、交差検証からのR2統計量とターミナルノードの数のプロットを考察します。17個のノードがある木がプロット上の最大値に近いR2統計量をもつため、残りの出力の結果は17個のノードがある木に関するものです。
研究者は、小さな木のパフォーマンスを評価するために、最初にモデルの要約を見ます。トレーニングとテストの統計量の値が近いため、木が過剰に適合していないように見えます。R2統計量は21個のノードの木とほぼ同じ高さであるため、研究者は17個のノードがある木を使用して、予測変数と応答値の関係を調べます。
ノード分岐 | 最小二乗誤差 |
---|---|
最適木 | 最大R二乗の2.5標準誤差内 |
モデル検証 | 倍で定義された行との交差検証 |
使用中の行 | 4453 |
平均 | 標準偏差 | 最小 | Q1 | 中央値 | Q3 | 最大 |
---|---|---|---|---|---|---|
17.5960 | 9.29097 | 1 | 10 | 18 | 26 | 30 |
合計予測変数 | 44 |
---|---|
重要な予測変数 | 33 |
ターミナルノード数 | 17 |
最小終端節サイズ | 49 |
統計量 | トレーニング | テスト |
---|---|---|
R二乗 | 77.99% | 76.61% |
二乗平均平方根誤差(RMSE) | 4.3585 | 4.4932 |
平均平方誤差 (MSE) | 18.9967 | 20.1887 |
平均絶対偏差 (MAD) | 3.4070 | 3.5226 |
平均絶対パーセント誤差(MAPE) | 0.6535 | 0.6674 |
これらの結果には、確かに重要な33個の変数が含まれますが、相対順位が、特定の応用に関して制御または監視する変数の数に関する情報を提供します。ある変数から次の変数への相対重要度値の急な低下は、どの変数を制御するかまたは監視するかの決定を導くことができます。たとえば、これらのデータでは、3 つの最も重要な変数重要度値は、次の変数に対する相対重要度が40%近く低下する前の比較的近い値になります。同様に、3 つの変数の重要度の値は 50% 近くで類似しています。さまざまなグループから変数を削除し、分析をやり直して、さまざまなグループの変数がモデル要約表の予測の正確性の値にどのように影響するかを評価できます。
K分割交差検証を使用した分析では、ツリー図は、すべてのデータセットからのすべての4453ケースを示しています。詳細ビューとノード分岐ビューの間で、木のビューを切り替えることができます。適合値と誤差の統計量の表と、対象を分類するための基準は、ターミナルノードに関する追加情報を提供します。
その後、ノード2は薬物乱用の頻度によって分岐され、ノード8はアルコール使用によって分岐されます。ターミナルノード17には、計画された薬物療法= 2、アルコール使用= 1、および紹介ソース= 3、5、6、100、300、400、600、700、または800のケースがあります。研究者は、ターミナルノード17の平均値が最も高く、標準偏差が最も小さく、最もケースが多い点に注目しています。
結果には、適合応答値と実応答値の散布図が含まれます。トレーニングデータセットとテストデータセットの点は、同様のパターンを示しています。この類似性は、新しいデータに対する木のパフォーマンスが、トレーニングデータに対するの木のパフォーマンスに近いということを示唆しています。
ターミナルノードごとの残差のプロットは、ターミナルノード8の患者の小さなクラスターに対して適合値が大きすぎることを示しています。分析者は、これらの患者の一部がグループの典型的な患者よりも短い期間サービスを利用する理由の調査を検討します。たとえば、これらの患者がターミナル ノードの他の患者とは異なる地理的位置にある場合、政府と保険の規制が異なると、サービスを利用する期間に影響を与える可能性があります。
ターミナルノードごとの残差プロットは、分析者がクラスターまたは外れ値を調査することを選択できる他のケースを示しています。たとえば、これらのデータには、ターミナルノード1およびターミナルノード7の他のデータより大きくみえる残差が1つあります。分析者は、これらの患者がターミナルノードの他の患者よりも長い間サービスを使用した理由を調査することにします。
テストのR2値は改善の余地が残されており、残差プロットが木が十分に適合しないケースを示しているので、研究者は適合値を改善するためにTreeNet® 回帰またはRandom Forests® 回帰を使用するかどうかを検討します。