CART^® 回帰の例

ある医療機関が、薬物乱用治療サービスを提供する施設を運営しています。この施設のサービスの1つは、通常の治療コースが1日から30日間続く可能性がある外来解毒プログラムです。人員配置と補給品の予測を担当するチームは、患者がプログラムに加入するときに患者に関して収集できる情報に基づいて、患者がサービスを利用する期間の長さについて、より良い予測を行うことができるかどうかを調査したいと考えています。これらの変数には、人口統計情報と患者の薬物乱用に関する変数が含まれます。

まず、Minitabの従来の回帰分析を検討します。データに欠損値パターンがあるため、分析ではデータの 70% 以上が省略されています。このような大量のデータが除かれるということは、多くの情報が失われていることを意味します。データが欠損していないケースの分析結果は、データセット全体を使用する結果とは大きく異なる場合があります。CART^® 回帰は予測変数の欠損値を自動的に処理するので、チームはCART^® 回帰を使用してデータをさらに評価することを決めます。

サービスの長さ.MWXサンプルデータを開きます。
予測分析モジュール > CART®回帰を選択します。
応答にサービス期間を入力します。
連続予測変数に、入学時の年齢-教育の年を入力します。
カテゴリ予測変数に、その他の刺激剤の使用-'DSM 診断'を入力します。
検証をクリックします。
検証法でK分割交差検証を選択します。
ID列ごとに各分割の行を割り当てるを選択します。
ID列に倍を入力します。
各ダイアログボックスのOKをクリックします。

結果を解釈する

デフォルトでは、最大R²値をもつ木の1標準誤差内のR²値をもつ最小の木が表示されます。ヘルスケアチームはK分割検証を使用するため、基準は最大K分割R²値です。この木には21個のターミナルノードがあります。

研究者は、木を調べる前に、交差検証のR²値とターミナルノードの数を示すプロットを調べます。このプロットは、R²統計量が最初の数ノードで急速に増加し、次に平坦化するパターンを示しています。このグラフは、約20個のノードがある木と約70個のノードがある木の間でR²値が比較的安定していることを示しているので、研究者は結果の木に類似した何本かのより小さな木のパフォーマンスを調べたいと考えます。

代替木を選択

出力で、代替木を選択をクリックします。
プロットで、17個のノードがある木を選択します。
木を作成をクリックします。

結果を解釈する

研究者は、交差検証からのR²統計量とターミナルノードの数のプロットを考察します。17個のノードがある木がプロット上の最大値に近いR²統計量をもつため、残りの出力の結果は17個のノードがある木に関するものです。

研究者は、小さな木のパフォーマンスを評価するために、最初にモデルの要約を見ます。トレーニングとテストの統計量の値が近いため、木が過剰に適合していないように見えます。R²統計量は21個のノードの木とほぼ同じ高さであるため、研究者は17個のノードがある木を使用して、予測変数と応答値の関係を調べます。

方法

ノード分岐	最小二乗誤差
最適木	最大R二乗の2.5標準誤差内
モデル検証	倍で定義された行との交差検証
使用中の行	4453

応答情報

平均	標準偏差	最小	Q1	中央値	Q3	最大
17.5960	9.29097	1	10	18	26	30

モデル要約

合計予測変数	44
重要な予測変数	33
ターミナルノード数	17
最小終端節サイズ	49

統計量	トレーニング	テスト
R二乗	77.99%	76.61%
二乗平均平方根誤差（RMSE）	4.3585	4.4932
平均平方誤差 (MSE)	18.9967	20.1887
平均絶対偏差 (MAD)	3.4070	3.5226
平均絶対パーセント誤差（MAPE）	0.6535	0.6674

変数の相対重要度のグラフは、最も重要な予測変数がアルコール使用であることを示しています。最上位の予測変数アルコール使用の寄与度が 100% の場合、他の変数アルコール使用を比較して重要度を判断できます。したがって、最も重要な予測変数に着目することができます。次のリストは、この木の、次に重要な変数を示しています。

乱用の主な物質そして計画された薬物療法、約92%重要ですアルコール使用。
ヘロイン使用はの約 55% が重要ですアルコール使用。
サブの一次摂取ルートそして紹介ソース、約48%重要ですアルコール使用。

これらの結果には、確かに重要な33個の変数が含まれますが、相対順位が、特定の応用に関して制御または監視する変数の数に関する情報を提供します。ある変数から次の変数への相対重要度値の急な低下は、どの変数を制御するかまたは監視するかの決定を導くことができます。たとえば、これらのデータでは、3 つの最も重要な変数重要度値は、次の変数に対する相対重要度が40%近く低下する前の比較的近い値になります。同様に、3 つの変数の重要度の値は 50% 近くで類似しています。さまざまなグループから変数を削除し、分析をやり直して、さまざまなグループの変数がモデル要約表の予測の正確性の値にどのように影響するかを評価できます。

K分割交差検証を使用した分析では、ツリー図は、すべてのデータセットからのすべての4453ケースを示しています。詳細ビューとノード分岐ビューの間で、木のビューを切り替えることができます。適合値と誤差の統計量の表と、対象を分類するための基準は、ターミナルノードに関する追加情報を提供します。

最初のノードは、患者が投薬療法を受けたかどうかを記録する変数を使用して分岐されます。

ノード2には、計画された薬物療法=1の場合が含まれます。このノードには1881ケースがあります。ノードの平均は全体平均より小さいです。ノード2の標準偏差は約5.4で、分岐によってより純粋なノードが得られるので、全体の標準偏差より小さくなります。
ノード8には、計画された薬物療法=2の場合が含まれます。このノードには2572ケースがあります。ノードの平均は全体平均を超えています。ノード8の標準偏差は約6.1で、全体の標準偏差よりも小さいです。

その後、ノード2は薬物乱用の頻度によって分岐され、ノード8はアルコール使用によって分岐されます。ターミナルノード17には、計画された薬物療法= 2、アルコール使用= 1、および紹介ソース= 3、5、6、100、300、400、600、700、または800のケースがあります。研究者は、ターミナルノード17の平均値が最も高く、標準偏差が最も小さく、最もケースが多い点に注目しています。

結果には、適合応答値と実応答値の散布図が含まれます。トレーニングデータセットとテストデータセットの点は、同様のパターンを示しています。この類似性は、新しいデータに対する木のパフォーマンスが、トレーニングデータに対するの木のパフォーマンスに近いということを示唆しています。

ターミナルノードによる平均平方誤差 (MSE) のプロットは、ターミナルノード8がターミナルノードの中で最も精度が低いということを示しています。MSE値が低いノードの適合度の正確性に対して、比較的信頼度を高めることができます。ターミナルノード8の患者には、次の特性があります。

計画された薬物療法 = {2}
アルコール使用 = {0}
紹介ソース = {1, 2, 600, 700, 800}
収入源 = {1, 2, 3, 4}
薬物乱用の頻度 = {1, 3}
以前の治療エピソード <= 1.5

ターミナルノード8のケースは、変動を減らすか説明する方法が存在する場合に、木を改善する機会が最も多いです。

ターミナルノードごとの残差のプロットは、ターミナルノード8の患者の小さなクラスターに対して適合値が大きすぎることを示しています。分析者は、これらの患者の一部がグループの典型的な患者よりも短い期間サービスを利用する理由の調査を検討します。たとえば、これらの患者がターミナルノードの他の患者とは異なる地理的位置にある場合、政府と保険の規制が異なると、サービスを利用する期間に影響を与える可能性があります。

ターミナルノードごとの残差プロットは、分析者がクラスターまたは外れ値を調査することを選択できる他のケースを示しています。たとえば、これらのデータには、ターミナルノード1およびターミナルノード7の他のデータより大きくみえる残差が1つあります。分析者は、これらの患者がターミナルノードの他の患者よりも長い間サービスを使用した理由を調査することにします。

テストのR²値は改善の余地が残されており、残差プロットが木が十分に適合しないケースを示しているので、研究者は適合値を改善するためにTreeNet^® 回帰またはRandom Forests^® 回帰を使用するかどうかを検討します。

CART® 回帰の例

結果を解釈する

代替木を選択

結果を解釈する

方法

応答情報

モデル要約

CART^® 回帰の例