の例 カート®回帰

ある医療機関は、薬物乱用治療サービスを提供する施設を運営しています。この施設のサービスの1つは、通常の治療コースが1日から30日間続く可能性がある外来解毒プログラムです。人員配置と補給品の予測を担当するチームは、患者がプログラムに加入するときに患者に関して収集できる情報に基づいて、患者がサービスを利用する期間の長さについて、より良い予測を行うことができるかどうかを調査したいと考えています。これらの変数には、人口統計情報と患者の薬物乱用に関する変数が含まれます。

まず、Minitabの従来の回帰分析を検討します。データ内の欠損値パターンのため、分析ではデータの70%以上が除かれます。このような大量のデータが除かれるということは、多くの情報が失われていることを意味します。データが欠損していないケースの分析結果は、データセット全体を使用する結果とは大きく異なる場合があります。 カート®回帰 は予測変数の欠損値を自動的に処理するので、チームは カート®回帰 を使用してデータをさらに評価することを決めます。

  1. サンプルデータセットサービスの長さ.MTWを開きます。
  2. 統計 > 予測分析 > CART® 回帰を選択する。
  3. 応答に、 サービス期間と入力します。
  4. 連続予測変数に、 入学時の年齢-教育の年と入力します。
  5. カテゴリ予測変数に、 その他の刺激剤の使用-DSM 診断と入力します。
  6. 検証をクリックします。
  7. 検証方法K分割交差検証を選択します。
  8. ID列ごとに各分割の行を割り当てるを選択します。
  9. ID列に、 と入力します。
  10. 各ダイアログボックスのOKをクリックします。

結果を解釈する

デフォルトでは、最大R2値をもつ木の1標準誤差内のR2値をもつ最小の木が表示されます。ヘルスケアチームはK分割検証を使用するため、基準は最大K分割R2値です。この木には21個のターミナルノードがあります。

研究者は、木を調べる前に、交差検証のR2値とターミナルノードの数を示すプロットを調べます。このプロットは、R2統計量が最初の数ノードで急速に増加し、次に平坦化するパターンを示しています。このチャートは、約20個のノードがある木と約70個のノードがある木の間でR2値が比較的安定していることを示しているので、研究者は結果の木に類似したいくつかの小さな木のパフォーマンスを調べたいと考えます。

代替の木の選択

  1. 出力で、代替木を選択をクリックします。
  2. プロットで、17個のノードがある木を選択します。
  3. 木を作成をクリックします。

結果を解釈する

研究者は、交差検証からのR2統計量とターミナルノードの数のプロットを考察します。17個のノードがある木がプロット上の最大値に近いR2統計量をもつため、残りの出力の結果は17個のノードがある木に関するものです。

研究者は、小さな木のパフォーマンスを評価するために、最初にモデルの要約を見ます。トレーニングとテストの統計量の値が近いため、木が過剰に適合していないように見えます。R2統計量は21個のノードの木とほぼ同じ高さであるため、研究者は17個のノードがある木を使用して、予測変数と応答値の関係を調べます。

17ノード CART® 回帰:サービス期間 対 入学時の年齢, 初めて薬物使用を行う年齢, 過去30日間の逮捕, サービスを待つ日数, 以前の治療エピソード, 教育の年, その他の刺激剤の使用, 計画された薬物療法, 精神状態, 妊娠, 性別, ベテラン, アルコール使用, コカイン使用, マリファナの使用, ヘロイン使用, その他のオピオド使用, PCP の使用, メフタドン使用, その他の幻覚物質の使用, メタンフェタミン使用, その他のアンフェタミン使用, ベンゾジアゼピン使用, その他の精神安定剤の使用, バルビツールト使用, その他の鎮静剤使用, 吸入使用, 非処方薬の使用, その他の薬物使用, 静脈内薬物使用, リビングアレンジメント, 薬物乱用の頻度, 健康保険, 婚姻状況, 民族, 収入源, サブの一次摂取ルート, セルフヘルプ出席, 支払いのソース, レース, 雇用状況, 紹介ソース, 乱用の主な物質, DSM 診断

方法 ノード分岐 最小二乗誤差 最適木 最大R二乗の2.5標準誤差内 モデル検証 倍で定義された行との交差検証 使用中の行 4453
応答情報 平均 標準偏差 最小 Q1 中央値 Q3 最大 17.5960 9.29097 1 10 18 26 30
モデル要約 合計予測変数 44 重要な予測変数 33 ターミナルノード数 17 最小終端節サイズ 49 統計量 トレーニング テスト R二乗 0.7799 0.7661 二乗平均平方根誤差(RMSE) 4.3585 4.4932 平均平方誤差 18.9967 20.1887 平均絶対偏差 3.4070 3.5226 平均絶対パーセント誤差(MAPE) 0.6535 0.6674
変数の相対重要度のグラフは、最も重要な予測変数が アルコール使用であることを示しています。最上の予測変数であるアルコール使用の寄与度が100%とすると、他の変数を アルコール使用 と比較してその重要度を判断することができます。したがって、最も重要な予測変数に着目することができます。次のリストは、この木の、次に重要な変数を示しています。
  • 乱用の主な物質 および 計画された薬物療法アルコール使用の約92%重要です。
  • ヘロイン使用アルコール使用の約55%重要です。
  • サブの一次摂取ルート および 紹介ソースアルコール使用の約48%重要です。

これらの結果には、確かに重要な33個の変数が含まれますが、相対順位が、特定の応用で制御または監視するために変数の数に関する情報を提供します。ある変数から次の変数への相対的な重要度値の急な低下は、どの変数を制御するか、または監視するかの決定を導く可能性があります。たとえば、これらのデータでは、3つの最も重要な変数の重要度は、次の変数に関する相対重要度が40%近く低下する前の比較的に近い値です。同じように、3つの変数の重要度は類似した50%近くです。さまざまなグループから変数を削除し、分析をやり直して、さまざまなグループの変数がモデル要約表の予測の正確性にどのように影響するかを評価できます。

K分割交差検証を使用した分析では、ツリー図は、すべてのデータセットからのすべての4453ケースを示しています。詳細ビューとノード分岐ビューの間で、木のビューを切り替えることができます。適合値と誤差の統計量の表と、対象を分類するための基準は、ターミナルノードに関する追加情報を提供します。

最初のノードは、患者が投薬療法を受けていたかどうかを記録する変数を使用して分岐されます。
  • ノード2には、 計画された薬物療法 =1の場合が含まれます。このノードには1881ケースがあります。ノードの平均は全体の平均より小さいです。ノード2の標準偏差は約5.4で、分岐によってより純粋なノードが得られるので、全体の標準偏差より小さくなります。
  • ノード8には 計画された薬物療法 = 2の場合が含まれます。このノードには2572ケースがあります。ノードの平均は全体の平均を超えています。ノード8の標準偏差は約6.1で、全体の標準偏差よりも小さいです。

その後、ノード2は 薬物乱用の頻度 によって分岐されノード8は アルコール使用によって分岐されます。ターミナルノード17には、 計画された薬物療法 = 2、アルコール使用 = 1、および 紹介ソース = 3、5、6、100、300、400、600、700、または800のケースがあります。研究者は、ターミナルノード17の平均が最も高く、標準偏差が最も小さく、最もケースが多い点に着目しています。

結果には、適合応答値と実応答値の散布図が含まれます。トレーニングデータセットとテストデータセットの点は、同様のパターンを示しています。この類似性は、新しいデータに対する木のパフォーマンスが、トレーニングデータに対するの木のパフォーマンスに近いということを示唆しています。

ターミナルノードによる平均平方誤差 (MSE) のプロットは、ターミナルノード8がターミナルノードの中で最も精度が低いということを示しています。MSE値が低いノードの適合度の正確性に対して、比較的信頼度を高めることができます。ターミナルノード8の患者には、次の特性があります。
  • 計画された薬物療法 = {}
  • アルコール使用 = {0}
  • 紹介ソース = {1, 2, 600, 700, 800}
  • 収入源 = {1, 2, 3, 4}
  • 薬物乱用の頻度 = {1, 3}
  • 以前の治療エピソード <= 1.5
ターミナルノード8のケースは、変動を減らすか説明する方法が存在する場合に、木を改善する機会が最も多いです。

ターミナルノードごとの残差のプロットは、ターミナルノード8の患者の小さなクラスターに対して適合値が大きすぎることを示しています。分析者は、これらの患者の一部がグループの典型的な患者よりも短い期間サービスを利用する理由の調査を検討します。たとえば、これらの患者がターミナル ノードの他の患者とは異なる地理的位置にある場合、政府と保険の規制が異なると、サービスを利用する期間に影響を与える可能性があります。

ターミナルノードごとの残差プロットは、分析者がクラスターまたは外れ値を調査することを選択できる他のケースを示しています。たとえば、これらのデータには、ターミナルノード1およびターミナルノード7の他のデータより大きくみえる残差が1つあります。分析者は、これらの患者がターミナルノードの他の患者よりも長い間サービスを使用した理由を調査することにします。

本サイトを使用すると、分析およびコンテンツのカスタマイズのためにクッキーが使用されることに同意したことになります。  当社のプライバシーポリシーをご確認ください