CART® 分類の木の生成の例

ある研究チームが、心臓病に影響を与える要因に関する詳細な情報を収集し、公開しています。変数には、年齢、性別、コレステロール値、最大心拍数などがあります。この例は、心臓病に関する詳細情報を提供する公開データセットに基づいています。元のデータはarchive.ics.uci.eduからのものです。

この研究チームは、患者が心臓病に罹っているかどうかを示す重要な予測変数を識別する分類木を生成したいと考えています。

  1. 心臓病バイナリ.MTWサンプルデータを開きます。
  2. 統計 > 予測分析 > CART®分類を選択します。
  3. ドロップダウンリストから2値応答を選択します。
  4. 応答心臓病を入力します。
  5. 応答事象はいを選択して、患者に心臓病が確認されたことを示します。
  6. 連続予測変数に、年齢レスト血圧コレステロール最大心拍数およびオールドピークを入力します。
  7. カテゴリ予測変数に、セックス胸痛タイプ断食血糖レスト心電図運動狭心症斜面主要な船舶およびタールを入力します。
  8. OKをクリックします。

結果を解釈する

デフォルトでは、誤分類コストを最小化する木の1標準誤差内の最小の木が表示されます。この木には4つのターミナルノードがあります。

研究者は、この木を考察する前に、交差検証の誤分類コストとターミナルノードの数を示すプロットを調べます。このプロットでは、誤分類コストが減少するパターンは、4つのノードの木に続いてみられます。このような場合、分析者は誤分類コストが低い他のいくつかの単純な木を探すことを選択します。

代替の木の選択

  1. 出力で、代替木を選択をクリックします。
  2. このプロットで、誤分類コストが最も低く、ROCの値が最も高い7つのノードの木を選択します。
  3. 木を作成をクリックします。

結果を解釈する

ツリー図では、青の項目は事象の水準に対応しています。赤の項目は、非事象の水準です。この出力では、事象の水準は 「はい」 で、ある人が心臓病に罹っていることを示します。非事象の水準は「いいえ」で、ある人が心臓病に罹っていないことを示します。

ルートノードでは、「はい」の事象のカウント数が139で、「いいえ」の事象のカウント数が164です。ルートノードは、THALという変数を使用して分岐されます。THALが正常の場合は、左側のノード(ノード2)に移動します。THALが固定性または可逆性の場合は、右のノード(ノード 5)に移動します。
  • ノード2: THALが正常であった場合は167ケースあります。167ケースのうち、38ケースつまり22.8%がはい、129ケースつまり77.2%はNoです。
  • ノード5: THALが固定性または可逆性であった場合は136ケースあります。136ケースのうち、101ケースつまり74.3%がはい、35ケースつまり25.7%はNoです。

左の子ノードと右の子ノードの次の分岐変数は、胸痛のタイプで、痛みは1、2、3、または4で評価されます。

他のノードを調べ、どの変数が最も興味深いかを確認します。ほとんどが青色のノードは、事象の水準の割合が高いことを示します。ほとんどが赤色のノードは、非事象の水準の割合が高いことを示します。

ツリー図では、データセット全体またはトレーニングデータセットが使用されます。木のビューを詳細ビューとノード分岐ビューを切り替えることができます。

この木の誤分類コストは約0.391です。

最も重要な予測変数は胸痛のタイプです。最上の予測変数である胸痛のタイプの寄与度が100%の場合、次に重要な変数である主要な血管は86.5%の寄与度を有します。これは、主要な血管がこの分類木の胸痛のタイプの86.5%重要であることを意味します。

テストデータのROC曲線下の面積は0.8200で、ほとんどの応用で妥当な分類パフォーマンスを示します。

7ノード CART® 分類:心臓病 対 年齢, レスト血圧, コレステロール, 最大心拍数, オールドピーク, セックス, 断食血糖, 運動狭心症, レスト心電図, 斜面, タール, 胸痛タイプ, 主要な船舶

方法 事前確率 すべてのクラスで同じ ノード分岐 ジニ 最適木 最小誤分類コスト モデル検証 10分割交差検証 使用中の行 303
二項応答情報 変数 クラス 計数 % 心臓病 はい (事象) 139 45.9 いいえ 164 54.1 すべて 303 100.0
モデル要約 合計予測変数 13 重要な予測変数 13 ターミナルノード数 7 最小終端節サイズ 5 統計量 トレーニング テスト 負の対数尤度の平均 0.3971 0.5094 ROC曲線下面積 0.8861 0.8200 95%信頼区間 (0.5590, 1) (0.7702, 0.8697) リフト 1.9376 1.8165 誤分類コスト 0.2924 0.3909
混同行列 予測クラス(トレーニング) 予測クラス(テスト) 実クラス 計数 はい いいえ %正 はい いいえ %正 はい (事象) 139 117 22 84.2 105 34 75.5 いいえ 164 22 142 86.6 24 140 85.4 すべて 303 139 164 85.5 129 174 80.9 統計量 トレーニング(%) テスト(%) 真陽性率(感度または検出力) 84.2 75.5 偽陽性率(第一種過誤) 13.4 14.6 偽陰性率(第二種過誤) 15.8 24.5 真陰性率(特異度) 86.6 85.4
誤分類 入力誤分類コスト 予測クラス 実クラス はい いいえ はい 1.00 いいえ 1.00 トレーニング テスト 実クラス 計数 誤分類されました %誤差 コスト 誤分類されました %誤差 コスト はい (事象) 139 22 15.8 0.1583 34 24.5 0.2446 いいえ 164 22 13.4 0.1341 24 14.6 0.1463 すべて 303 44 14.5 0.1462 58 19.1 0.1955
本サイトを使用すると、分析およびコンテンツのカスタマイズのためにクッキーが使用されることに同意したことになります。  当社のプライバシーポリシーをご確認ください