ある研究チームが、心臓病に影響を与える要因に関する詳細な情報を収集し、公開しています。変数には、年齢、性別、コレステロール値、最大心拍数などがあります。この例は、心臓病に関する詳細情報を提供する公開データセットに基づいています。元のデータはarchive.ics.uci.eduからのものです。
この研究チームは、患者が心臓病に罹っているかどうかを示す重要な予測変数を識別する分類木を生成したいと考えています。
- サンプルデータ、心臓病バイナリ.MTWを開きます。
- を選択します 。
- ドロップダウンリストから2値応答を選択します。
- 応答にを入力します心臓病。
- 応答事象ではいを選択して、患者に心臓病が確認されたことを示します。
- に 連続予測変数、「、 年齢, レスト血圧, コレステロール, 最大心拍数,と入力します オールドピーク。
- に カテゴリ予測変数、「、 セックス, 胸痛タイプ, 断食血糖, レスト心電図, 運動狭心症, 斜面, 主要な船舶」、および 「」と入力します。 タール
- OKをクリックします。
結果を解釈する
デフォルトでは、誤分類コストを最小化する木の1標準誤差内の最小の木が表示されます。この木には4つのターミナルノードがあります。
研究者は、この木を考察する前に、交差検証の誤分類コストとターミナルノードの数を示すプロットを調べます。このプロットでは、誤分類コストが減少するパターンは、4つのノードの木に続いてみられます。このような場合、分析者は、誤分類コストが低い他のいくつかの単純な木を探すことを選択します。
代替木を選択
- 出力で、代替木を選択をクリックします。
- このプロットで、誤分類コストが最も低く、ROCの値が最も高い7つのノードの木を選択します。
- 木を作成をクリックします。
結果を解釈する
ツリー図では、青の項目は事象の水準に対応しています。赤の項目は、非事象の水準です。この出力では、事象の水準は 「はい」 で、ある人が心臓病に罹っていることを示します。非事象の水準は「いいえ」で、ある人が心臓病に罹っていないことを示します。
ルートノードでは、「はい」の事象のカウント数が139で、「いいえ」の事象のカウント数が164です。ルートノードは、THALという変数を使用して分岐されます。THALが正常の場合は、左側のノード(ノード2)に移動します。THALが固定性または可逆性の場合は、右のノード(ノード 5)に移動します。
- ノード2: THALが正常であった場合は167ケースあります。167ケースのうち、38ケースつまり22.8%がはい、129ケースつまり77.2%はNoです。
- ノード5: THALが固定性または可逆性であった場合は136ケースあります。136ケースのうち、101ケースつまり74.3%がはい、35ケースつまり25.7%はNoです。
左の子ノードと右の子ノードの次の分岐変数は、胸痛のタイプで、痛みは 1、2、3、または4で評価されます。
他のノードを調べ、どの変数が最も興味深いかを確認します。ほとんどが青色のノードは、事象の水準の割合が高いことを示します。ほとんどが赤色のノード場合は、非事象の水準の割合が高いことを示します。
7ノード CART® 分類:心臓病 対 年齢, レスト血圧, コレステロール, 最大心拍数, オールドピーク, セックス, 断食血糖, 運動狭心症, レスト心電図, 斜面, タール, 胸痛タイプ, 主要な船舶
方法
事前確率 | すべてのクラスで同じ |
---|
ノード分岐 | ジニ |
---|
最適木 | 最小誤分類コスト |
---|
モデル検証 | 10分割交差検証 |
---|
使用中の行 | 303 |
---|
二項応答情報
心臓病 | はい (事象) | 139 | 45.87 |
---|
| いいえ | 164 | 54.13 |
---|
| すべて | 303 | 100.00 |
---|
モデル要約
合計予測変数 | 13 |
---|
重要な予測変数 | 13 |
---|
ターミナルノード数 | 7 |
---|
最小終端節サイズ | 5 |
---|
負の対数尤度の平均 | 0.3971 | 0.5094 |
---|
ROC曲線下面積 | 0.8861 | 0.8200 |
---|
95%信頼区間 | (0.5590, 1) | (0.7702, 0.8697) |
---|
リフト | 1.9376 | 1.8165 |
---|
誤分類コスト | 0.2924 | 0.3909 |
---|
混同行列
| 予測クラス(トレーニング) | 予測クラス(テスト) |
---|
はい (事象) | 139 | 117 | 22 | 84.2 | 105 | 34 | 75.5 |
---|
いいえ | 164 | 22 | 142 | 86.6 | 24 | 140 | 85.4 |
---|
すべて | 303 | 139 | 164 | 85.5 | 129 | 174 | 80.9 |
---|
真陽性率(感度または検出力) | 84.2 | 75.5 |
---|
偽陽性率(第一種過誤) | 13.4 | 14.6 |
---|
偽陰性率(第二種過誤) | 15.8 | 24.5 |
---|
真陰性率(特異度) | 86.6 | 85.4 |
---|
誤分類
| トレーニング | テスト |
---|
はい (事象) | 139 | 22 | 15.8 | 0.1583 | 34 | 24.5 | 0.2446 |
---|
いいえ | 164 | 22 | 13.4 | 0.1341 | 24 | 14.6 | 0.1463 |
---|
すべて | 303 | 44 | 14.5 | 0.1462 | 58 | 19.1 | 0.1955 |
---|