ある研究チームが、心臓病に影響を与える要因に関する詳細な情報を収集し、公開しています。変数には、年齢、性別、コレステロール値、最大心拍数などがあります。この例は、心臓病に関する詳細情報を提供する公開データセットに基づいています。元のデータはarchive.ics.uci.eduからのものです。

この研究チームは、患者が心臓病に罹っているかどうかを示す重要な予測変数を識別する分類木を生成したいと考えています。

  1. サンプルデータ、心臓病バイナリ.MTWを開きます。
  2. を選択します 予測分析モジュール > CART®分類
  3. ドロップダウンリストから2値応答を選択します。
  4. 応答にを入力します心臓病
  5. 応答事象はいを選択して、患者に心臓病が確認されたことを示します。
  6. 連続予測変数、「、 年齢, レスト血圧, コレステロール, 最大心拍数,と入力します オールドピーク
  7. カテゴリ予測変数、「、 セックス, 胸痛タイプ, 断食血糖, レスト心電図, 運動狭心症, 斜面, 主要な船舶」、および 「」と入力します。 タール
  8. OKをクリックします。

結果を解釈する

デフォルトでは、誤分類コストを最小化する木の1標準誤差内の最小の木が表示されます。この木には4つのターミナルノードがあります。

研究者は、この木を考察する前に、交差検証の誤分類コストとターミナルノードの数を示すプロットを調べます。このプロットでは、誤分類コストが減少するパターンは、4つのノードの木に続いてみられます。このような場合、分析者は、誤分類コストが低い他のいくつかの単純な木を探すことを選択します。

代替木を選択

  1. 出力で、代替木を選択をクリックします。
  2. このプロットで、誤分類コストが最も低く、ROCの値が最も高い7つのノードの木を選択します。
  3. 木を作成をクリックします。

結果を解釈する

ツリー図では、青の項目は事象の水準に対応しています。赤の項目は、非事象の水準です。この出力では、事象の水準は 「はい」 で、ある人が心臓病に罹っていることを示します。非事象の水準は「いいえ」で、ある人が心臓病に罹っていないことを示します。

ルートノードでは、「はい」の事象のカウント数が139で、「いいえ」の事象のカウント数が164です。ルートノードは、THALという変数を使用して分岐されます。THALが正常の場合は、左側のノード(ノード2)に移動します。THALが固定性または可逆性の場合は、右のノード(ノード 5)に移動します。
  • ノード2: THALが正常であった場合は167ケースあります。167ケースのうち、38ケースつまり22.8%がはい、129ケースつまり77.2%はNoです。
  • ノード5: THALが固定性または可逆性であった場合は136ケースあります。136ケースのうち、101ケースつまり74.3%がはい、35ケースつまり25.7%はNoです。

左の子ノードと右の子ノードの次の分岐変数は、胸痛のタイプで、痛みは 1、2、3、または4で評価されます。

他のノードを調べ、どの変数が最も興味深いかを確認します。ほとんどが青色のノードは、事象の水準の割合が高いことを示します。ほとんどが赤色のノード場合は、非事象の水準の割合が高いことを示します。

ツリー図では、データセット全体またはトレーニングデータセットが使用されます。木のビューを詳細ビューとノード分岐ビューを切り替えることができます。

この木の誤分類コストは約0.391です。

最も重要な予測変数は胸痛のタイプです。最上位の予測変数である胸痛タイプの寄与度が100%の場合、次に重要な変数である主要血管の寄与度は86.5%です。これは、主要な血管がこの分類木の胸痛のタイプの86.5%重要であることを意味します。

テストデータのROC曲線下の面積は0.8200で、多くの応用で妥当な分類パフォーマンスを示します。より高い予測精度を必要とするアプリケーションの場合は、モデルまたは TreeNet® 分類 モデルを使用して Random Forests® 分類 パフォーマンスの向上を試みることができます。

この例では、ゲインチャートは参照線の上に急激に増加し、次に平坦化を示しています。この場合、データの約 40% が真陽性の約 70% を占めます。

この例では、リフトチャートは、徐々に落ちる基準線の上に増加を示しています。

7ノード CART® 分類:心臓病 対 年齢, レスト血圧, コレステロール, 最大心拍数, オールドピーク, セックス, 断食血糖, 運動狭心症, レスト心電図, 斜面, タール, 胸痛タイプ, 主要な船舶

方法

事前確率すべてのクラスで同じ
ノード分岐ジニ
最適木最小誤分類コスト
モデル検証10分割交差検証
使用中の行303

二項応答情報

変数クラス計数%
心臓病はい (事象)13945.87
  いいえ16454.13
  すべて303100.00

モデル要約

合計予測変数13
重要な予測変数13
ターミナルノード数7
最小終端節サイズ5
統計量トレーニングテスト
負の対数尤度の平均0.39710.5094
ROC曲線下面積0.88610.8200
        95%信頼区間(0.5590, 1)(0.7702, 0.8697)
リフト1.93761.8165
誤分類コスト0.29240.3909

混同行列



予測クラス(トレーニング)予測クラス(テスト)
実クラス計数はいいいえ%正はいいいえ%正
はい (事象)1391172284.21053475.5
いいえ1642214286.62414085.4
すべて30313916485.512917480.9
統計量トレーニング(%)テスト(%)
真陽性率(感度または検出力)84.275.5
偽陽性率(第一種過誤)13.414.6
偽陰性率(第二種過誤)15.824.5
真陰性率(特異度)86.685.4

誤分類

入力誤分類コスト予測クラス
実クラスはいいいえ
はい  1.00
いいえ1.00 


トレーニングテスト
実クラス計数誤分類されました%誤差コスト誤分類されました%誤差コスト
はい (事象)1392215.80.15833424.50.2446
いいえ1642213.40.13412414.60.1463
すべて3034414.50.14625819.10.1955