ある研究チームが、心臓病に影響を与える要因に関する詳細な情報を収集し、公開しています。変数には、年齢、性別、コレステロール値、最大心拍数などがあります。この例は、心臓病に関する詳細情報を提供する公開データセットに基づいています。元のデータはarchive.ics.uci.eduからのものです。
この研究チームは、患者が心臓病に罹っているかどうかを示す重要な予測変数を識別する分類木を生成したいと考えています。
デフォルトでは、誤分類コストを最小化する木の1標準誤差内の最小の木が表示されます。この木には4つのターミナルノードがあります。
ツリー図では、青の項目は事象の水準に対応しています。赤の項目は、非事象の水準です。この出力では、事象の水準は 「はい」 で、ある人が心臓病に罹っていることを示します。非事象の水準は「いいえ」で、ある人が心臓病に罹っていないことを示します。
左の子ノードと右の子ノードの次の分岐変数は、胸痛のタイプで、痛みは 1、2、3、または4で評価されます。
他のノードを調べ、どの変数が最も興味深いかを確認します。ほとんどが青色のノードは、事象の水準の割合が高いことを示します。ほとんどが赤色のノード場合は、非事象の水準の割合が高いことを示します。
ツリー図では、データセット全体またはトレーニングデータセットが使用されます。木のビューを詳細ビューとノード分岐ビューを切り替えることができます。
この木の誤分類コストは約0.391です。
最も重要な予測変数は胸痛のタイプです。最上位の予測変数である胸痛タイプの寄与度が100%の場合、次に重要な変数である主要血管の寄与度は86.5%です。これは、主要な血管がこの分類木の胸痛のタイプの86.5%重要であることを意味します。
テストデータのROC曲線下の面積は0.8200で、多くの応用で妥当な分類パフォーマンスを示します。より高い予測精度を必要とするアプリケーションの場合は、モデルまたは TreeNet® 分類 モデルを使用して Random Forests® 分類 パフォーマンスの向上を試みることができます。
この例では、ゲインチャートは参照線の上に急激に増加し、次に平坦化を示しています。この場合、データの約 40% が真陽性の約 70% を占めます。
この例では、リフトチャートは、徐々に落ちる基準線の上に増加を示しています。
事前確率 | すべてのクラスで同じ |
---|---|
ノード分岐 | ジニ |
最適木 | 最小誤分類コスト |
モデル検証 | 10分割交差検証 |
使用中の行 | 303 |
変数 | クラス | 計数 | % |
---|---|---|---|
心臓病 | はい (事象) | 139 | 45.87 |
いいえ | 164 | 54.13 | |
すべて | 303 | 100.00 |
合計予測変数 | 13 |
---|---|
重要な予測変数 | 13 |
ターミナルノード数 | 7 |
最小終端節サイズ | 5 |
統計量 | トレーニング | テスト |
---|---|---|
負の対数尤度の平均 | 0.3971 | 0.5094 |
ROC曲線下面積 | 0.8861 | 0.8200 |
95%信頼区間 | (0.5590, 1) | (0.7702, 0.8697) |
リフト | 1.9376 | 1.8165 |
誤分類コスト | 0.2924 | 0.3909 |
予測クラス(トレーニング) | 予測クラス(テスト) | ||||||
---|---|---|---|---|---|---|---|
実クラス | 計数 | はい | いいえ | %正 | はい | いいえ | %正 |
はい (事象) | 139 | 117 | 22 | 84.2 | 105 | 34 | 75.5 |
いいえ | 164 | 22 | 142 | 86.6 | 24 | 140 | 85.4 |
すべて | 303 | 139 | 164 | 85.5 | 129 | 174 | 80.9 |
統計量 | トレーニング(%) | テスト(%) |
---|---|---|
真陽性率(感度または検出力) | 84.2 | 75.5 |
偽陽性率(第一種過誤) | 13.4 | 14.6 |
偽陰性率(第二種過誤) | 15.8 | 24.5 |
真陰性率(特異度) | 86.6 | 85.4 |
入力誤分類コスト | 予測クラス | |
---|---|---|
実クラス | はい | いいえ |
はい | 1.00 | |
いいえ | 1.00 |
トレーニング | テスト | ||||||
---|---|---|---|---|---|---|---|
実クラス | 計数 | 誤分類されました | %誤差 | コスト | 誤分類されました | %誤差 | コスト |
はい (事象) | 139 | 22 | 15.8 | 0.1583 | 34 | 24.5 | 0.2446 |
いいえ | 164 | 22 | 13.4 | 0.1341 | 24 | 14.6 | 0.1463 |
すべて | 303 | 44 | 14.5 | 0.1462 | 58 | 19.1 | 0.1955 |