CART^® 分類の例

ある研究チームが、心臓病に影響を与える要因に関する詳細な情報を収集し、公開しています。変数には、年齢、性別、コレステロール値、最大心拍数などがあります。この例は、心臓病に関する詳細情報を提供する公開データセットに基づいています。元のデータはarchive.ics.uci.eduからのものです。

この研究チームは、患者が心臓病に罹っているかどうかを示す重要な予測変数を識別する分類木を生成したいと考えています。

結果を解釈する

デフォルトでは、誤分類コストを最小化する木の1標準誤差内の最小の木が表示されます。この木には4つのターミナルノードがあります。

研究者は、この木を考察する前に、交差検証の誤分類コストとターミナルノードの数を示すプロットを調べます。このプロットでは、誤分類コストが減少するパターンは、4つのノードの木に続いてみられます。このような場合、分析者は、誤分類コストが低い他のいくつかの単純な木を探すことを選択します。

ツリー図では、青の項目は事象の水準に対応しています。赤の項目は、非事象の水準です。この出力では、事象の水準は「はい」で、ある人が心臓病に罹っていることを示します。非事象の水準は「いいえ」で、ある人が心臓病に罹っていないことを示します。

ルートノードでは、「はい」の事象のカウント数が139で、「いいえ」の事象のカウント数が164です。ルートノードは、THALという変数を使用して分岐されます。THALが正常の場合は、左側のノード（ノード2）に移動します。THALが固定性または可逆性の場合は、右のノード（ノード 5）に移動します。

ノード2: THALが正常であった場合は167ケースあります。167ケースのうち、38ケースつまり22.8%がはい、129ケースつまり77.2%はNoです。
ノード5: THALが固定性または可逆性であった場合は136ケースあります。136ケースのうち、101ケースつまり74.3%がはい、35ケースつまり25.7%はNoです。

左の子ノードと右の子ノードの次の分岐変数は、胸痛のタイプで、痛みは 1、2、3、または4で評価されます。

他のノードを調べ、どの変数が最も興味深いかを確認します。ほとんどが青色のノードは、事象の水準の割合が高いことを示します。ほとんどが赤色のノード場合は、非事象の水準の割合が高いことを示します。

7ノード CART® 分類：心臓病対年齢, レスト血圧, コレステロール, 最大心拍数, オールドピーク, セックス, 断食血糖, 運動狭心症, レスト心電図, 斜面, タール, 胸痛タイプ, 主要な船舶