Random Forests^® 分類の例

注

このコマンドは、予測分析モジュールで使用できます。モジュールをアクティブにする方法については、ここをクリックしてください。

ある研究チームが、心臓病に影響を与える要因に関する詳細な情報を収集し、公開しています。変数には、年齢、性別、コレステロール値、最大心拍数などがあります。この例は、心臓病に関する詳細情報を提供する公開データセットに基づいています。元のデータはarchive.ics.uci.eduからのものです。

重要な予測変数を特定するためにCART^® 分類で最初の探査を行った後、研究者たちはTreeNet^® 分類とRandom Forests^® 分類の両方を使用し、同じデータセットからより集中的なモデルを作成します。研究者たちは、結果のモデル要約表とROCプロットを比較して、予測精度の高いモデルを評価します。他の分析の結果については、CART® 分類の例およびwith の例適合モデル TreeNet® 分類を参照してください。

サンプルデータ、心臓病バイナリ.MWXを開きます。
予測分析モジュール > Random Forests® 分類を選択します。
ドロップダウンリストから2値応答を選択します。
応答に心臓病を入力します。
応答事象ではいを選択して、患者に心臓病が確認されたことを示します。
連続予測変数に、年齢、レスト血圧、コレステロール、最大心拍数およびオールドピークを入力します。
カテゴリ予測変数に、セックス、胸痛タイプ、断食血糖、レスト心電図、運動狭心症、斜面、主要な船舶およびタールを入力します。
OKをクリックします。

結果を解釈する

この分析では、観測値の数は303です。300個の各ブートストラップサンプルは、303個の観測値を使用して木を作成します。データには、事象と非事象が適切に分割されています。

方法

モデル検証	アウトオブバッグデータを使用した検証
ブートストラップサンプルの数	300
サンプルサイズ	303のトレーニングデータサイズと同じ
ノード分岐に対して選択された予測変数の数	予測変数の合計数の平方根 = 3
最小内部ノードのサイズ	2
使用中の行	303

二項応答情報

変数	クラス	計数	%
心臓病	はい（事象）	139	45.87
	いいえ	164	54.13
	すべて	303	100.00

誤分類率対木の数プロットは、増加した木の数に対する曲線全体を示します。誤分類率は約0.18です。

モデル要約

合計予測変数	13
重要な予測変数	13

統計量	アウトオブバッグ
負の対数尤度の平均	0.4004
ROC曲線下面積	0.9028
95%信頼区間	(0.8693, 0.9363)
リフト	2.1079
誤分類率	0.1848

モデル要約

合計予測変数	13
重要な予測変数	13
増加した木の数	500
最適な木の数	351

統計量	トレーニング	テスト
負の対数尤度の平均	0.2341	0.3865
ROC曲線下面積	0.9825	0.9089
95%信頼区間	(0.9706, 0.9945)	(0.8757, 0.9421)
リフト	2.1799	2.1087
誤分類率	0.0759	0.1750

モデル要約表は、負の対数尤度の平均が0.3994であることを示しています。これらの統計は、500個の木が増加しているときにMinitab TreeNet®が作成するものと同様のモデルを示しています。また、誤判別率も同様です。

相対変数重要度グラフは、木のシーケンスに対して予測変数で分岐が行われたときに、モデルの改善に対する予測変数の効果の順に予測変数をプロットします。最も重要な予測変数は主要血管です。最上の予測変数である主要血管の寄与度を100%とすると、次に重要な変数であるタールの寄与度は89.7%です。これは、この分類モデルで、タールは主要血管の89.7%重要であることを意味します。

混同行列

	予測クラス(アウトオブバッグ)
実クラス	計数	はい	いいえ	%正
はい（事象）	139	109	30	78.42
いいえ	164	26	138	84.15
すべて	303	135	168	81.52

統計量	アウトオブバッグ(%)
真陽性率（感度または検出力）	78.42
偽陽性率（第一種過誤）	15.85
偽陰性率（第二種過誤）	21.58
真陰性率（特異度）	84.15

混同行列は、モデルがクラスをどの程度正しく分類しているかを示します。この例では、事象が正しく予測される確率は78.42%です。非事象が正しく予測される確率は84.15%です。

誤分類

	アウトオブバッグ
実クラス	計数	誤分類されました	%誤差
はい（事象）	139	30	21.58
いいえ	164	26	15.85
すべて	303	56	18.48

誤分類率は、モデルが新しい観測値を正確に予測するかどうかを示すのに役立ちます。事象の予測では、誤分類誤差は21.58%です。非事象の予測では、誤分類誤差は15.85%であり、全体では誤分類誤差は18.48%です。

これらのデータのROC曲線下面積は約0.9028で、CART^® 分類モデルに対してわずかに改善されています。TreeNet^® 分類モデルの検定AUROCは0.9089であるので、これらの2つの方法では同様の結果が得られます。

この例では、ゲインチャートは参照線の上に急激に増加し、次に平坦化を示しています。この場合、データの約40%が真陽性の約78%を占めています。この違いは、モデルを使用した場合の追加の利益です。

この例では、リフトチャートは、徐々に落ちる基準線の上に大きな増加を示しています。

Random Forests® 分類の例

注

結果を解釈する

方法

二項応答情報

モデル要約

モデル要約

混同行列

誤分類

Random Forests^® 分類の例