このコマンドは、 予測分析モジュール.モジュールをアクティブにする方法については、ここをクリックしてください。
ある研究チームが、心臓病に影響を与える要因に関する詳細な情報を収集し、公開しています。変数には、年齢、性別、コレステロール値、最大心拍数などがあります。この例は、心臓病に関する詳細情報を提供する公開データセットに基づいています。元のデータはarchive.ics.uci.eduからのものです。
研究者は、可能な限り最も正確な予測を行うモデルを見つけたいと考えています。研究者は ベストモデルの検出(2値応答) を使用して、バイナリロジスティック回帰、TreeNet®、Random Forests® 、CART®の4種類のモデルの予測性能を比較します。研究者たちは、最高の予測性能を持つモデルのタイプをさらに調査することを計画しています。
「モデル選択」テーブルでは、さまざまなタイプのモデルのパフォーマンスが比較されます。ランダム フォレスト® モデルには、平均 -対数尤度の最小値があります。以下の結果は、最適なランダム フォレスト® モデルの結果です。
誤分類率対木の数プロットは、増加した木の数に対する曲線全体を示します。誤分類率は約0.16です。
モデルサマリー表は、平均負の対数尤度が約0.39であることを示しています。
相対変数重要度グラフは、木のシーケンスに対して予測変数で分岐が行われたときに、モデルの改善に対する予測変数の効果の順に予測変数をプロットします。最も重要な予測変数はThalです。最上の予測変数であるThalの寄与度が100%の場合、次に重要な変数である主要な血管は98.9%の寄与度を有します。これは、この分類モデルで、主要な血管がThalの98.9%重要であることを意味します。
混同行列は、モデルがクラスをどの程度正しく分離しているかを示します。この例では、イベントが正しく予測される確率は約 87% です。非イベントが正しく予測される確率は約81%です。
誤分類率は、モデルが新しい観測値を正確に予測するかどうかを示すのに役立ちます。イベントの予測の場合、バッグ外誤分類エラーは約 13% です。非イベントの予測の場合、誤分類誤差は約 19% です。全体として、テストデータの誤分類誤差は約16%です。
Random Forests® モデルの ROC 曲線下の面積は、out-of-bag データで約 0.90 です。
ステップワイズロジスティック回帰モデルを線形項と2次項で適合させます。 |
---|
6 TreeNet® 分類モデルを適合させます。 |
303のトレーニングデータサイズと同じブートストラップサンプルサイズで3 Random Forests® 分類モデルを適合させます。 |
最適なCART®分類モデルを適合させます。 |
5分割のクロス評価から、最大対数尤度を持つモデルを選択します。 |
行の合計数: 303 |
ロジスティック回帰モデルに使用される行: 303 |
ツリーベースのモデルに使用される行: 303 |
変数 | クラス | 計数 | % |
---|---|---|---|
心臓病 | 1 (事象) | 165 | 54.46 |
0 | 138 | 45.54 | |
すべて | 303 | 100.00 |
タイプ内のベストモデル | 負の対数尤度の平均 | ROC曲線下面積 | 誤分類率 |
---|---|---|---|
Random Forests®* | 0.3904 | 0.9048 | 0.1584 |
TreeNet® | 0.3907 | 0.9032 | 0.1520 |
ロジスティック回帰 | 0.4671 | 0.9142 | 0.1518 |
CART® | 1.8072 | 0.7991 | 0.2080 |
ブートストラップサンプルの数 | 300 |
---|---|
サンプルサイズ | 303のトレーニングデータサイズと同じ |
ノード分岐に対して選択された予測変数の数 | 予測変数の合計数の平方根 = 3 |
最小内部ノードのサイズ | 8 |
合計予測変数 | 13 |
---|---|
重要な予測変数 | 13 |
統計量 | アウトオブバッグ |
---|---|
負の対数尤度の平均 | 0.3904 |
ROC曲線下面積 | 0.9048 |
95%信頼区間 | (0.8706, 0.9389) |
リフト | 1.7758 |
誤分類率 | 0.1584 |
予測クラス(アウトオブバッグ) | ||||
---|---|---|---|---|
実クラス | 計数 | 1 | 0 | %正 |
1 (事象) | 165 | 143 | 22 | 86.67 |
0 | 138 | 26 | 112 | 81.16 |
すべて | 303 | 169 | 134 | 84.16 |
統計量 | アウトオブバッグ(%) |
---|---|
真陽性率(感度または検出力) | 86.67 |
偽陽性率(第一種過誤) | 18.84 |
偽陰性率(第二種過誤) | 13.33 |
真陰性率(特異度) | 81.16 |
アウトオブバッグ | |||
---|---|---|---|
実クラス | 計数 | 誤分類されました | %誤差 |
1 (事象) | 165 | 22 | 13.33 |
0 | 138 | 26 | 18.84 |
すべて | 303 | 48 | 15.84 |
研究者は、最適なモデルを探すことで、他のモデルの結果を見ることができます。TreeNet® モデルの場合、検索に含まれていたモデルから選択するか、別のモデルのハイパーパラメーターを指定できます。
この分析では 300 本の木が生え、最適な木の数は 46 本です。このモデルでは、学習率 0.1、サブサンプルの割合 0.5 を使用します。ツリーあたりのターミナルノードの最大数は 6 です。
合計予測変数 | 13 |
---|---|
重要な予測変数 | 13 |
増加した木の数 | 300 |
最適な木の数 | 46 |
統計量 | トレーニング | テスト |
---|---|---|
負の対数尤度の平均 | 0.2088 | 0.3907 |
ROC曲線下面積 | 0.9842 | 0.9032 |
95%信頼区間 | (0.9721, 0.9964) | (0.8683, 0.9381) |
リフト | 1.8364 | 1.7744 |
誤分類率 | 0.0726 | 0.1520 |
ツリーの数が 46 の場合、モデルの概要テーブルは、平均負の対数尤度がトレーニング データで約 0.21、テスト データで約 0.39 であることを示しています。
予測クラス(トレーニング) | 予測クラス(テスト) | ||||||
---|---|---|---|---|---|---|---|
実クラス | 計数 | 1 | 0 | %正 | 1 | 0 | %正 |
1 (事象) | 165 | 156 | 9 | 94.55 | 147 | 18 | 89.09 |
0 | 138 | 13 | 125 | 90.58 | 28 | 110 | 79.71 |
すべて | 303 | 169 | 134 | 92.74 | 175 | 128 | 84.82 |
統計量 | トレーニング(%) | テスト(%) |
---|---|---|
真陽性率(感度または検出力) | 94.55 | 89.09 |
偽陽性率(第一種過誤) | 9.42 | 20.29 |
偽陰性率(第二種過誤) | 5.45 | 10.91 |
真陰性率(特異度) | 90.58 | 79.71 |
混同行列は、モデルがクラスをどの程度正しく分離しているかを示します。この例では、イベントが正しく予測される確率は約 89% です。非イベントが正しく予測される確率は約80%です。
トレーニング | テスト | ||||
---|---|---|---|---|---|
実クラス | 計数 | 誤分類されました | %誤差 | 誤分類されました | %誤差 |
1 (事象) | 165 | 9 | 5.45 | 18 | 10.91 |
0 | 138 | 13 | 9.42 | 28 | 20.29 |
すべて | 303 | 22 | 7.26 | 46 | 15.18 |
誤分類率は、モデルが新しい観測値を正確に予測するかどうかを示すのに役立ちます。イベントの予測の場合、テストの誤分類誤差は約 11% です。非イベントの予測の場合、誤分類誤差は約 20% です。全体として、テストデータの誤分類誤差は約15%です。