このコマンドは、で使用できます予測分析モジュール。モジュールをアクティブにする方法については、ここをクリックしてください。
ある研究チームが、心臓病に影響を与える要因に関する詳細な情報を収集し、公開しています。変数には、年齢、性別、コレステロール値、最大心拍数などがあります。この例は、心臓病に関する詳細情報を提供する公開データセットに基づいています。元のデータはarchive.ics.uci.eduからのものです。
研究者たちは、可能な限り最も正確な予測を行うモデルを見つけたいと考えています。研究者は ベストモデルの検出(2値応答) の4種類のモデルの予測性能を比較するために使用します: 二項ロジスティック回帰, TreeNet®,ランダムフォレスト® とCART®.研究者たちは、最良の予測性能を持つモデルの種類をさらに探求する予定です。
モデル選択表では、さまざまなタイプのモデルのパフォーマンスを比較します。ランダム フォレスト® モデルには、平均対数尤度の最小値が設定されます。以下の結果は、最高のランダム フォレスト® モデルのためです。
誤分類率対木の数プロットは、増加した木の数に対する曲線全体を示します。誤分類率は約0.16です。
モデル要約表は、負の対数尤度の平均が0.39であることを示しています。
相対変数重要度グラフは、木のシーケンスに対して予測変数で分岐が行われたときに、モデルの改善に対する予測変数の効果の順に予測変数をプロットします。最も重要な予測変数はThalです。最上の予測変数であるThalの寄与度が100%の場合、次に重要な変数である主要な血管は98.9%の寄与度を有します。これは、この分類モデルで、主要な血管がThalの98.9%重要であることを意味します。
混同行列は、モデルがクラスをどの程度正しく分類しているかを示します。この例では、事象が正しく予測される確率は87%です。非事象が正しく予測される確率は81%です。
誤分類率は、モデルが新しい観測値を正確に予測するかどうかを示すのに役立ちます。事象の予測では、検定の誤分類誤差は13%です。事象の予測では、誤分類誤差は19%です。全体として、検定データの誤分類誤差は約16%です。
Random Forests® モデルの ROC 曲線の下の領域は、約 0.90 のアウト オブ バッグ データです。
ステップワイズロジスティック回帰モデルを線形項と2次項で適合させます。 |
---|
6 TreeNet® 分類モデルを適合させます。 |
303のトレーニングデータサイズと同じブートストラップサンプルサイズで3 Random Forests® 分類モデルを適合させます。 |
最適なCART®分類モデルを適合させます。 |
5分割のクロス評価から、最大対数尤度を持つモデルを選択します。 |
行の合計数: 303 |
ロジスティック回帰モデルに使用される行: 303 |
ツリーベースのモデルに使用される行: 303 |
変数 | クラス | 計数 | % |
---|---|---|---|
心臓病 | 1 (事象) | 165 | 54.46 |
0 | 138 | 45.54 | |
すべて | 303 | 100.00 |
タイプ内のベストモデル | 負の対数尤度の平均 | ROC曲線下面積 | 誤分類率 |
---|---|---|---|
Random Forests®* | 0.3904 | 0.9048 | 0.1584 |
TreeNet® | 0.3907 | 0.9032 | 0.1520 |
ロジスティック回帰 | 0.4671 | 0.9142 | 0.1518 |
CART® | 1.8072 | 0.7991 | 0.2080 |
ブートストラップサンプルの数 | 300 |
---|---|
サンプルサイズ | 303のトレーニングデータサイズと同じ |
ノード分岐に対して選択された予測変数の数 | 予測変数の合計数の平方根 = 3 |
最小内部ノードのサイズ | 8 |
合計予測変数 | 13 |
---|---|
重要な予測変数 | 13 |
統計量 | アウトオブバッグ |
---|---|
負の対数尤度の平均 | 0.3904 |
ROC曲線下面積 | 0.9048 |
95%信頼区間 | (0.8706, 0.9389) |
リフト | 1.7758 |
誤分類率 | 0.1584 |
予測クラス(アウトオブバッグ) | ||||
---|---|---|---|---|
実クラス | 計数 | 1 | 0 | %正 |
1 (事象) | 165 | 143 | 22 | 86.67 |
0 | 138 | 26 | 112 | 81.16 |
すべて | 303 | 169 | 134 | 84.16 |
統計量 | アウトオブバッグ(%) |
---|---|
真陽性率(感度または検出力) | 86.67 |
偽陽性率(第一種過誤) | 18.84 |
偽陰性率(第二種過誤) | 13.33 |
真陰性率(特異度) | 81.16 |
アウトオブバッグ | |||
---|---|---|---|
実クラス | 計数 | 誤分類されました | %誤差 |
1 (事象) | 165 | 22 | 13.33 |
0 | 138 | 26 | 18.84 |
すべて | 303 | 48 | 15.84 |
研究者は、最良のモデルの検索から他のモデルの結果を見ることができます。TreeNet® モデルの場合、検索の一部であったモデルから選択するか、別のモデルのハイパーパラメーターを指定できます。
この解析では、Minitabは300本の木を成長させ、最適な樹木数は46本です。このモデルでは、学習率 0.1、サブサンプル率 0.5 を使用します。ツリーあたりの終端ノードの最大数 は 6 です。
合計予測変数 | 13 |
---|---|
重要な予測変数 | 13 |
増加した木の数 | 300 |
最適な木の数 | 46 |
統計量 | トレーニング | テスト |
---|---|---|
負の対数尤度の平均 | 0.2088 | 0.3907 |
ROC曲線下面積 | 0.9842 | 0.9032 |
95%信頼区間 | (0.9721, 0.9964) | (0.8683, 0.9381) |
リフト | 1.8364 | 1.7744 |
誤分類率 | 0.0726 | 0.1520 |
ツリー数が 46 の場合、モデル要約テーブルは、トレーニング データの平均負の対数尤度が約 0.21、テスト データで約 0.39 であることを示します。
予測クラス(トレーニング) | 予測クラス(テスト) | ||||||
---|---|---|---|---|---|---|---|
実クラス | 計数 | 1 | 0 | %正 | 1 | 0 | %正 |
1 (事象) | 165 | 156 | 9 | 94.55 | 147 | 18 | 89.09 |
0 | 138 | 13 | 125 | 90.58 | 28 | 110 | 79.71 |
すべて | 303 | 169 | 134 | 92.74 | 175 | 128 | 84.82 |
統計量 | トレーニング(%) | テスト(%) |
---|---|---|
真陽性率(感度または検出力) | 94.55 | 89.09 |
偽陽性率(第一種過誤) | 9.42 | 20.29 |
偽陰性率(第二種過誤) | 5.45 | 10.91 |
真陰性率(特異度) | 90.58 | 79.71 |
混同行列は、モデルがクラスをどの程度正しく分類しているかを示します。この例では、事象が正しく予測される確率は89%です。非事象が正しく予測される確率は80%です。
トレーニング | テスト | ||||
---|---|---|---|---|---|
実クラス | 計数 | 誤分類されました | %誤差 | 誤分類されました | %誤差 |
1 (事象) | 165 | 9 | 5.45 | 18 | 10.91 |
0 | 138 | 13 | 9.42 | 28 | 20.29 |
すべて | 303 | 22 | 7.26 | 46 | 15.18 |
誤分類率は、モデルが新しい観測値を正確に予測するかどうかを示すのに役立ちます。事象の予測では、検定の誤分類誤差は11%です。事象の予測では、誤分類誤差は20%です。全体として、検定データの誤分類誤差は約15%です。