このコマンドは、 予測分析モジュール.モジュールをアクティブにする方法については、ここをクリックしてください。
ある研究チームが、心臓病に影響を与える要因に関する詳細な情報を収集し、公開しています。変数には、年齢、性別、コレステロール値、最大心拍数などがあります。この例は、心臓病に関する詳細情報を提供する公開データセットに基づいています。元のデータは4 archive.ics.uci.edu 年のものです。
研究者たちは、可能な限り最も正確な予測を行うモデルを見つけたいと考えています。研究者たちは、2元ロジスティック回帰、TreeNet®、ランダムフォレスト®、CART®の4種類のモデルの予測性能を比較するために ベストモデルの検出(2値応答) を用いています。研究者たちは、最も優れた予測性能を持つモデルの種類をさらに探求する予定です。
モデル選択表は、異なるタイプのモデルのパフォーマンスを比較します。ランダムフォレスト®モデルは平均対数尤度の最小値を持ちます。以下の結果は最良のランダムフォレスト®モデルに関するものです。
誤分類率対木の数プロットは、増加した木の数に対する曲線全体を示します。誤分類率は約0.16です。
モデルの要約表は、平均負の対数尤度が約0.39であることを示しています。
相対変数重要度グラフは、予測変数が木の列に分割された際のモデル改善への影響順に予測変数をプロットします。最も重要な予測変数はThalです。最上の予測変数であるThalの寄与度が100%の場合、次に重要な変数である主要な血管は98.9%の寄与度を有します。これは、この分類モデルで、主要な血管がThalの98.9%重要であることを意味します。
混同行列は、モデルがクラスをどれだけ正しく分離しているかを示します。この例では、事象が正しく予測される確率は約87%です。非事象が正しく予測される確率は約81%です。
誤分類率は、モデルが新たな観測値を正確に予測できるかどうかを示すのに役立ちます。事象予測に関しては、アウトオブバッグの誤分類誤差は約13%です。非事象の予測では、誤分類誤差は約19%です。全体として、テストデータの誤分類誤差は約16%です。
ランダムフォレスト®モデルのROC曲線下面積は、アウトオブバッグデータで約0.90です。
| ステップワイズロジスティック回帰モデルを線形項と2次項で適合させます。 |
|---|
| 6 TreeNet® 分類モデルを適合させます。 |
| 303のトレーニングデータサイズと同じブートストラップサンプルサイズで3 Random Forests® 分類モデルを適合させます。 |
| 最適なCART®分類モデルを適合させます。 |
| 5分割のクロス評価から、最大対数尤度を持つモデルを選択します。 |
| 行の合計数: 303 |
| ロジスティック回帰モデルに使用される行: 303 |
| ツリーベースのモデルに使用される行: 303 |
| 変数 | クラス | 計数 | % |
|---|---|---|---|
| 心臓病 | 1 (事象) | 165 | 54.46 |
| 0 | 138 | 45.54 | |
| すべて | 303 | 100.00 |
| タイプ内のベストモデル | 負の対数尤度の平均 | ROC曲線下面積 | 誤分類率 |
|---|---|---|---|
| Random Forests®* | 0.3904 | 0.9048 | 0.1584 |
| TreeNet® | 0.3907 | 0.9032 | 0.1520 |
| ロジスティック回帰 | 0.4671 | 0.9142 | 0.1518 |
| CART® | 1.8072 | 0.7991 | 0.2080 |
| ブートストラップサンプルの数 | 300 |
|---|---|
| サンプルサイズ | 303のトレーニングデータサイズと同じ |
| ノード分岐に対して選択された予測変数の数 | 予測変数の合計数の平方根 = 3 |
| 最小内部ノードのサイズ | 8 |
| 合計予測変数 | 13 |
|---|---|
| 重要な予測変数 | 13 |
| 統計量 | アウトオブバッグ |
|---|---|
| 負の対数尤度の平均 | 0.3904 |
| ROC曲線下面積 | 0.9048 |
| 95%信頼区間 | (0.8706, 0.9389) |
| リフト | 1.7758 |
| 誤分類率 | 0.1584 |
| 予測クラス(アウトオブバッグ) | ||||
|---|---|---|---|---|
| 実クラス | 計数 | 1 | 0 | %正 |
| 1 (事象) | 165 | 143 | 22 | 86.67 |
| 0 | 138 | 26 | 112 | 81.16 |
| すべて | 303 | 169 | 134 | 84.16 |
| 統計量 | アウトオブバッグ(%) |
|---|---|
| 真陽性率(感度または検出力) | 86.67 |
| 偽陽性率(第一種過誤) | 18.84 |
| 偽陰性率(第二種過誤) | 13.33 |
| 真陰性率(特異度) | 81.16 |
| アウトオブバッグ | |||
|---|---|---|---|
| 実クラス | 計数 | 誤分類されました | %誤差 |
| 1 (事象) | 165 | 22 | 13.33 |
| 0 | 138 | 26 | 18.84 |
| すべて | 303 | 48 | 15.84 |

研究者は最適なモデルを探すことで他のモデルの結果を確認できます。TreeNet® モデルの場合、検索に含まれたモデルから選択したり、別のモデルのハイパーパラメータを指定することができます。
この分析では 300 本の木が生え、最適な木の数は 46 本です。このモデルでは、学習率 0.1、サブサンプルの割合 0.5 を使用します。ツリーあたりのターミナルノードの最大数は6つです。
平均-対数有利度対数プロットは、成長した樹木数全体の曲線を示します。クロスバリデーションによる最適値は、ツリー数が46の場合0.3907です。
| 合計予測変数 | 13 |
|---|---|
| 重要な予測変数 | 13 |
| 増加した木の数 | 300 |
| 最適な木の数 | 46 |
| 統計量 | トレーニング | 交差検証 |
|---|---|---|
| 負の対数尤度の平均 | 0.2088 | 0.3907 |
| ROC曲線下面積 | 0.9842 | 0.9032 |
| 95%信頼区間 | (0.9721, 0.9964) | (0.8683, 0.9381) |
| リフト | 1.8364 | 1.7744 |
| 誤分類率 | 0.0726 | 0.1520 |
木の数が46の場合、モデルの要約表は訓練データの平均負の対数可能性が約0.21、クロス検証結果で約0.39であることを示しています。

相対変数重要度グラフは、予測変数が木の列に分割された際のモデル改善への影響順に予測変数をプロットします。最も重要な予測変数は胸痛のタイプです。最重要予測変数である胸痛タイプ(Chest Pain Type)の寄与が100%の場合、次に重要な変数であるタル(Thal)は95.8%の寄与を示します。つまり、この分類モデルではタルは胸痛タイプよりも95.8%の重要性を持っています。
| 予測クラス(トレーニング) | 予測クラス (交差検証) | ||||||
|---|---|---|---|---|---|---|---|
| 実クラス | 計数 | 1 | 0 | %正 | 1 | 0 | %正 |
| 1 (事象) | 165 | 156 | 9 | 94.55 | 147 | 18 | 89.09 |
| 0 | 138 | 13 | 125 | 90.58 | 28 | 110 | 79.71 |
| すべて | 303 | 169 | 134 | 92.74 | 175 | 128 | 84.82 |
| 統計量 | トレーニング(%) | 交差検証 (%) |
|---|---|---|
| 真陽性率(感度または検出力) | 94.55 | 89.09 |
| 偽陽性率(第一種過誤) | 9.42 | 20.29 |
| 偽陰性率(第二種過誤) | 5.45 | 10.91 |
| 真陰性率(特異度) | 90.58 | 79.71 |
混同行列は、モデルがクラスをどれだけ正しく分離しているかを示します。この例では、事象が正しく予測される確率は約89%です。非事象が正しく予測される確率は約80%です。
| トレーニング | 交差検証 | ||||
|---|---|---|---|---|---|
| 実クラス | 計数 | 誤分類されました | %誤差 | 誤分類されました | %誤差 |
| 1 (事象) | 165 | 9 | 5.45 | 18 | 10.91 |
| 0 | 138 | 13 | 9.42 | 28 | 20.29 |
| すべて | 303 | 22 | 7.26 | 46 | 15.18 |
誤分類率は、モデルが新たな観測値を正確に予測できるかどうかを示すのに役立ちます。事象の予測において、クロスバリデーションによる誤分類誤差は約11%です。非事象の予測では、誤分類誤差は約20%です。全体として、クロスバリデーションによる誤分類誤差は約15%です。
46本の木の木数がある場合、ROC曲線下の面積は訓練データで約0.98、クロスバリデーション結果では約0.90です。
この例では、ゲインチャートは参照線の上に急激に増加し、次に平坦化を示しています。この場合、データの約 60% が真陽性の約 90% を占めます。この違いは、モデルを使用した場合の追加の利益です。
この例では、リフトチャートは基準線より大きく上昇し、総カウントの約50%以降に急速に減少し始めます。
偏依存プロットを使用して、重要な変数または変数のペアが適合応答値にどのように影響するかについての洞察を得ます。フィットした応答値は1/2対数スケールで示されます。部分依存プロットは、応答と変数の関係が線形、単調、またはより複雑であるかどうかを示します。
例えば、胸痛タイプの部分依存プロットでは、1/2対数オッズは3の時に最も高くなります。他の変数のプロットを作成するには または を選択します