ベストモデルの検出(2値応答)

このコマンドは、で使用できます予測分析モジュールモジュールをアクティブにする方法については、ここをクリックしてください

最適なモデルの種類を検索する

ある研究チームが、心臓病に影響を与える要因に関する詳細な情報を収集し、公開しています。変数には、年齢、性別、コレステロール値、最大心拍数などがあります。この例は、心臓病に関する詳細情報を提供する公開データセットに基づいています。元のデータはarchive.ics.uci.eduからのものです。

研究者たちは、可能な限り最も正確な予測を行うモデルを見つけたいと考えています。研究者は ベストモデルの検出(2値応答) の4種類のモデルの予測性能を比較するために使用します: 二項ロジスティック回帰, TreeNet®,ランダムフォレスト® とCART®.研究者たちは、最良の予測性能を持つモデルの種類をさらに探求する予定です。

異なるデータ・セットの各タイプのモデルの例を参照するには、以下のリンクを使用してください。
  1. サンプルデータ、心臓病バイナリベストモデル.MTWを開きます。
  2. 予測分析モジュール > 自動機械と学習 > ベストモデルの検出(2値応答)を選択します。
  3. 応答に「」を入力します。
  4. 連続予測変数 に、 年齢, 'レスト血圧', コレステロール, '最大心拍数', および'オールドピーク‘ 'と入力します。
  5. カテゴリ予測変数 に、’セックス、 ' と入力 胸痛タイプ断食血糖レスト心電図運動狭心症斜面主要な船舶タールします。
  6. OKをクリックします。

結果を解釈する

モデル選択表では、さまざまなタイプのモデルのパフォーマンスを比較します。ランダム フォレスト® モデルには、平均対数尤度の最小値が設定されます。以下の結果は、最高のランダム フォレスト® モデルのためです。

誤分類率対木の数プロットは、増加した木の数に対する曲線全体を示します。誤分類率は約0.16です。

モデル要約表は、負の対数尤度の平均が0.39であることを示しています。

相対変数重要度グラフは、木のシーケンスに対して予測変数で分岐が行われたときに、モデルの改善に対する予測変数の効果の順に予測変数をプロットします。最も重要な予測変数はThalです。最上の予測変数であるThalの寄与度が100%の場合、次に重要な変数である主要な血管は98.9%の寄与度を有します。これは、この分類モデルで、主要な血管がThalの98.9%重要であることを意味します。

混同行列は、モデルがクラスをどの程度正しく分類しているかを示します。この例では、事象が正しく予測される確率は87%です。非事象が正しく予測される確率は81%です。

誤分類率は、モデルが新しい観測値を正確に予測するかどうかを示すのに役立ちます。事象の予測では、検定の誤分類誤差は13%です。事象の予測では、誤分類誤差は19%です。全体として、検定データの誤分類誤差は約16%です。

Random Forests® モデルの ROC 曲線の下の領域は、約 0.90 のアウト オブ バッグ データです。

ベストモデルの検出(2値応答): 心臓病 対 年齢, レスト血圧, コレステロール, 最大心拍数, オールドピーク, セックス, 胸痛タイプ, ...

方法 ステップワイズロジスティック回帰モデルを線形項と2次項で適合させます。 6 TreeNet® 分類モデルを適合させます。 303のトレーニングデータサイズと同じブートストラップサンプルサイズで3 Random Forests® 分類モデルを適合させます。 最適な CART® 分類モデルを適合させます。 5分割のクロス評価から、最大対数尤度を持つモデルを選択します。 行の合計数: 303 ロジスティック回帰モデルに使用される行: 303 ツリーベースのモデルに使用される行: 303
二項応答情報 変数 クラス 計数 % 心臓病 1 (事象) 165 54.46 0 138 45.54 すべて 303 100.00

モデル選択

タイプ内のベストモデル 負の対数尤度の平均 ROC曲線下面積 誤分類率 Random Forests®* 0.3904 0.9048 0.1584 TreeNet® 0.3907 0.9032 0.1520 ロジスティック回帰 0.4671 0.9142 0.1518 CART® 1.8072 0.7991 0.2080 *負の対数尤度の平均を持つすべてのモデルタイプにわたって最高のモデル。最適なモデルの出力は次のとおりです。
ベストRandom Forests® モデルのハイパーパラメータ ブートストラップサンプルの数 300 サンプルサイズ 303のトレーニングデータサイズと同じ ノード分岐に対して選択された予測変数の数 予測変数の合計数の平方根 = 3 最小内部ノードのサイズ 8

誤分類率対木の数プロット

モデル要約 合計予測変数 13 重要な予測変数 13 統計量 アウトオブバッグ 負の対数尤度の平均 0.3904 ROC曲線下面積 0.9048 95%信頼区間 (0.8706, 0.9389) リフト 1.7758 誤分類率 0.1584
混同行列 予測クラス(アウトオブバッグ) 実クラス 計数 1 0 %正 1 (事象) 165 143 22 86.67 0 138 26 112 81.16 すべて 303 169 134 84.16 統計量 アウトオブバッグ(%) 真陽性率(感度または検出力) 86.67 偽陽性率(第一種過誤) 18.84 偽陰性率(第二種過誤) 13.33 真陰性率(特異度) 81.16
誤分類 アウトオブバッグ 実クラス 計数 誤分類されました %誤差 1 (事象) 165 22 13.33 0 138 26 18.84 すべて 303 48 15.84

受信者動作特性(ROC)曲線

ゲインチャート

リフトチャート

代替モデルを選択

研究者は、最良のモデルの検索から他のモデルの結果を見ることができます。TreeNet® モデルの場合、検索の一部であったモデルから選択するか、別のモデルのハイパーパラメーターを指定できます。

  1. モデル要約表の後で、 代替モデルを選択をクリックします。
  2. モデルタイプTreeNet®を選択します。
  3. 既存のモデルを選択するで、最小平均 -対数尤度の最高値を持つ 3 番目のモデルを選択します。
  4. 結果を表示をクリックします。

結果を解釈する

この解析では、Minitabは300本の木を成長させ、最適な樹木数は46本です。このモデルでは、学習率 0.1、サブサンプル率 0.5 を使用します。ツリーあたりの終端ノードの最大数 は 6 です。

平均 -対樹木数プロットは、成長した木の数に対する曲線全体を示します。ツリー数が 46 の場合、テスト データの最適値は 0.3907 です。

TreeNet® 分類: 心臓病 対 年齢, レスト血圧, コレステロール, 最大心拍数, オールドピーク, セックス, 胸痛タイプ, 断食血糖, ...

モデル要約 合計予測変数 13 重要な予測変数 13 増加した木の数 300 最適な木の数 46 統計量 トレーニング テスト 負の対数尤度の平均 0.2088 0.3907 ROC曲線下面積 0.9842 0.9032 95%信頼区間 (0.9721, 0.9964) (0.8683, 0.9381) リフト 1.8364 1.7744 誤分類率 0.0726 0.1520

ツリー数が 46 の場合、モデル要約テーブルは、トレーニング データの平均負の対数尤度が約 0.21、テスト データで約 0.39 であることを示します。

相対変数重要度グラフは、木のシーケンスに対して予測変数で分岐が行われたときに、モデルの改善に対する予測変数の効果の順に予測変数をプロットします。最も重要な予測変数は胸痛のタイプです。最上の予測変数である胸痛のタイプの寄与度が100%の場合、次に重要な変数である主要な血管は95.8%の寄与度を有します。これは、主要な血管がこのモデルの胸痛のタイプの95.8%重要であることを意味します。

TreeNet® 分類: 心臓病 対 年齢, レスト血圧, コレステロール, 最大心拍数, オールドピーク, セックス, 胸痛タイプ, 断食血糖, ...

混同行列 予測クラス(トレーニング) 予測クラス(テスト) 実クラス 計数 1 0 %正 1 0 %正 1 (事象) 165 156 9 94.55 147 18 89.09 0 138 13 125 90.58 28 110 79.71 すべて 303 169 134 92.74 175 128 84.82 行の事象確率が0.5を超える場合、事象クラスに行を割り当てます。
統計量 トレーニング(%) テスト(%) 真陽性率(感度または検出力) 94.55 89.09 偽陽性率(第一種過誤) 9.42 20.29 偽陰性率(第二種過誤) 5.45 10.91 真陰性率(特異度) 90.58 79.71

混同行列は、モデルがクラスをどの程度正しく分類しているかを示します。この例では、事象が正しく予測される確率は89%です。非事象が正しく予測される確率は80%です。

TreeNet® 分類: 心臓病 対 年齢, レスト血圧, コレステロール, 最大心拍数, オールドピーク, セックス, 胸痛タイプ, 断食血糖, ...

誤分類 トレーニング テスト 実クラス 計数 誤分類されました %誤差 誤分類されました %誤差 1 (事象) 165 9 5.45 18 10.91 0 138 13 9.42 28 20.29 すべて 303 22 7.26 46 15.18 行の事象確率が0.5を超える場合、事象クラスに行を割り当てます。

誤分類率は、モデルが新しい観測値を正確に予測するかどうかを示すのに役立ちます。事象の予測では、検定の誤分類誤差は11%です。事象の予測では、誤分類誤差は20%です。全体として、検定データの誤分類誤差は約15%です。

木の数が46の場合のROC曲線下の面積は、トレーニングデータの場合は約0.98であり、テストデータの場合は約0.90です。

この例では、ゲインチャートは参照線の上に急激に増加し、次に平坦化を示しています。この場合、データの約60%が真陽性の約90%を占めています。この違いは、モデルを使用した場合の追加の利益です。

この例では、リフト チャートは、合計カウントの約 50% を超えると、より速く減少し始める基準線の上に大きな増加を示しています。

部分依存プロットを使用して、重要な変数または変数のペアが予測応答に与える影響を把握します。適合応答値は、1/2 のログスケールに基づきます。部分依存プロットは、応答と変数の関係が線形、単調、またはより複雑であるかどうかを示します。

たとえば、胸痛タイプの部分的依存性プロットでは、1/2対数のオッズが変化し、その後急激に増加します。プロットする予測変数をさらに多く選択するをクリックして他の変数のプロットを作成します