TreeNet® 分類による適合モデルの例

このコマンドは、予測分析モジュールで使用できます。モジュールをアクティブにする方法については、ここをクリックしてください

ある研究チームが、心臓病に影響を与える要因に関する詳細な情報を収集し、公開しています。変数には、年齢、性別、コレステロール値、最大心拍数などがあります。この例は、心臓病に関する詳細情報を提供する公開データセットに基づいています。元のデータはarchive.ics.uci.eduからのものです。

重要な予測変数を特定するためにCART® 分類で最初の探査を行った後、研究者たちはTreeNet® 分類Random Forests® 分類の両方を使用し、同じデータセットからより集中的なモデルを作成します。研究者たちは、結果のモデル要約表とROCプロットを比較して、予測精度の高いモデルを評価します。他の分析の結果については、CART® 分類の例およびRandom Forests® 分類の例を参照してください。

  1. サンプルデータ、心臓病バイナリ.MTWを開きます。
  2. 予測分析モジュール > TreeNet®分類 > 適合モデルを選択します。
  3. ドロップダウンリストから2値応答を選択します。
  4. 応答心臓病を入力します。
  5. 応答事象はいを選択して、患者に心臓病が確認されたことを示します。
  6. 連続予測変数に、年齢レスト血圧コレステロール最大心拍数およびオールドピークを入力します。
  7. カテゴリ予測変数に、セックス胸痛タイプ断食血糖レスト心電図運動狭心症斜面主要な船舶およびタールを入力します。
  8. OKをクリックします。

結果を解釈する

この解析では、Minitabは300本の木を成長させ、最適な樹木数は298本です。最適な木の数が、モデルが成長する木の最大数に近いため、木の数を増やして再実行します。

TreeNet® 分類: 心臓病 対 年齢, レスト血圧, コレステロール, 最大心拍数, オールドピーク, セックス, 胸痛タイプ, 断食血糖, ...

モデル要約 合計予測変数 13 重要な予測変数 13 増加した木の数 300 最適な木の数 298 統計量 トレーニング テスト 負の対数尤度の平均 0.2556 0.3881 ROC曲線下面積 0.9796 0.9089 95%信頼区間 (0.9664, 0.9929) (0.8759, 0.9419) リフト 2.1799 2.1087 誤分類率 0.0891 0.1617

500本の木を含む例

  1. モデル要約表の後で、 より良いモデルを識別するためにハイパーパラメーターを調整するをクリックします。
  2. 木の数に、500と入力します。
  3. 結果を表示をクリックします。

結果を解釈する

この分析では、500本の木が成長し、最適な木の数は351です。最適なモデルは、学習率0.01を使用し、サブサンプル割合0.5 を使用し、ターミナルノードの最大数を6として使用します。

TreeNet® 分類: 心臓病 対 年齢, レスト血圧, コレステロール, 最大心拍数, オールドピーク, セックス, 胸痛タイプ, 断食血糖, ...

方法 木の最適な数の選択基準: 最大対数尤度 モデル検証 5分割交差検証 学習率 0.01 サブサンプルの選択方法 完全にランダム サブサンプルの割合 0.5 木あたりの最大終端ノード 6 最小終端節サイズ 3 ノード分岐に対して選択された予測変数の数 予測変数の合計数 = 13 使用中の行 303
二項応答情報 変数 クラス 計数 % 心臓病 はい (事象) 139 45.87 いいえ 164 54.13 すべて 303 100.00

ハイパーパラメータ調整によるTreeNet®分類: 心臓病対年齢, レスト血圧, コレステロール, 最大心拍数, オールドピーク, セックス, ...

方法 木の最適な数の選択基準: 最大対数尤度 モデル検証 5分割交差検証 学習率 0.001, 0.01, 0.1 サブサンプルの割合 0.5, 0.7 木あたりの最大終端ノード 6 最小終端節サイズ 3 ノード分岐に対して選択された予測変数の数 予測変数の合計数 = 13 使用中の行 303
二項応答情報 変数 クラス 計数 % 心臓病 はい (事象) 139 45.87 いいえ 164 54.13 すべて 303 100.00
ハイパーパラメータの最適化 テスト モデル 最適な木の数 負の対数尤度の平均 ROC曲線下面積 誤分類率 学習率 サブサンプルの割合 最大終端ノード 1 500 0.542902 0.902956 0.171749 0.001 0.5 6 2* 351 0.386536 0.908920 0.175027 0.010 0.5 6 3 33 0.396555 0.900782 0.161694 0.100 0.5 6 4 500 0.543292 0.894178 0.178142 0.001 0.7 6 5 374 0.389607 0.906620 0.165082 0.010 0.7 6 6 39 0.393382 0.901399 0.174973 0.100 0.7 6 * 最適モデルは負の対数尤度の最小平均があります。最適なモデルの出力は以下の通りです。

平均 -対樹木数プロットは、成長した木の数に対する曲線全体を示します。ツリー数が 351 の場合、テスト データの最適値は 0.3865 です。

TreeNet® 分類: 心臓病 対 年齢, レスト血圧, コレステロール, 最大心拍数, オールドピーク, セックス, 胸痛タイプ, 断食血糖, ...

モデル要約 合計予測変数 13 重要な予測変数 13 増加した木の数 500 最適な木の数 351 統計量 トレーニング テスト 負の対数尤度の平均 0.2341 0.3865 ROC曲線下面積 0.9825 0.9089 95%信頼区間 (0.9706, 0.9945) (0.8757, 0.9421) リフト 2.1799 2.1087 誤分類率 0.0759 0.1750

Random Forests® 分類: 心臓病 対 年齢, レスト血圧, コレステロール, 最大心拍数, オールドピーク, セックス, 胸痛タイプ, ...

モデル要約 合計予測変数 13 重要な予測変数 13 統計量 アウトオブバッグ 負の対数尤度の平均 0.4004 ROC曲線下面積 0.9028 95%信頼区間 (0.8693, 0.9363) リフト 2.1079 誤分類率 0.1848

モデル要約表は、木の数が351の場合の負の対数尤度の平均を示し、トレーニングデータに対しては約0.23であり、テストデータに対しては約0.39です。これらの統計値は、Minitab Random Forests®が作成するものと同様のモデルを示しています。また、誤判別率も同様です。

相対変数重要度グラフは、木のシーケンスに対して予測変数で分岐が行われたときに、モデルの改善に対する予測変数の効果の順に予測変数をプロットします。最も重要な予測変数はThalです。最上の予測変数であるThalの寄与度が100%の場合、次に重要な変数である主要な血管は97.8%の寄与度を有します。これは、この分類モデルで、主要な血管がThalの97.8%重要であることを意味します。

TreeNet® 分類: 心臓病 対 年齢, レスト血圧, コレステロール, 最大心拍数, オールドピーク, セックス, 胸痛タイプ, 断食血糖, ...

混同行列 予測クラス(トレーニング) 予測クラス(テスト) 実クラス 計数 はい いいえ %正 はい いいえ %正 はい (事象) 139 124 15 89.21 110 29 79.14 いいえ 164 8 156 95.12 24 140 85.37 すべて 303 132 171 92.41 134 169 82.51 行の事象確率が0.5を超える場合、事象クラスに行を割り当てます。
統計量 トレーニング(%) テスト(%) 真陽性率(感度または検出力) 89.21 79.14 偽陽性率(第一種過誤) 4.88 14.63 偽陰性率(第二種過誤) 10.79 20.86 真陰性率(特異度) 95.12 85.37

混同行列は、モデルがクラスをどの程度正しく分類しているかを示します。この例では、事象が正しく予測される確率は79.14%です。非事象が正しく予測される確率は85.37%です。

TreeNet® 分類: 心臓病 対 年齢, レスト血圧, コレステロール, 最大心拍数, オールドピーク, セックス, 胸痛タイプ, 断食血糖, ...

誤分類 トレーニング テスト 実クラス 計数 誤分類されました %誤差 誤分類されました %誤差 はい (事象) 139 15 10.79 29 20.86 いいえ 164 8 4.88 24 14.63 すべて 303 23 7.59 53 17.49 行の事象確率が0.5を超える場合、事象クラスに行を割り当てます。

誤分類率は、モデルが新しい観測値を正確に予測するかどうかを示すのに役立ちます。事象の予測では、検定の誤分類誤差は20.86%です。非事象の予測では、誤分類誤差は14.63%であり、全体では誤分類誤差は17.49%です。

木の数が351の場合のROC曲線下の面積は、トレーニングデータの場合は約0.98であり、テストデータの場合は約0.91です。これは、CART® 分類モデルよりも優れた改善を示しています。Random Forests® 分類モデルの検定AUROCは0.9028であるので、これらの2つの方法では同様の結果が得られます。

この例では、ゲインチャートは参照線の上に急激に増加し、次に平坦化を示しています。この場合、データの約40%が真陽性の約80%を占めています。この違いは、モデルを使用した場合の追加の利益です。

この例では、リフトチャートは、徐々に落ちる基準線の上に大きな増加を示しています。

部分依存プロットを使用して、重要な変数または変数のペアが予測応答に与える影響を把握します。1/2 ログ スケールの応答値は、モデルからの予測です。部分依存プロットは、応答と変数の関係が線形、単調、またはより複雑であるかどうかを示します。

たとえば、胸痛タイプの部分的依存性プロットでは、1/2対数のオッズが変化し、その後急激に増加します。胸痛のタイプが4の場合、心臓病発生率の1/2ログオッズは約−0.04から0.03に増加する。プロットする予測変数をさらに多く選択するをクリックして他の変数のプロットを作成します