with の例 適合モデル TreeNet® 分類

このコマンドは、予測分析モジュールで使用できます。モジュールをアクティブにする方法については、ここをクリックしてください

ある研究チームが、心臓病に影響を与える要因に関する詳細な情報を収集し、公開しています。変数には、年齢、性別、コレステロール値、最大心拍数などがあります。この例は、心臓病に関する詳細情報を提供する公開データセットに基づいています。元のデータはarchive.ics.uci.eduからのものです。

重要な予測変数を特定するための最初の調査 CART® 分類 の後、研究者は両方を使用して、 と Random Forests® 分類 の両方 TreeNet® 分類 を使用して、同じデータセットからより集中的なモデルを作成します。研究者たちは、結果のモデル要約表とROCプロットを比較して、予測精度の高いモデルを評価します。他の分析の結果については、CART® 分類の例およびRandom Forests® 分類の例を参照してください。

  1. サンプルデータ、心臓病バイナリ.MTWを開きます。
  2. 予測分析モジュール > TreeNet®分類 > 適合モデル を選択します。
  3. ドロップダウンリストから2値応答を選択します。
  4. 応答にを入力します心臓病
  5. 応答事象はいを選択して、患者に心臓病が確認されたことを示します。
  6. 連続予測変数、「、 レスト血圧、、 コレステロール最大心拍数と入力します 年齢 オールドピーク
  7. カテゴリ予測変数、「、 胸痛タイプ、、 断食血糖レスト心電図 主要な船舶 運動狭心症 斜面」、および タール「」と入力します。 セックス
  8. OKをクリックします。

結果を解釈する

この分析では、Minitabは300本の木を増加させ、最適な木の数は300本です。最適な木の数が、モデルが成長する木の最大数に近いため、木の数を増やして再実行します。

モデル要約

合計予測変数13
重要な予測変数13
増加した木の数300
最適な木の数298
統計量トレーニングテスト
負の対数尤度の平均0.25560.3881
ROC曲線下面積0.97960.9089
        95%信頼区間(0.9664, 0.9929)(0.8759, 0.9419)
リフト2.17992.1087
誤分類率0.08910.1617

500 本のツリーを含む例

  1. 結果で選択します ハイパーパラメータの調整
  2. 木の数に、500と入力します。
  3. 結果を表示をクリックします。

結果を解釈する

この分析では、500本の木が成長し、最適な木の数は351です。最適なモデルは、学習率0.01を使用し、サブサンプル割合0.5 を使用し、ターミナルノードの最大数を6として使用します。

方法

木の最適な数の選択基準最大対数尤度
モデル検証5分割交差検証
学習率0.01
サブサンプルの選択方法完全にランダム
    サブサンプルの割合0.5
木あたりの最大終端ノード6
最小終端節サイズ3
ノード分岐に対して選択された予測変数の数予測変数の合計数 = 13
使用中の行303

二項応答情報

変数クラス計数%
心臓病はい (事象)13945.87
  いいえ16454.13
  すべて303100.00
ハイパーパラメータ調整によるTreeNet® 分類: 心臓病 対 年齢, レスト血圧, コレステロール, 最大心拍数, オールドピーク, セックス, 胸痛タイプ, 断食血糖, レスト心電図, 運動狭心症, 斜面, 主要な船舶, タール

方法

木の最適な数の選択基準最大対数尤度
モデル検証5分割交差検証
学習率0.001, 0.01, 0.1
サブサンプルの割合0.5, 0.7
木あたりの最大終端ノード6
最小終端節サイズ3
ノード分岐に対して選択された予測変数の数予測変数の合計数 = 13
使用中の行303

二項応答情報

変数クラス計数%
心臓病はい (事象)13945.87
  いいえ16454.13
  すべて303100.00

ハイパーパラメータの最適化

テスト
モデル最適な木の数負の対数尤度の平均ROC曲線下面積誤分類率学習率サブサンプルの割合最大終端ノード
15000.5429020.9029560.1717490.0010.56
2*3510.3865360.9089200.1750270.0100.56
3330.3965550.9007820.1616940.1000.56
45000.5432920.8941780.1781420.0010.76
53740.3896070.9066200.1650820.0100.76
6390.3933820.9013990.1749730.1000.76
* 最適モデルは負の対数尤度の最小平均があります。最適なモデルの出力は以下の通りです。

平均 -対樹木数プロットは、成長した木の数に対する曲線全体を示します。ツリー数が 351 の場合、テスト データの最適値は 0.3865 です。

モデル要約

合計予測変数13
重要な予測変数13
増加した木の数500
最適な木の数351
統計量トレーニングテスト
負の対数尤度の平均0.23410.3865
ROC曲線下面積0.98250.9089
        95%信頼区間(0.9706, 0.9945)(0.8757, 0.9421)
リフト2.17992.1087
誤分類率0.07590.1750

モデル要約

合計予測変数13
重要な予測変数13
統計量アウトオブバッグ
負の対数尤度の平均0.4004
ROC曲線下面積0.9028
        95%信頼区間(0.8693, 0.9363)
リフト2.1079
誤分類率0.1848

モデル要約表は、木の数が351の場合の負の対数尤度の平均を示し、トレーニングデータに対しては約0.23であり、テストデータに対しては約0.39です。これらの統計値は、Minitab Random Forests®が作成するものと同様のモデルを示しています。また、誤判別率も同様です。

相対変数重要度グラフは、木のシーケンスに対して予測変数で分岐が行われたときに、モデルの改善に対する予測変数の効果の順に予測変数をプロットします。最も重要な予測変数はThalです。最上の予測変数であるThalの寄与度が100%の場合、次に重要な変数である主要な血管は97.8%の寄与度を有します。これは、この分類モデルで、主要な血管がThalの97.8%重要であることを意味します。

混同行列



予測クラス(トレーニング)予測クラス(テスト)
実クラス計数はいいいえ%正はいいいえ%正
はい (事象)1391241589.211102979.14
いいえ164815695.122414085.37
すべて30313217192.4113416982.51
行の事象確率が0.5を超える場合、事象クラスに行を割り当てます。
     
統計量トレーニング(%)テスト(%)
真陽性率(感度または検出力)89.2179.14
偽陽性率(第一種過誤)4.8814.63
偽陰性率(第二種過誤)10.7920.86
真陰性率(特異度)95.1285.37

混同行列は、モデルがクラスをどの程度正しく分類しているかを示します。この例では、事象が正しく予測される確率は79.14%です。非事象が正しく予測される確率は85.37%です。

誤分類



トレーニングテスト
実クラス計数誤分類されました%誤差誤分類されました%誤差
はい (事象)1391510.792920.86
いいえ16484.882414.63
すべて303237.595317.49
行の事象確率が0.5を超える場合、事象クラスに行を割り当てます。

誤分類率は、モデルが新しい観測値を正確に予測するかどうかを示すのに役立ちます。事象の予測では、検定の誤分類誤差は20.86%です。非事象の予測では、誤分類誤差は14.63%であり、全体では誤分類誤差は17.49%です。

木の数が351の場合のROC曲線下の面積は、トレーニングデータの場合は約0.98であり、テストデータの場合は約0.91です。これは、CART® 分類モデルよりも優れた改善を示しています。モデRandom Forests® 分類ルの検定AUROCは0.9028であるので、これらの2つの方法では同様の結果が得られます。

この例では、ゲインチャートは参照線の上に急激に増加し、次に平坦化を示しています。この場合、データの約 40% が真陽性の約 80% を占めます。この違いは、モデルを使用した場合の追加の利益です。

この例では、リフトチャートは、徐々に落ちる基準線の上に大きな増加を示しています。

偏依存プロットを使用して、重要な変数または変数のペアが適合応答値にどのように影響するかについての洞察を得ます。適合した応答値は、1/2 対数スケールです。部分依存プロットは、応答と変数の関係が線形、単調、またはより複雑であるかどうかを示します。

たとえば、胸痛タイプの部分的依存性プロットでは、1/2対数のオッズが変化し、その後急激に増加します。胸痛のタイプが4の場合、心臓病発生率の1/2ログオッズは約−0.04から0.03に増加する。[or 二予測変数プロット ] を選択して 一予測変数プロット 、他の変数のプロットを作成します