気の例 ベストモデルの検出(2値応答)'

最適なタイプのモデルを探す

ある研究チームが、心臓病に影響を与える要因に関する詳細な情報を収集し、公開しています。変数には、年齢、性別、コレステロール値、最大心拍数などがあります。この例は、心臓病に関する詳細情報を提供する公開データセットに基づいています。元のデータは4 archive.ics.uci.edu 年のものです。

研究者たちは、可能な限り最も正確な予測を行うモデルを見つけたいと考えています。研究者たちは、2元ロジスティック回帰、TreeNet®、ランダムフォレスト®、CART®の4種類のモデルの予測性能を比較するために ベストモデルの検出(2値応答) を用いています。研究者たちは、最も優れた予測性能を持つモデルの種類をさらに探求する予定です。

次のリンクを使用して、異なるデータセットの各タイプのモデルの例を確認してください。
  1. サンプルデータ、心臓病バイナリベストモデル.MWXを開きます。
  2. 予測分析モジュール > 自動機械と学習 > ベストモデルの検出(2値応答) を選択します。
  3. 応答に「心臓病」を入力してください。
  4. 連続予測変数では、 年齢、’レスト血圧’、 ‘コレステロール’、’最大心拍数’、’オールドピーク’を入力します。
  5. カテゴリ予測変数には、 セックス胸痛タイプ断食血糖レスト心電図運動狭心症斜面主要な船舶タールと入力します。
  6. OKをクリックします。

結果を解釈する

モデル選択表は、異なるタイプのモデルのパフォーマンスを比較します。ランダムフォレスト®モデルは平均対数尤度の最小値を持ちます。以下の結果は最良のランダムフォレスト®モデルに関するものです。

誤分類率対木の数プロットは、増加した木の数に対する曲線全体を示します。誤分類率は約0.16です。

モデルの要約表は、平均負の対数尤度が約0.39であることを示しています。

相対変数重要度グラフは、予測変数が木の列に分割された際のモデル改善への影響順に予測変数をプロットします。最も重要な予測変数はThalです。最上の予測変数であるThalの寄与度が100%の場合、次に重要な変数である主要な血管は98.9%の寄与度を有します。これは、この分類モデルで、主要な血管がThalの98.9%重要であることを意味します。

混同行列は、モデルがクラスをどれだけ正しく分離しているかを示します。この例では、事象が正しく予測される確率は約87%です。非事象が正しく予測される確率は約81%です。

誤分類率は、モデルが新たな観測値を正確に予測できるかどうかを示すのに役立ちます。事象予測に関しては、アウトオブバッグの誤分類誤差は約13%です。非事象の予測では、誤分類誤差は約19%です。全体として、テストデータの誤分類誤差は約16%です。

ランダムフォレスト®モデルのROC曲線下面積は、アウトオブバッグデータで約0.90です。

ベストモデルの検出(2値応答): 心臓病 対 年齢, レスト血圧, コレステロール, 最大心拍数, オールドピーク, セックス, 胸痛タイプ, 断食血糖, レスト心電図, 運動狭心症, 斜面, 主要な船舶, タール

方法

ステップワイズロジスティック回帰モデルを線形項と2次項で適合させます。
6 TreeNet® 分類モデルを適合させます。
303のトレーニングデータサイズと同じブートストラップサンプルサイズで3 Random Forests® 分類モデルを適合させます。
最適なCART®分類モデルを適合させます。
5分割のクロス評価から、最大対数尤度を持つモデルを選択します。
行の合計数: 303
ロジスティック回帰モデルに使用される行: 303
ツリーベースのモデルに使用される行: 303

二項応答情報

変数クラス計数%
心臓病1 (事象)16554.46
  013845.54
  すべて303100.00
タイプ内のベストモデル負の対数尤度の平均ROC曲線下面積誤分類率
Random Forests®*0.39040.90480.1584
TreeNet®0.39070.90320.1520
ロジスティック回帰0.46710.91420.1518
CART®1.80720.79910.2080
*負の対数尤度の平均を持つすべてのモデルタイプにわたって最高のモデル。最適なモデルの出力は次のとおりです。

ベストRandom Forests® モデルのハイパーパラメータ

ブートストラップサンプルの数300
    サンプルサイズ303のトレーニングデータサイズと同じ
ノード分岐に対して選択された予測変数の数予測変数の合計数の平方根 = 3
最小内部ノードのサイズ8

モデル要約

合計予測変数13
重要な予測変数13
統計量アウトオブバッグ
負の対数尤度の平均0.3904
ROC曲線下面積0.9048
        95%信頼区間(0.8706, 0.9389)
リフト1.7758
誤分類率0.1584

混同行列


予測クラス(アウトオブバッグ)
実クラス計数10%正
1 (事象)1651432286.67
01382611281.16
すべて30316913484.16
統計量アウトオブバッグ(%)
真陽性率(感度または検出力)86.67
偽陽性率(第一種過誤)18.84
偽陰性率(第二種過誤)13.33
真陰性率(特異度)81.16

誤分類


アウトオブバッグ
実クラス計数誤分類されました%誤差
1 (事象)1652213.33
01382618.84
すべて3034815.84

代替モデルを選択

研究者は最適なモデルを探すことで他のモデルの結果を確認できます。TreeNet® モデルの場合、検索に含まれたモデルから選択したり、別のモデルのハイパーパラメータを指定することができます。

  1. 代替モデルの選択 を選択します。
  2. モデルタイプTreeNet®を選択します。
  3. 既存のモデルを選択するでは、最小平均値の対数尤度が最も良い3番目のモデルを選びます。
  4. 結果を表示をクリックします。

結果を解釈する

この分析では 300 本の木が生え、最適な木の数は 46 本です。このモデルでは、学習率 0.1、サブサンプルの割合 0.5 を使用します。ツリーあたりのターミナルノードの最大数は6つです。

平均-対数有利度対数プロットは、成長した樹木数全体の曲線を示します。クロスバリデーションによる最適値は、ツリー数が46の場合0.3907です。

モデル要約

合計予測変数13
重要な予測変数13
増加した木の数300
最適な木の数46
統計量トレーニング交差検証
負の対数尤度の平均0.20880.3907
ROC曲線下面積0.98420.9032
  95%信頼区間(0.9721, 0.9964)(0.8683, 0.9381)
リフト1.83641.7744
誤分類率0.07260.1520

木の数が46の場合、モデルの要約表は訓練データの平均負の対数可能性が約0.21、クロス検証結果で約0.39であることを示しています。

相対変数重要度グラフは、予測変数が木の列に分割された際のモデル改善への影響順に予測変数をプロットします。最も重要な予測変数は胸痛のタイプです。最重要予測変数である胸痛タイプ(Chest Pain Type)の寄与が100%の場合、次に重要な変数であるタル(Thal)は95.8%の寄与を示します。つまり、この分類モデルではタルは胸痛タイプよりも95.8%の重要性を持っています。

混同行列



予測クラス(トレーニング)予測クラス (交差検証)
実クラス計数10%正10%正
1 (事象)165156994.551471889.09
01381312590.582811079.71
すべて30316913492.7417512884.82
行の事象確率が0.5を超える場合、事象クラスに行を割り当てます。
     
統計量トレーニング(%)交差検証 (%)
真陽性率(感度または検出力)94.5589.09
偽陽性率(第一種過誤)9.4220.29
偽陰性率(第二種過誤)5.4510.91
真陰性率(特異度)90.5879.71

混同行列は、モデルがクラスをどれだけ正しく分離しているかを示します。この例では、事象が正しく予測される確率は約89%です。非事象が正しく予測される確率は約80%です。

誤分類



トレーニング交差検証
実クラス計数誤分類されました%誤差誤分類されました%誤差
1 (事象)16595.451810.91
0138139.422820.29
すべて303227.264615.18
行の事象確率が0.5を超える場合、事象クラスに行を割り当てます。

誤分類率は、モデルが新たな観測値を正確に予測できるかどうかを示すのに役立ちます。事象の予測において、クロスバリデーションによる誤分類誤差は約11%です。非事象の予測では、誤分類誤差は約20%です。全体として、クロスバリデーションによる誤分類誤差は約15%です。

46本の木の木数がある場合、ROC曲線下の面積は訓練データで約0.98、クロスバリデーション結果では約0.90です。

この例では、ゲインチャートは参照線の上に急激に増加し、次に平坦化を示しています。この場合、データの約 60% が真陽性の約 90% を占めます。この違いは、モデルを使用した場合の追加の利益です。

この例では、リフトチャートは基準線より大きく上昇し、総カウントの約50%以降に急速に減少し始めます。

偏依存プロットを使用して、重要な変数または変数のペアが適合応答値にどのように影響するかについての洞察を得ます。フィットした応答値は1/2対数スケールで示されます。部分依存プロットは、応答と変数の関係が線形、単調、またはより複雑であるかどうかを示します。

例えば、胸痛タイプの部分依存プロットでは、1/2対数オッズは3の時に最も高くなります。他の変数のプロットを作成するには 一予測変数プロット または 二予測変数プロット を選択します