ベストモデルの検出(2値応答)の例

注

このコマンドは、予測分析モジュール.モジュールをアクティブにする方法については、ここをクリックしてください。

このトピックの内容

最適なタイプのモデルを探す
代替モデルを選択

最適なタイプのモデルを探す

ある研究チームが、心臓病に影響を与える要因に関する詳細な情報を収集し、公開しています。変数には、年齢、性別、コレステロール値、最大心拍数などがあります。この例は、心臓病に関する詳細情報を提供する公開データセットに基づいています。元のデータはarchive.ics.uci.eduからのものです。

研究者は、可能な限り最も正確な予測を行うモデルを見つけたいと考えています。研究者はベストモデルの検出(2値応答) を使用して、バイナリロジスティック回帰、TreeNet^®、Random Forests^® 、CART^®の4種類のモデルの予測性能を比較します。研究者たちは、最高の予測性能を持つモデルのタイプをさらに調査することを計画しています。

次のリンクを使用して、異なるデータセットの各タイプのモデルの例を確認してください。

サンプルデータ、心臓病バイナリベストモデル.MWXを開きます。
予測分析モジュール > 自動機械と学習 > ベストモデルの検出(2値応答) を選択します。
応答に「」を入力します心臓病。
に連続予測変数、「」、「年齢, 'レスト血圧', コレステロール, ‘最大心拍数」、および「」オールドピーク'と入力します。
にカテゴリ予測変数、セックス, ' 胸痛タイプ', '断食血糖', 'レスト心電図', '運動狭心症', 斜面, ‘主要な船舶、を入力しますタール。
OKをクリックします。

結果を解釈する

「モデル選択」テーブルでは、さまざまなタイプのモデルのパフォーマンスが比較されます。ランダムフォレスト^® モデルには、平均 -対数尤度の最小値があります。以下の結果は、最適なランダムフォレスト^® モデルの結果です。

誤分類率対木の数プロットは、増加した木の数に対する曲線全体を示します。誤分類率は約0.16です。

モデルサマリー表は、平均負の対数尤度が約0.39であることを示しています。

相対変数重要度グラフは、木のシーケンスに対して予測変数で分岐が行われたときに、モデルの改善に対する予測変数の効果の順に予測変数をプロットします。最も重要な予測変数はThalです。最上の予測変数であるThalの寄与度が100%の場合、次に重要な変数である主要な血管は98.9%の寄与度を有します。これは、この分類モデルで、主要な血管がThalの98.9%重要であることを意味します。

混同行列は、モデルがクラスをどの程度正しく分離しているかを示します。この例では、イベントが正しく予測される確率は約 87% です。非イベントが正しく予測される確率は約81%です。

誤分類率は、モデルが新しい観測値を正確に予測するかどうかを示すのに役立ちます。イベントの予測の場合、バッグ外誤分類エラーは約 13% です。非イベントの予測の場合、誤分類誤差は約 19% です。全体として、テストデータの誤分類誤差は約16%です。

Random Forests^® モデルの ROC 曲線下の面積は、out-of-bag データで約 0.90 です。

ベストモデルの検出(2値応答): 心臓病対年齢, レスト血圧, コレステロール, 最大心拍数, オールドピーク, セックス, 胸痛タイプ, 断食血糖, レスト心電図, 運動狭心症, 斜面, 主要な船舶, タール

方法

ステップワイズロジスティック回帰モデルを線形項と2次項で適合させます。
6 TreeNet® 分類モデルを適合させます。
303のトレーニングデータサイズと同じブートストラップサンプルサイズで3 Random Forests® 分類モデルを適合させます。
最適なCART®分類モデルを適合させます。
5分割のクロス評価から、最大対数尤度を持つモデルを選択します。
行の合計数: 303
ロジスティック回帰モデルに使用される行: 303
ツリーベースのモデルに使用される行: 303

二項応答情報

変数	クラス	計数	%
心臓病	1 （事象）	165	54.46
	0	138	45.54
	すべて	303	100.00

タイプ内のベストモデル	負の対数尤度の平均	ROC曲線下面積	誤分類率
Random Forests®*	0.3904	0.9048	0.1584
TreeNet®	0.3907	0.9032	0.1520
ロジスティック回帰	0.4671	0.9142	0.1518
CART®	1.8072	0.7991	0.2080

ベストRandom Forests® モデルのハイパーパラメータ

ブートストラップサンプルの数	300
サンプルサイズ	303のトレーニングデータサイズと同じ
ノード分岐に対して選択された予測変数の数	予測変数の合計数の平方根 = 3
最小内部ノードのサイズ	8

モデル要約

合計予測変数	13
重要な予測変数	13

統計量	アウトオブバッグ
負の対数尤度の平均	0.3904
ROC曲線下面積	0.9048
95%信頼区間	(0.8706, 0.9389)
リフト	1.7758
誤分類率	0.1584

混同行列

	予測クラス(アウトオブバッグ)
実クラス	計数	1	0	%正
1 （事象）	165	143	22	86.67
0	138	26	112	81.16
すべて	303	169	134	84.16

統計量	アウトオブバッグ(%)
真陽性率（感度または検出力）	86.67
偽陽性率（第一種過誤）	18.84
偽陰性率（第二種過誤）	13.33
真陰性率（特異度）	81.16

誤分類

	アウトオブバッグ
実クラス	計数	誤分類されました	%誤差
1 （事象）	165	22	13.33
0	138	26	18.84
すべて	303	48	15.84

代替モデルを選択

研究者は、最適なモデルを探すことで、他のモデルの結果を見ることができます。TreeNet^® モデルの場合、検索に含まれていたモデルから選択するか、別のモデルのハイパーパラメーターを指定できます。

代替モデルの選択を選択します。
モデルタイプでTreeNet®を選択します。
で既存のモデルを選択する、最小平均 -対数尤度の最適な値を持つ 3 番目のモデルを選択します。
結果を表示をクリックします。

結果を解釈する

この分析では 300 本の木が生え、最適な木の数は 46 本です。このモデルでは、学習率 0.1、サブサンプルの割合 0.5 を使用します。ツリーあたりのターミナルノードの最大数は 6 です。

平均 -対樹木数プロットは、成長した木の数に対する曲線全体を示します。ツリー数が 46 の場合、テストデータの最適値は 0.3907 です。

モデル要約

合計予測変数	13
重要な予測変数	13
増加した木の数	300
最適な木の数	46

統計量	トレーニング	テスト
負の対数尤度の平均	0.2088	0.3907
ROC曲線下面積	0.9842	0.9032
95%信頼区間	(0.9721, 0.9964)	(0.8683, 0.9381)
リフト	1.8364	1.7744
誤分類率	0.0726	0.1520

ツリーの数が 46 の場合、モデルの概要テーブルは、平均負の対数尤度がトレーニングデータで約 0.21、テストデータで約 0.39 であることを示しています。

相対変数重要度グラフは、木のシーケンスに対して予測変数で分岐が行われたときに、モデルの改善に対する予測変数の効果の順に予測変数をプロットします。最も重要な予測変数は胸痛のタイプです。最上位の予測変数である胸痛の種類の寄与度が100%の場合、次に重要な変数であるタールの寄与度は95.8%です。これは、この分類モデルでは、Thal が胸痛タイプよりも 95.8% 重要であることを意味します。

混同行列

		予測クラス（トレーニング）			予測クラス（テスト）
実クラス	計数	1	0	%正	1	0	%正
1 （事象）	165	156	9	94.55	147	18	89.09
0	138	13	125	90.58	28	110	79.71
すべて	303	169	134	92.74	175	128	84.82

統計量	トレーニング（%）	テスト（%）
真陽性率（感度または検出力）	94.55	89.09
偽陽性率（第一種過誤）	9.42	20.29
偽陰性率（第二種過誤）	5.45	10.91
真陰性率（特異度）	90.58	79.71

混同行列は、モデルがクラスをどの程度正しく分離しているかを示します。この例では、イベントが正しく予測される確率は約 89% です。非イベントが正しく予測される確率は約80%です。

誤分類

		トレーニング		テスト
実クラス	計数	誤分類されました	%誤差	誤分類されました	%誤差
1 （事象）	165	9	5.45	18	10.91
0	138	13	9.42	28	20.29
すべて	303	22	7.26	46	15.18

誤分類率は、モデルが新しい観測値を正確に予測するかどうかを示すのに役立ちます。イベントの予測の場合、テストの誤分類誤差は約 11% です。非イベントの予測の場合、誤分類誤差は約 20% です。全体として、テストデータの誤分類誤差は約15%です。

木の数が46の場合のROC曲線下の面積は、トレーニングデータの場合は約0.98であり、テストデータの場合は約0.90です。

この例では、ゲインチャートは参照線の上に急激に増加し、次に平坦化を示しています。この場合、データの約 60% が真陽性の約 90% を占めます。この違いは、モデルを使用した場合の追加の利益です。

この例では、リフトチャートは、参照線より上で大きな増加を示しており、合計カウントの約50%を過ぎると急速に減少し始めます。

偏依存プロットを使用して、重要な変数または変数のペアが適合応答値にどのように影響するかについての洞察を得ます。適合した応答値は、1/2 対数スケールです。部分依存プロットは、応答と変数の関係が線形、単調、またはより複雑であるかどうかを示します。
たとえば、胸痛タイプの部分依存プロットでは、1/2の対数オッズは3の値で最高になります。[or 一予測変数プロット ] を選択して二予測変数プロット、他の変数のプロットを作成します