ベストモデルの検出(連続応答)の例

このコマンドは、予測分析モジュールで使用できます。モジュールをアクティブにする方法については、ここをクリックしてください

最適なタイプのモデルを探す

医療システムの研究者は、地域の診療所からデータを収集します。特に、研究チームは、病気の患者の医師の初期検査からのデータに興味を持っています。最初の検査の最後に、医師は各患者に病気の重症度のスコアを割り当てます。研究者は、医師による検査の前に最も病気の患者に優先順位を付けるのに役立つ短い質問票を作成したいと考えています。対象分野の専門家との協議とデータの初期調査を通じて、チームは重大度スコアを予測するために8つの変数を選択します。研究者は、モデルをさらに改良する前に、重大度スコアを予測するための最適なタイプのモデルを決定したいと考えています。

研究者は、重回帰、TreeNet®、Random Forests® 、CART® 、MARS®の5種類のモデルの予測パフォーマンスを比較するために使用します ベストモデルの検出(連続応答) 。チームは、最高の予測パフォーマンスを備えたモデルのタイプをさらに調査する予定です。

次のリンクを使用して、異なるデータセットの各タイプのモデルの例を確認してください。
  1. サンプルデータ、病気.mtwを開きます。
  2. 予測分析モジュール > 自動機械と学習 > ベストモデルの検出(連続応答) を選択します。
  3. 応答に「病気の重症度スコア」を入力します。
  4. 連続予測変数に「今の症状の数」を入力します。
  5. カテゴリ予測変数'痰の高生産'-'通常の活動の制限' と入力します。
  6. OKをクリックします。

結果を解釈する

モデル選択テーブルでは、モデルの種類のパフォーマンスが比較されます。重回帰モデルの最大値はR2です。以下の結果は、最適な重回帰モデルに対するものです。

モデルにおける応答と各項の間の関係が統計的に有意かどうか判断するには、項のp値と有意水準を比較して帰無仮説を評価します。この帰無仮説は、項と応答に関連性がないという仮定です。通常、0.05の有意水準(αまたはアルファとも呼ばれる)が有効に機能します。0.05の有意水準は、実際の関連性がないのに関連性が存在すると結論付けるリスクが5%であることを示します。これらの結果では、2つの交互作用項のp値が0.05を超えています。息切れの激しさ*激しい頭痛 および 激しい頭痛*重度の睡眠障害。研究者が他の重回帰モデルを探索する場合、モデルのパフォーマンスメトリックと残差プロットを使用して、これらの項をモデルに含めることの影響を調査します。

モデル要約表は、トレーニングR2およびテストR2 が共に約 91%であることを示している。検定二乗平均平方根誤差(RMSE)は、データ値が適合値からどれだけ離れているかを表し、約4です。RMSEは疾患スコアの規模が小さいため、研究者は、少数の質問が患者の優先順位付けに役立つ十分な情報であると楽観視しています。

異常な情報の適合と診断の表には、提案された回帰式にうまく従わないデータポイントが示されています。これらは、完全なデータセットからの適合と診断です。

文字Rは、残差が大きい点を示します。異常なデータ点を調べて、モデルが良好に適合しない予測変数の値を確認します。文字Xは、レバレッジの高いポイントを示します。レバレッジの高いポイントは、他のデータセットと比較して異常な予測変数の組み合わせを持ちます。

大きな残差と高いレバレッジポイントは、潜在的に影響力のあるポイントです。たとえば、影響力のある点を含める、または除外することにより、係数が統計的に有意かどうかが変わることがあります。影響力のある観測値が見つかった場合は、その観測値がデータ入力エラーか測定エラーかを判断します。観測値が誤差でない場合は、観測値が結果にどの程度影響するかを判断します。研究者がモデルをさらに探索すると、観測値の有無にかかわらずモデルを適合させます。次に、係数、p値、R2、およびその他のモデル情報を比較します。影響力のある観測値を削除したときにモデルが大幅に変化する場合は、モデルをさらに調べて、モデルを誤って指定したかどうかを判断します。問題を解決するには、さらに多くのデータを集めることが必要な場合もあります。

適合された疾患スコアと実際の疾患スコアの散布図は、トレーニングデータとテストデータの両方の適合値と実際の値の関係を示しています。ポイントは y=x の参照線にほぼ近くあり、モデルがデータによく適合していることを示しています。

方法

回帰モデルを線形項と2次項で適合させます。
平方損失関数を使用して6 TreeNet® 回帰モデルを適合させます。
1546のトレーニングデータサイズと同じブートストラップサンプルサイズで3 Random Forests® 回帰モデルを適合させます。
最適なCART®回帰モデルを適合させます。
最適なMARS®回帰モデルを適合させます。
5分割のクロス評価から最大R二乗を持つモデルを選択します。
行の合計数: 1546
回帰モデルに使用される行: 1546
ツリーベースのモデルに使用される行: 1546

応答情報

平均標準偏差最小Q1中央値Q3最大
31.011014.0820019.0530.9540.4876.19
タイプ内のベストモデルR二乗(%)平均絶対偏差
重回帰*91.233.1011
MARS®91.053.1604
TreeNet®90.903.1613
Random Forests®89.933.3248
CART®86.113.9369
*最大R-二乗でモデルの全種類で最高のモデル。最高のモデル出力は、次のとおりです。

ベスト重回帰モデルの検証を伴う項の前方選択

選択された項: 今の症状の数, 痰の高生産, 息切れの激しさ, 激しい頭痛, 重度の睡眠障害, 一般的に非常に悪い感じ, 通常の活動の制限, 今の症状の数*息切れの激しさ, 今の症状の数
     *激しい胸痛, 息切れの激しさ*重度の睡眠障害, 一般的に非常に悪い感じ*通常の活動の制限
 

回帰式

病気の重症度スコア=1.241 + 2.5386 今の症状の数 + 0.0 痰の高生産_0 + 3.900 痰の高生産_1 + 0.0 息切れの激しさ_0 + 0.94 息切れの激し
さ_1 + 0.0 激しい頭痛_0 + 4.094 激しい頭痛_1 + 0.0 重度の睡眠障害_0 + 3.884 重度の睡眠障害_1 + 0.0 一般的に非常に
悪い感じ_0 + 3.473 一般的に非常に悪い感じ_1 + 0.0 通常の活動の制限_0 + 3.140 通常の活動の制限_1 + 0.0 今の症状の数*息切れ
の激しさ_0 + 0.373 今の症状の数*息切れの激しさ_1 + 0.0 今の症状の数*激しい胸痛_0 + 0.4765 今の症状の数*激しい胸痛_1
+ 0.0 息切れの激しさ*重度の睡眠障害_0 0 + 0.0 息切れの激しさ*重度の睡眠障害_0 1 + 0.0 息切れの激しさ*重度の睡眠障害_1 0
+ 1.337 息切れの激しさ*重度の睡眠障害_1 1 + 0.0 一般的に非常に悪い感じ*通常の活動の制限_0 0 + 0.0 一般的に非常に悪い感じ*通常の活
動の制限_0 1 + 0.0 一般的に非常に悪い感じ*通常の活動の制限_1 0 + 1.372 一般的に非常に悪い感じ*通常の活動の制限_1 1

係数

係数係数の標準誤差t値p値VIF
定数1.2410.3853.220.001 
今の症状の数2.53860.059342.810.0001.95
痰の高生産         
  13.9000.22517.350.0001.10
息切れの激しさ         
  10.941.180.800.42423.23
激しい頭痛         
  14.0940.25316.180.0001.25
重度の睡眠障害         
  13.8840.28413.690.0001.73
一般的に非常に悪い感じ         
  13.4730.34310.140.0002.62
通常の活動の制限         
  13.1400.4247.400.0003.98
今の症状の数*息切れの激しさ         
  10.3730.1332.810.00526.80
今の症状の数*激しい胸痛         
  10.47650.031215.260.0001.25
息切れの激しさ*重度の睡眠障害         
  1 11.3370.5282.530.0113.26
一般的に非常に悪い感じ*通常の活動の制限         
  1 11.3720.5272.610.0095.73

モデル要約

統計量トレーニングテスト
R二乗91.35%91.23%
二乗平均平方根誤差(RMSE)4.15624.1679
平均平方誤差 (MSE)17.274117.3714
平均絶対偏差 (MAD)3.07983.1011
     
R二乗 (調整済み)91.29% 
R二乗 (予測)  91.19%

分散分析

要因自由度調整平方和調整平均平方F値p値
回帰1127988125443.71472.940.000
  今の症状の数13165531654.81832.510.000
  痰の高生産152025201.8301.140.000
  息切れの激しさ11111.10.640.424
  激しい頭痛145204520.0261.660.000
  重度の睡眠障害132393238.8187.500.000
  一般的に非常に悪い感じ117761775.6102.790.000
  通常の活動の制限1945945.454.730.000
  今の症状の数*息切れの激しさ1136136.47.900.005
  今の症状の数*激しい胸痛140234023.4232.920.000
  息切れの激しさ*重度の睡眠障害1111110.76.410.011
  一般的に非常に悪い感じ*通常の活動の制限1117117.36.790.009
誤差15342649817.3   
  不適合484924719.11.160.025
  純誤差10501725116.4   
合計1545306379     

異常な観測値の適合値と診断

観測値病気の重症度スコア適合値残差標準化残差
1166.67056.7579.9132.40R 
1352.38041.17711.2032.71R 
1659.52048.60410.9162.64R 
3350.00060.657-10.657-2.57R 
4864.29055.4168.8742.14R 
5261.90053.3698.5312.06R 
5450.00041.5988.4022.03R 
5650.00058.328-8.328-2.02R 
5838.10046.485-8.385-2.03R 
10659.52049.02810.4922.53R 
11459.52047.16012.3602.99R 
12869.05058.32810.7222.59R 
14450.00040.4719.5292.30R 
17347.62056.757-9.137-2.21R 
17442.86034.0008.8602.14R 
19142.86052.051-9.191-2.23R 
19859.52048.41111.1092.68R 
20273.81064.0469.7642.36R 
20547.62037.55910.0612.43R 
21335.71034.9700.7400.18  X
21716.67019.053-2.383-0.58  X
23947.62058.328-10.708-2.59R 
24171.43066.3115.1191.25  X
24314.29024.088-9.798-2.36R 
30450.00041.1308.8702.14R 
30714.29010.9203.3700.83  X
35264.29051.25413.0363.15R 
36938.10049.275-11.175-2.70R 
39116.67032.073-15.403-3.72R 
3920.00011.395-11.395-2.75R 
3950.00013.934-13.934-3.36R 
42440.48052.504-12.024-2.90R 
42547.62034.59713.0233.16R 
47447.62038.5389.0822.21R 
47940.48030.8969.5842.31R 
48916.67025.023-8.353-2.02R 
49130.95024.3486.6021.61  X
49357.14044.33912.8013.09R 
49535.71025.48010.2302.47R 
50938.10026.69611.4042.77R 
52073.81058.32815.4823.75R 
53738.10028.3589.7422.35R 
55014.29024.458-10.168-2.45R 
58342.86053.369-10.509-2.54R 
69419.05021.817-2.767-0.68  X
72059.52065.602-6.082-1.49  X
72240.48032.0668.4142.03R 
80230.95042.586-11.636-2.81R 
80530.95039.868-8.918-2.16R 
81440.48032.0738.4072.03R 
82361.90048.14813.7523.33R 
83333.33044.054-10.724-2.60R 
85938.10049.275-11.175-2.70R 
86847.62037.7899.8312.38R 
89130.95019.94511.0052.66R 
89328.57048.860-20.290-4.92R 
90545.24055.416-10.176-2.46R 
92454.76056.019-1.259-0.31  X
97764.29053.10711.1832.72R 
98357.14047.6839.4572.29R 
98850.00044.5015.4991.34  X
99373.81064.0469.7642.36R 
99733.33024.4588.8722.14R 
100354.76045.1289.6322.33R 
102533.33047.705-14.375-3.49R 
105957.14048.6638.4772.05R 
110547.62037.31910.3012.49R 
115059.52044.33915.1813.67R 
116052.38040.05112.3292.97R 
116330.95041.598-10.648-2.57R 
116569.05056.75712.2932.97R 
116959.52049.27510.2452.48R 
119842.86051.516-8.656-2.09R 
120776.19063.53412.6563.07R 
121326.19040.278-14.088-3.41R 
122840.48050.571-10.091-2.45R 
123559.52050.1759.3452.26R 
123757.14048.2398.9012.15R 
124664.29055.4168.8742.14R 
126245.24035.9579.2832.24R 
126357.14043.95113.1893.18R 
128233.33036.011-2.681-0.65  X
128445.24056.564-11.324-2.74R 
128547.62060.657-13.037-3.15R 
130326.19036.567-10.377-2.51R 
130535.71045.499-9.789-2.36R 
131130.95040.089-9.139-2.21R 
134526.19025.1051.0850.26  X
135342.86053.175-10.315-2.49R 
136526.19017.8348.3562.01R 
137747.62035.22212.3983.00R 
138069.05055.41613.6343.29R 
138450.00038.49611.5042.78R 
141426.19035.345-9.155-2.21R 
150261.90050.19511.7052.84R 
152638.10025.45012.6503.05R 
153514.29024.088-9.798-2.36R 
154438.10029.1658.9352.16R 
154850.00040.4559.5452.31R 
156538.10042.846-4.746-1.16  X
158266.67055.43711.2332.72R 
R  大きな残差
X  異常なX

代替モデルを選択

研究者は、最良のTreeNet® モデルの結果を調べることにしました。

  1. の結果 ベストモデルの検出(連続応答)で、 を選択します 代替モデルの選択
  2. モデルタイプTreeNet®を選択します。
  3. 既存のモデルを選択する、R2の最良の値を持つ6番目のモデルを選択します。
  4. 結果を表示をクリックします。

結果を解釈する

この分析では 300 本の木が生え、最適な木の数は 63 本です。このモデルでは、学習率 0.1、サブサンプルの割合 0.7 を使用します。ターミナルノードの最大数は 6 です。

方法

損失関数二乗誤差
木の最適な数の選択基準最大R二乗
モデル検証5分割交差検証
学習率0.1
サブサンプルの割合0.7
木あたりの最大終端ノード6
最小終端節サイズ3
ノード分岐に対して選択された予測変数の数予測変数の合計数 = 8
使用中の行1546
未使用の行70

応答情報

平均標準偏差最小Q1中央値Q3最大
31.011014.0820019.0530.9540.4876.19

R二乗対木の数プロットは、増加した木の数に対する曲線全体を示します。テストデータの最適値は、木の数が63の場合、約91%です。

モデル要約

合計予測変数8
重要な予測変数8
増加した木の数300
最適な木の数63
統計量トレーニングテスト
R二乗91.93%90.90%
二乗平均平方根誤差(RMSE)3.99924.2471
平均平方誤差 (MSE)15.993218.0375
平均絶対偏差 (MAD)2.99433.1613
平均絶対パーセント誤差(MAPE)0.10880.1130

モデル要約表は、木の数が63のときのR2値が、学習データで約92 %、テストデータで約91%であることを示しています。

相対変数重要度グラフは、木のシーケンスに対して予測変数で分岐が行われたときに、モデルの改善に対する予測変数の効果の順に予測変数をプロットします。最も重要な予測変数は今の症状の数です。最上位の予測変数 今の症状の数の寄与度が 100% の場合、次に重要な変数 通常の活動の制限の寄与度は 44.4% になります。これは、この回帰モデルと同じくらい 今の症状の数 44.4%重要であることを意味します 通常の活動の制限

適合された疾患スコアと実際の疾患スコアの散布図は、トレーニングデータとテストデータの両方の適合値と実際の値の関係を示しています。ポイントは y=x の参照線にほぼ近くあり、モデルがデータによく適合していることを示しています。

偏依存プロットを使用して、重要な変数または変数のペアが適合応答値にどのように影響するかについての洞察を得ます。部分依存プロットは、応答と変数の関係が線形、単調、またはより複雑であるかどうかを示します。

最初のプロットは、病気のスコアと患者の現在の症状の数との関係を示しています。個々のデータポイントにカーソルを合わせると、特定のx値とy値が表示されます。たとえば、グラフの右側の最高点は、患者に13の症状があり、適合疾患スコアが約45の場合です。

2番目のプロットは、患者が通常の活動の制限を報告すると、適合疾患スコアが約5ポイント増加することを示しています。

3番目のプロットは、患者が一般的に非常に気分が悪いと報告した場合、適合疾患スコアが約5ポイント増加することを示しています。

4番目のプロットは、患者が重度の息切れを報告した場合に、適合疾患スコアが約4ポイント増加することを示しています。

最後のプロットは、多くの症状に対する適合疾患スコアが、患者が通常の活動にも制限があるかどうかにどのように依存するかを示しています。同じ数の症状について、通常の活動の制限も報告している患者は、より高い適合疾患スコアを持っています。