TreeNet® 分類による主要な予測変数を検出の例

このコマンドは、予測分析モジュールで使用できます。モジュールをアクティブにする方法については、ここをクリックしてください

研究チームは、焼きプレッツェルの品質特性に影響を与える因子に関するデータを収集します。変数には、ミックスツールなどのプロセス設定 と、小麦粉タンパク質などの粉のプロパティが含まれます。

データの最初の調査の一環として、研究者は主要な予測変数を検出重要でない予測変数を順に除去して主要な予測変数を特定することで、モデルの比較に使用することを決定します。研究者は、品質特性に大きな影響を与える主要な予測変数を特定し、品質特性と主要な予測変数の関係に関するより多くの洞察を得たいと考えています。

  1. サンプルデータ、プレッツェルの受容性.MTWを開きます。
  2. 予測分析モジュール > TreeNet®分類 > 主要な予測変数を検出を選択します。
  3. ドロップダウンリストから2値応答を選択します。
  4. 応答受け入れ可能なプレッツェルを入力します。
  5. 応答事象で、プレッツェルが許容可能であることを示す場合は 1 を選択します。
  6. 連続予測変数に、小麦粉タンパク質-かさ密度を入力します。
  7. カテゴリ予測変数に、ミックスツール-窯法を入力します。
  8. 主要な予測変数を検出をクリックします。
  9. 消去ステップの最大数に、29と入力します。
  10. 各ダイアログボックスのOKをクリックします。

結果を解釈する

この分析では、28のモデルを比較します。最初のモデルでは泡の安定性予測変数の重要度スコアが0であるために、ステップ数が最大ステップ数よりも小さくなります。つまりアルゴリズムは最初のステップで2つの変数を削除します。モデル評価表のモデル列のアスタリスクは、平均対数尤度統計量の最小値を持つモデルがモデル23であることを示しています。モデル評価表に続く結果は、モデル23に対するものです。

モデル23は平均対数尤度統計量の最小値を持ちますが、他のモデルも同様の値を持ちます。チームは、代替モデルを選択をクリックして、モデル評価表から他のモデルの結果を生成できます。

モデル23の結果で、平均対数尤度対木の数プロットは、最適な木の数が分析の木の数に近いことを示しています。より良いモデルを識別するためにハイパーパラメーターを調整するをクリックすると、木の数を増やしたり、他のハイパーパラメーターに加えた変更によってモデルのパフォーマンスが向上するかどうかを確認できます。

相対変数重要度グラフは、木のシーケンスに対して予測変数で分岐が行われたときに、モデルの改善に対する予測変数の効果の順に予測変数をプロットします。最も重要な予測変数はミックスタイムです。最上の予測変数であるミックスタイムの寄与度が100%の場合、次に重要な変数である窯温度は93.9%の寄与度を有します。これは、窯温度が、Bのミックスタイム93.9%重要であることを意味します。

部分依存プロットを使用して、重要な変数または変数のペアが予測応答に与える影響を把握します。1/2 ログ スケールの応答値は、モデルからの予測です。部分依存プロットは、応答と変数の関係が線形、単調、またはより複雑であるかどうかを示します。

1つの予測変数の部分依存プロットは、ミックスタイム窯温度および 焼く時間に対する中央値が、許容可能なプレッツェルのオッズを増やすことを示しています。乾燥した時間の中央値は許容可能なプレッツェルのオッズを減少させます。研究者はプロットする予測変数をさらに多く選択するをクリックして、他の変数のプロットを作成ができます。

ミックスタイムおよび窯温度の2つの予測変数の部分依存プロットは、2つの変数と応答との間のより複雑な関係を示しています。ミックスタイムおよび窯温度の中央値が許容可能なプレッツェルのオッズを増加させる一方で、プロットは、両方の変数が中央値にあるときに最良のオッズが発生することを示しています。研究者は、プロットする予測変数をさらに多く選択するをクリックして 他の変数ペアのプロットを生成できます。

方法

木の最適な数の選択基準最大対数尤度
モデル検証70/30%トレーニング/テストセット
学習率0.05
サブサンプルの選択方法完全にランダム
    サブサンプルの割合0.5
木あたりの最大終端ノード6
最小終端節サイズ3
ノード分岐に対して選択された予測変数の数予測変数の合計数 = 29
使用中の行5000

二項応答情報



トレーニングテスト
変数クラス計数%計数%
受け入れ可能なプレッツェル1 (事象)216061.8294362.62
  0133438.1856337.38
  すべて3494100.001506100.00

重要でない予測変数を削除するモデル選択

テスト
モデル最適な木の数負の対数尤度の平均予測変数の数削除された予測変数
12680.27393629なし
22680.27418627泡の安定性, かさ密度
32340.27384326最も少ないゲル化濃度
42330.27435025オーブンモード2
52320.27494324窯法
62730.27555323オーブンモード1
72440.27481122ミックススピード
82680.27425821オーブンモード3
92720.27418520安静表面
102320.27407719焼き温度3
112870.27359818ミックスツール
122270.27435817焼き温度1
132760.27537416休憩時間
142720.27608215
152680.27559514苛性濃度
162680.27781013膨潤能力
172530.27643612乳化安定性
182310.27615911エマルジョン活性
192680.27353710吸水能力
202600.2734559吸油能力
212990.2728488小麦粉タンパク質
222780.2726297泡容量
23*2990.2671846小麦粉の大きさ
242970.2886215焼き温度2
252340.3303424乾燥した時間
262900.3059933ゼラチン化温度
272450.5343452焼く時間
281460.5998371窯温度
アルゴリズムは、各ステップで1つの予測変数と0の重要度を持つ予測変数を削除しました。
* 選択したモデルに負の対数尤度の最小平均があります。選択したモデルの出力は次のとおりです。

モデル要約

合計予測変数6
重要な予測変数6
増加した木の数300
最適な木の数299
統計量トレーニングテスト
負の対数尤度の平均0.24180.2672
ROC曲線下面積0.96610.9412
        95%信頼区間(0.9608, 0.9713)(0.9295, 0.9529)
リフト1.61761.5970
誤分類率0.09700.0963

混同行列


予測クラス(トレーニング)予測クラス(テスト)
実クラス計数10%正計数10%正
1 (事象)2160194221889.919438469789.71
01334121121390.935634851591.47
すべて34942063143190.30150689461290.37
行の事象確率が0.5を超える場合、事象クラスに行を割り当てます。
     
統計量トレーニング(%)テスト(%)
真陽性率(感度または検出力)89.9189.71
偽陽性率(第一種過誤)9.078.53
偽陰性率(第二種過誤)10.0910.29
真陰性率(特異度)90.9391.47

誤分類


トレーニングテスト
実クラス計数誤分類されました%誤差計数誤分類されました%誤差
1 (事象)216021810.099439710.29
013341219.07563488.53
すべて34943399.7015061459.63
行の事象確率が0.5を超える場合、事象クラスに行を割り当てます。