TreeNet® 分類による主要な予測変数を検出の例

このコマンドは、予測分析モジュールで使用できます。モジュールをアクティブにする方法については、ここをクリックしてください

研究チームは、焼きプレッツェルの品質特性に影響を与える因子に関するデータを収集します。変数には、ミックスツールなどのプロセス設定 と、小麦粉タンパク質などの粉のプロパティが含まれます。

データの最初の調査の一環として、研究者は主要な予測変数を検出重要でない予測変数を順に除去して主要な予測変数を特定することで、モデルの比較に使用することを決定します。研究者は、品質特性に大きな影響を与える主要な予測変数を特定し、品質特性と主要な予測変数の関係に関するより多くの洞察を得たいと考えています。

  1. サンプルデータ、プレッツェルの受容性.MTWを開きます。
  2. 予測分析モジュール > TreeNet®分類 > 主要な予測変数を検出を選択します。
  3. ドロップダウンリストから2値応答を選択します。
  4. 応答受け入れ可能なプレッツェルを入力します。
  5. 応答事象で、プレッツェルが許容可能であることを示す場合は 1 を選択します。
  6. 連続予測変数に、小麦粉タンパク質-かさ密度を入力します。
  7. カテゴリ予測変数に、ミックスツール-窯法を入力します。
  8. 主要な予測変数を検出をクリックします。
  9. 消去ステップの最大数に、29と入力します。
  10. 各ダイアログボックスのOKをクリックします。

結果を解釈する

この分析では、28のモデルを比較します。最初のモデルでは泡の安定性予測変数の重要度スコアが0であるために、ステップ数が最大ステップ数よりも小さくなります。つまりアルゴリズムは最初のステップで2つの変数を削除します。モデル評価表のモデル列のアスタリスクは、平均対数尤度統計量の最小値を持つモデルがモデル23であることを示しています。モデル評価表に続く結果は、モデル23に対するものです。

モデル23は平均対数尤度統計量の最小値を持ちますが、他のモデルも同様の値を持ちます。チームは、代替モデルを選択をクリックして、モデル評価表から他のモデルの結果を生成できます。

モデル23の結果で、平均対数尤度対木の数プロットは、最適な木の数が分析の木の数に近いことを示しています。より良いモデルを識別するためにハイパーパラメーターを調整するをクリックすると、木の数を増やしたり、他のハイパーパラメーターに加えた変更によってモデルのパフォーマンスが向上するかどうかを確認できます。

相対変数重要度グラフは、木のシーケンスに対して予測変数で分岐が行われたときに、モデルの改善に対する予測変数の効果の順に予測変数をプロットします。最も重要な予測変数はミックスタイムです。最上の予測変数であるミックスタイムの寄与度が100%の場合、次に重要な変数である窯温度は93.9%の寄与度を有します。これは、窯温度が、Bのミックスタイム93.9%重要であることを意味します。

部分依存プロットを使用して、重要な変数または変数のペアが予測応答に与える影響を把握します。1/2 ログ スケールの応答値は、モデルからの予測です。部分依存プロットは、応答と変数の関係が線形、単調、またはより複雑であるかどうかを示します。

1つの予測変数の部分依存プロットは、ミックスタイム窯温度および 焼く時間に対する中央値が、許容可能なプレッツェルのオッズを増やすことを示しています。乾燥した時間の中央値は許容可能なプレッツェルのオッズを減少させます。研究者はプロットする予測変数をさらに多く選択するをクリックして、他の変数のプロットを作成ができます。

ミックスタイムおよび窯温度の2つの予測変数の部分依存プロットは、2つの変数と応答との間のより複雑な関係を示しています。ミックスタイムおよび窯温度の中央値が許容可能なプレッツェルのオッズを増加させる一方で、プロットは、両方の変数が中央値にあるときに最良のオッズが発生することを示しています。研究者は、プロットする予測変数をさらに多く選択するをクリックして 他の変数ペアのプロットを生成できます。

TreeNet® 分類: 受け入れ可能なプレッツェ 対 小麦粉タンパク質, 水, ミックスタイム, 休憩時間, 焼く時間, 乾燥した時間, ...

方法 木の最適な数の選択基準: 最大対数尤度 モデル検証 70/30%トレーニング/テストセット 学習率 0.05 サブサンプルの選択方法 完全にランダム サブサンプルの割合 0.5 木あたりの最大終端ノード 6 最小終端節サイズ 3 ノード分岐に対して選択された予測変数の数 予測変数の合計数 = 29 使用中の行 5000
二項応答情報 トレーニング テスト 変数 クラス 計数 % 計数 % 受け入れ可能なプレッツェル 1 (事象) 2160 61.82 943 62.62 0 1334 38.18 563 37.38 すべて 3494 100.00 1506 100.00

1つの予測変数の部分的依存プロット

プロットする他の予測変数を選択します...

2 つの予測変数部分依存プロット

プロットする他の予測変数を選択します...

TreeNet®分類 - 主要予測変数の検出: 受け入れ可能なプレッツェ 対 小麦粉タンパク質, 水, ミックスタイム, 休憩時間, 焼く時間, ...

予測変数の削除

重要でない予測変数を削除するモデル選択 テスト モデル 最適な木の数 負の対数尤度の平均 予測変数の数 削除された予測変数 1 268 0.273936 29 なし 2 268 0.274186 27 泡の安定性, かさ密度 3 234 0.273843 26 最も少ないゲル化濃度 4 233 0.274350 25 オーブンモード2 5 232 0.274943 24 窯法 6 273 0.275553 23 オーブンモード1 7 244 0.274811 22 ミックススピード 8 268 0.274258 21 オーブンモード3 9 272 0.274185 20 安静表面 10 232 0.274077 19 焼き温度3 11 287 0.273598 18 ミックスツール 12 227 0.274358 17 焼き温度1 13 276 0.275374 16 休憩時間 14 272 0.276082 15 水 15 268 0.275595 14 苛性濃度 16 268 0.277810 13 膨潤能力 17 253 0.276436 12 乳化安定性 18 231 0.276159 11 エマルジョン活性 19 268 0.273537 10 吸水能力 20 260 0.273455 9 吸油能力 21 299 0.272848 8 小麦粉タンパク質 22 278 0.272629 7 泡容量 23* 299 0.267184 6 小麦粉の大きさ 24 297 0.288621 5 焼き温度2 25 234 0.330342 4 乾燥した時間 26 290 0.305993 3 ゼラチン化温度 27 245 0.534345 2 焼く時間 28 146 0.599837 1 窯温度 アルゴリズムは、各ステップで1つの予測変数と0の重要度を持つ予測変数を削除しました。 * 選択したモデルに負の対数尤度の最小平均があります。選択したモデルの出力は次のとおりです。

1つの予測変数の部分的依存プロット

プロットする他の予測変数を選択します...

2 つの予測変数部分依存プロット

プロットする他の予測変数を選択します...

TreeNet® 分類: 受け入れ可能なプレッツェル 対 ミックスタイム, 焼く時間, 乾燥した時間, 焼き温度2, 窯温度, ゼラチン化温度

モデル要約 合計予測変数 6 重要な予測変数 6 増加した木の数 300 最適な木の数 299 統計量 トレーニング テスト 負の対数尤度の平均 0.2418 0.2672 ROC曲線下面積 0.9661 0.9412 95%信頼区間 (0.9608, 0.9713) (0.9295, 0.9529) リフト 1.6176 1.5970 誤分類率 0.0970 0.0963

1つの予測変数の部分的依存プロット

プロットする他の予測変数を選択します...

2 つの予測変数部分依存プロット

プロットする他の予測変数を選択します...

TreeNet® 分類: 受け入れ可能なプレッツェル 対 ミックスタイム, 焼く時間, 乾燥した時間, 焼き温度2, 窯温度, ゼラチン化温度

混同行列 予測クラス(トレーニング) 予測クラス(テスト) 実クラス 計数 1 0 %正 計数 1 0 %正 1 (事象) 2160 1942 218 89.91 943 846 97 89.71 0 1334 121 1213 90.93 563 48 515 91.47 すべて 3494 2063 1431 90.30 1506 894 612 90.37 行の事象確率が0.5を超える場合、事象クラスに行を割り当てます。
統計量 トレーニング(%) テスト(%) 真陽性率(感度または検出力) 89.91 89.71 偽陽性率(第一種過誤) 9.07 8.53 偽陰性率(第二種過誤) 10.09 10.29 真陰性率(特異度) 90.93 91.47
誤分類 トレーニング テスト 実クラス 計数 誤分類されました %誤差 計数 誤分類されました %誤差 1 (事象) 2160 218 10.09 943 97 10.29 0 1334 121 9.07 563 48 8.53 すべて 3494 339 9.70 1506 145 9.63 行の事象確率が0.5を超える場合、事象クラスに行を割り当てます。

1つの予測変数の部分的依存プロット

プロットする他の予測変数を選択します...

2 つの予測変数部分依存プロット

プロットする他の予測変数を選択します...