主要な予測変数を検出 for の例 TreeNet® 回帰

研究チームは、射出成形プロセスのデータを使用して、プラスチック部品の強度タイプを最大化する機械の設定を研究したいと考えています。変数には、機械の制御、様々なプラスチック製法、射出成形機が含まれます。

データの最初の調査の一環として、研究者はを使用して重要でない予測変数を順に除去して主要な予測変数を特定することで、モデルを比較する主要な予測変数を検出ことを決めました。研究者は、応答に大きな影響を与える主要な予測変数を特定し、応答と主要な予測変数の関係に関するより多くの洞察を得たいと考えています。

  1. 注射プロセス.MTWサンプルデータを開きます。
  2. 予測分析モジュール > TreeNet®回帰 > 主要な予測変数を検出 を選択します。
  3. 応答にを入力します強さ
  4. 連続予測変数測定時の温度を入力します 射出圧力
  5. カテゴリ予測変数機械公式を入力します。
  6. OKをクリックします。

結果を解釈する

この分析では、20のモデルを比較します。モデル評価表のモデル列のアスタリスクは、交差検証されたR2統計量の最小値を持つモデルがモデル16であることを示しています。モデル16には5つの重要な予測変数が含まれています。モデル評価表に続く結果は、モデル16に対するものです。

モデル16は交差検証されたR2統計量の最大値を持ちますが、他のモデルも同様の値を持ちます。チームは、代替モデルの選択をクリックして、モデル評価表から他のモデルの結果を生成できます。

モデル16の結果で、R二乗対木の数プロットは、最適な木の数が分析の木の数と同じ300であることを示しています。ハイパーパラメータの調整をクリックすると、木の数を増やしたり、他のハイパーパラメーターに加えた変更によってモデルのパフォーマンスが向上するかどうかを確認できます。

相対変数重要度グラフは、木のシーケンスに対して予測変数で分岐が行われたときに、モデルの改善に対する予測変数の効果の順に予測変数をプロットします。最も重要な予測変数は金型温度です。最上の予測変数である金型温度の重要度が100%の場合、次に重要な変数である機械は58.7%の寄与度を有します。これは、射出する機械は金型内部の温度と58.7%同じくらい重要であることを意味します。

部分依存プロットを使用して、重要な変数または変数のペアが予測応答の推定事象確率にどのように影響するかを把握します。部分依存プロットは、応答と変数の関係が線形、単調、またはより複雑であるかどうかを示します。

1つの予測変数の部分的依存性プロットは、金型温度、射出圧力、冷却温度のすべてが強度と正の関係を持つことを示しています。機械のプロットは機械間の違いを示し、機械1は平均で最も弱い部品を製作し、機械4は平均して最も強い部品を製作します。チームは、金型温度と機械がデータ内で最も強い交互作用を持っていることを発見しこれらの変数が強度に与える影響をさらに調査するために2つの予測変数の部分依存プロットを調べます。チームは、結果を選択して 一予測変数プロット 、射出温度などの他の変数のプロットを生成できます。

金型温度と機械の2つの予測変数の部分依存プロットトは、機械に対する平均強度の差に関するいくつかの洞察を提供します。理由の1つとして、機械1からのデータには、他の機械ほど高い金型温度での観測値がそれほど多く含まれていません。チームは、他の設定が同じである場合、機械が異なる強度のものを生産する他の理由を探すことに決めました。チームは結果をクリックして 二予測変数プロット 、他の変数ペアのプロットを作成できます。

方法

損失関数二乗誤差
木の最適な数の選択基準最大R二乗
モデル検証3分割交差検証
学習率0.01408
サブサンプルの割合0.5
木あたりの最大終端ノード6
最小終端節サイズ3
ノード分岐に対して選択された予測変数の数予測変数の合計数 = 21
使用中の行1408

応答情報

平均標準偏差最小Q1中央値Q3最大
485.247318.61141.2082301.099398.924562.4492569.04

重要でない予測変数を削除するモデル選択

テスト
モデル最適な木の数R二乗(%)予測変数の数削除された予測変数
130089.3221なし
230089.3419プラスチック流量, ポジションの変更
330089.3918乾燥温度
430089.4617溶融温度ゾーン2
530089.5116プラスチック温度
630089.5015公式
730089.5914圧力を保持する
830089.5713スクリュークッション
930089.6912溶融温度ゾーン4
1030089.7011背圧
1130089.8610溶融温度ゾーン1
1230089.909乾燥時間
1330089.928測定時の温度
1430090.067溶融温度ゾーン5
1530090.166溶融温度ゾーン3
16*30090.235ねじ回転速度
1730089.964射出温度
1829779.373冷却温度
1924466.642射出圧力
2016446.191機械
アルゴリズムは、各ステップで1つの予測変数と0の重要度を持つ予測変数を削除しました。
* 選択したモデルに最大R二乗があります。選択したモデルの出力は次のとおりです。

モデル要約

合計予測変数5
重要な予測変数5
増加した木の数300
最適な木の数300
統計量トレーニングテスト
R二乗92.23%90.23%
二乗平均平方根誤差(RMSE)88.804999.5673
平均平方誤差 (MSE)7886.31529913.6420
平均絶対偏差 (MAD)68.923174.4113
平均絶対パーセント誤差(MAPE)0.20830.2175