最適なモデルを決定するための基準を選択し、さまざまなモデルタイプのオプションを指定します。乱数ジェネレーターのベースを指定することもできます。

ベストモデルを選択するための基準

基準を選択して、最適なモデルのタイプを決定します。いくつかの方法の結果を比較して、応用に最適な選択肢を決定できます。
  • 最大R二乗: 既定の方法は、多くのアプリケーションで適切に機能します。この方法では、平方誤差の合計が最小化されます。
  • 最小平均絶対偏差: このメソッドは、誤差の絶対値の合計を最小化します。

TreeNet®回帰モデルを適合するために切り替え値Kを指定してHuber損失関数を使用します: K =

フーバー関数は、最大R2乗関数と最小平均絶対偏差関数のハイブリッドです。フーバー関数では、切り替え値を指定します。損失関数は、2乗誤差として開始されます。損失関数は、値が切り替え値より小さい限り、2乗誤差のままです。2乗誤差が切り替え値を超える場合、損失関数は絶対偏差になります。絶対偏差が切り替え値より小さくなると、損失関数は再び2乗誤差になります。

TreeNet®回帰モデルのオプション

TreeNet® モデルのオプションを指定します。

木の数
1~5000の値を入力して構築する木の数を設定します。300のデフォルト値は、有用な初期結果を提供します。
最初に選択したモデルが指定した木の数に近い場合は、より良いモデルを探すために木の数を増やすことを検討します。
木あたりの最大ターミナルノード数および木の最大深度
また、木のサイズを制限することもできます。木の大きさを制限するには次のいずれかを選択します。
  • 木あたりの最大ターミナルノード数: 木のターミナルノードの最大数を表す2~2000の値を入力します。通常、デフォルト値6は、計算速度と変数間の交互作用の調査のバランスを最適化します。2の値は交互作用の調査を除外します。
  • 木の最大深度: 2~1000の値を入力して木の最大深さを表します。ルートノードは深さ1に対応します。デフォルトの深さは4です。多くのアプリケーションでは、4から6までの深さで、合理的に良いモデルが得られます。
学習率
最大 10 個の学習率を指定します。
デフォルトでは、分析は 3 つの学習率を評価します。分析は通常、Kの3つの値でハイパーパラメータを調整します。0.001, 0.1, および max(0.01, 0.1 * min(1.0, N/10000)) (N = 応答列の行数)。max(0.01, 0.1 * min(1.0, N/10000)) = 0.001 または 0.1 の場合、分析はハイパーパラメータを 0.001、0.01、および 0.1 で調整します。
サブサンプル割合
最大 10 個のサブサンプル分数を指定します。各反復で、プロシージャは、ツリーを構築するためにデータのこの部分を含む異なるサブセットを選択します。サブサンプリングはオーバーフィットから保護します。サブサンプル分数は、0より大きく1以下である必要があります。デフォルト値は 0.5 と 0.7 です。
ノード分割の予測変数の数
各ノード分割について考慮する予測変数の数を指定します。通常、すべてのノードですべての予測変数を考慮すると、分析が適切に機能します。ただし、いくつかのデータセットは、分析が各ノードで予測変数の異なるランダムなサブセットを考慮したときに、モデルパフォーマンスの向上につながる予測変数間の関連性を持っています。このような場合、予測変数の総数の平方根は典型的な開始点です。平方根を使用してモデルを表示した後、合計に対するパーセンテージを持つ予測変数の数を増やすか、より少ない数を指定するかを検討できます。
  • 予測変数の総数: ノードの分割にすべての予測変数を使用する場合に選択します。
  • 予測変数の総数の平方根: ノードの分割に対して予測変数の総数の平方根を使用する場合に選択します。
  • 予測変数の総数のKパーセント、K =: ノードの分割に予測変数のパーセンテージを使用する場合に選択します。

Random Forests®回帰モデルのオプション

Random Forests® モデルのオプションを指定します。

木を増加させるブートストラップサンプルの数
値を入力して、ブートストラップサンプルの数と解析によって生成される木の数を決定します。3から3000までの値を入力します。
トレーニングデータサイズより小さいブートストラップのサンプルサイズを指定する
ブートストラップのサンプルサイズを設定する値を選択して入力します。%5以上の値を入力してください。トレーニングデータサイズよりも大きなサイズを入力すると、トレーニングデータサイズと同じサンプルサイズが使用されます。
ノード分割の予測変数の数
各ノード分割について考慮する予測変数の数を指定します。通常、予測変数の総数の平方根を考慮すると、分析が適切に機能します。ただし、いくつかのデータセットは、分析が各ノードの予測変数がより多い、またはより少ない場合を考慮したときに、モデルパフォーマンスの向上につながる予測変数間の関連性を持っています。平方根を使用してモデルを表示した後、予測変数の数を変更してモデルのパフォーマンスを向上させるかどうかを検討します。
  • 予測変数の総数: ノードの分割にすべての予測変数を使用する場合に選択します。このオプションによって作成されるフォレストは、ブートストラップフォレストと呼ばれます。
  • 予測変数の総数の平方根: ノードの分割に対して予測変数の総数の平方根を使用する場合に選択します。
  • 予測変数の総数のKパーセント、K =: ノードの分割に予測変数のパーセンテージを使用する場合に選択します。
内部ノードを分岐する最小ケース数
1 から 3 の最小数を指定します。デフォルトでは、解析は 2、5、および 8 を評価します。数値が 2 の場合、別の分割が不可能になるまで、すべてのノードをより小さなノードに分割できます。モデルのパフォーマンスが不十分な場合は、他の値を試してパフォーマンスへの影響を判断するかどうかを検討します。

CART®回帰モデルのオプション

CART® モデルのオプションを指定します。

最適な木を選択するための基準
これらの条件から選択して、結果にツリーを生成します。さまざまな木の結果を比較して、応用に最適な選択肢を決定できます。
最大R二乗のK標準誤差内;K=
最大R2値をもつ木のK標準誤差内にあるR2値をもつ最小の木を選択するには、このオプションを選択します。デフォルトではK=1なので、結果の木は最大R2値の1標準誤差内のR2値をもつ最小の回帰木になります。
最大R二乗
最大R二乗値をもつ木の結果を表示するには、このオプションを選択します。
内部ノードを分岐する最小ケース数
ノードに属することができ、さらに分割できるケースの最小数を入力します。デフォルトは10です。サンプルサイズが大きい場合、この最小値を増やす必要がある場合があります。たとえば、内部ノードにケースが10個以上ある場合、Minitabは分割を実行しようとします。内部ノードに9個以下のケースがある場合、分割は実行されません。
内部ノード制限は、値がターミナルノード制限の少なくとも 2 倍である場合にのみ関連します。ターミナルノードの制限の少なくとも3倍の内部ノード制限により、妥当な数のスプリッターが許可されます。通常、大きなデータセットには、より大きな制限が妥当です。
ターミナルノードで許容される最小ケース数
ターミナルノードに属することができるケースの最小数を入力します。デフォルトは3です。サンプルサイズが大きい場合、この最小値を増やす必要がある場合があります。たとえば、ある分岐で3ケース未満のノードが生成される場合、分岐は実行されません。

CART®回帰モデルのオプション

MARS® モデルのオプションを指定します。

基底関数の最大数
ほとんどの場合、デフォルト値の30が良好に機能します。30基底関数がデータに対して小さすぎると思われる場合は、より大きな値を検討してください。たとえば、30個を超える予測変数が重要であると思われる場合は、より大きな値を検討します。
30で十分かどうかわからない場合は、最初の結果を確認してください。たとえば、値を大きくすると、解析によって基底関数が追加されるにつれて決定係数の 2 乗値が上昇傾向にある場合に、モデルの適合度が向上する可能性が高くなります。
ノット間の観測値の最小数
MARS® に選択を許可する
分析では、サンプルサイズとモデルの複雑さを使用して、値を自動的に選択します。ほとんどの場合、自動値はうまく機能します。
ユーザー指定 λ
値 1 は、連続するデータ ポイントが基底関数が変化するポイントとして適格であることを示します。値 1 を指定すると、モデル予測を最も迅速に変更できます。モデルの適合度に対する効果を確認するために、さまざまな値を検討します。たとえば、一部のデータでは、値が大きいほど、トレーニング データが過剰適合する可能性が低い、より滑らかなモデルが作成されます。このような滑らかなモデルは、データの特定の範囲では精度が低下する場合があります。
許可された予測変数の交互作用

指定した順序まで予測変数の交互作用を許可します。交互作用とは、予測変数の効果が他の予測変数の値に依存することを意味します。たとえば、穀物がオーブンで乾燥する速度はオーブン内の時間に依存しますが、時間の影響はオーブンの温度に依存します。時間と温度の変数は相互作用します。

交互作用を許可しない (加法モデル)
予測変数の交互作用を許可しません。この場合、Minitabでは基底関数が相互作用しない加法モデルが使用されます。
オーダー2までのすべての交互作用を許可する
順序は、基底関数に含めることができる異なる予測変数の数を指定します。たとえば、次数 2 は、予測変数の効果が他の 1 つの予測変数の値に依存する可能性があることを示します。次の基底関数は、次数 2 の相互作用の例です。
  • BF1 = 最大(0, X1 − 800)
  • BF2 = max(0, X2 − 50) * BF1

乱数ジェネレータの初期値

乱数生成器の初期値を指定して、サブサンプルと予測変数のサブセットをランダムに選択できます。通常、初期値を変更する必要はありません。結果がランダム選択にどの程度敏感であるかを調べるか、繰り返し分析を行う場合に同じランダム選択を行うために、初期値を変更できます。