ベストモデルの検出(2値応答) のオプションを選択する

予測分析モジュール > 自動機械と学習 > ベストモデルの検出(2値応答) > オプション

このコマンドは、で使用できます予測分析モジュールモジュールをアクティブにする方法については、ここをクリックしてください

最適なモデルを決定する基準を選択し、さまざまなモデル タイプのオプションを指定します。乱数ジェネレーターのベースを指定したり、予測をいつイベント クラスに割り当てるのかも指定できます。

ベストモデルを選択するための基準

最適モデルを生成する方法を選択します。いくつかの方法の結果を比較して、応用に最適な選択肢を決定できます。
  • 最大対数尤度: 最尤法は、データの尤度関数の最大値を検索します。
  • ROC曲線下の最大面積: ROC曲線下の最大面積は、多くのアプリケーションで適切に機能します。ROC曲線の下の面積は、事象を生成する可能性が最も高い行から、事象を生成する可能性が最も低い行をモデルがどの程度適切にランク付けしているかを測定します。
  • 最小誤分類率: 誤分類率を最小にするモデルの結果を表示するには、このオプションを選択します。誤分類率は、モデルがどのくらいの頻度で正しく、あるいは正しくないケースを予測しているのかを単純にカウントしたものです。

TreeNet®分類モデルのオプション

TreeNet® モデルのオプションを指定します。

木の数
1~5000の値を入力して構築する木の数を設定します。300のデフォルト値は、有用な初期結果を提供します。
最初に選択したモデルが指定した木の数に近い場合は、より良いモデルを探すために木の数を増やすことを検討します。
木あたりの最大ターミナルノード数 および木の最大深度
また、木のサイズを制限することもできます。木の大きさを制限するには次のいずれかを選択します。
  • 木あたりの最大ターミナルノード数: 木のターミナルノードの最大数を表す2~2000の値を入力します。通常、デフォルト値6は、計算速度と変数間の交互作用の調査のバランスを最適化します。2の値は交互作用の調査を除外します。
  • 木の最大深度: 2~1000の値を入力して木の最大深さを表します。ルートノードは深さ1に対応します。デフォルトの深さは4です。多くのアプリケーションでは、4から6までの深さで、合理的に良いモデルが得られます。
学習率
最大 10 の学習率を指定します。
デフォルトでは、分析は3つの学習率を評価します。解析は通常、ハイパーパラメータを K の 3 つの値で調整します。0.001、0.1、および max(0.01, 0.1 * 分 (1.0, N/10000) ) で、N = 応答列の行数。max(0.01, 0.1 * min(1.0, N/10000)) = 0.001 または 0.1 の場合、解析はハイパーパラメータを 0.001、0.01、0.1 で調整します。
サブサンプル割合
サブサンプルの端数を最大 10 個まで指定します。各反復処理で、このデータの一部を含む別のサブセットを選択してツリーを作成します。サブサンプリングはオーバーフィッティングから保護します。有効値は0より大きく1以下の数です。共通の値は0.5および0.7です。
ノード分割の予測変数の数
各ノード分割について考慮する予測変数の数を指定します。通常、すべてのノードですべての予測変数を考慮すると、分析が適切に機能します。ただし、いくつかのデータセットは、分析が各ノードで予測変数の異なるランダムなサブセットを考慮したときに、モデルパフォーマンスの向上につながる予測変数間の関連性を持っています。このような場合、予測変数の総数の平方根は典型的な開始点です。平方根を使用してモデルを表示した後、合計に対するパーセンテージを持つ予測変数の数を増やすか、より少ない数を指定するかを検討できます。
  • 予測変数の総数: ノードの分割にすべての予測変数を使用する場合に選択します。
  • 予測変数の総数の平方根: ノードの分割に対して予測変数の総数の平方根を使用する場合に選択します。
  • 予測変数の総数のKパーセント、K =: ノードの分割に予測変数のパーセンテージを使用する場合に選択します。

Random Forests®分類モデルのオプション

Random Forests® モデルのオプションを指定します。

木を増加させるブートストラップサンプルの数
値を入力して、ブートストラップサンプルの数と解析によって生成される木の数を決定します。3から3000までの値を入力します。
トレーニングデータサイズより小さいブートストラップのサンプルサイズを指定する
ブートストラップのサンプルサイズを設定する値を選択して入力します。%5以上の値を入力してください。トレーニングデータサイズよりも大きなサイズを入力すると、トレーニングデータサイズと同じサンプルサイズが使用されます。
ノード分割の予測変数の数
各ノード分割について考慮する予測変数の数を指定します。通常、予測変数の総数の平方根を考慮すると、分析が適切に機能します。ただし、いくつかのデータセットは、分析が各ノードの予測変数がより多い、またはより少ない場合を考慮したときに、モデルパフォーマンスの向上につながる予測変数間の関連性を持っています。平方根を使用してモデルを表示した後、予測変数の数を変更してモデルのパフォーマンスを向上させるかどうかを検討します。
  • 予測変数の総数: ノードの分割にすべての予測変数を使用する場合に選択します。このオプションによって作成されるフォレストは、ブートストラップフォレストと呼ばれます。
  • 予測変数の総数の平方根: ノードの分割に対して予測変数の総数の平方根を使用する場合に選択します。
  • 予測変数の総数のKパーセント、K =: ノードの分割に予測変数のパーセンテージを使用する場合に選択します。
内部ノードを分岐する最小ケース数
最小数を 1 から 3 まで指定します。デフォルトでは、分析は 2、5、8 を評価します。デフォルトは2で、別の分割が不可能になるまで、すべてのノードを小さなノードに分割できます。モデルのパフォーマンスが不十分な場合は、この値を変更してパフォーマンスへの影響を確認するかを検討します。

CART®分類モデルのオプション

CART® モデルのオプションを指定します。

ノード分岐法
決定木を生成する分岐方法を選択します。いくつかの分岐方法の結果を比較して、応用に最適な選択肢を決定できます。
  • ジニ: ジニの方法はデフォルトの方法です。ジニの方法は、多くの応用で良好に機能します。ジニの方法は、通常、対象となる応答が集中する小さなノードを含む木を生成します。
  • エントロピー: エントロピーの方法は、ノードの特定の尤度関数の最大値に比例します。
最適な木を選択するための基準
次の基準から選択して、結果の木を選びます。さまざまな木の結果を比較して、応用に最適な選択肢を決定できます。
  • 最小誤分類コスト: 誤分類コストを最小にする木の結果を表示するには、このオプションを選択します。
  • 最小誤分類コストのK標準誤差内、K =: 最小誤分類コストのK標準誤差内の誤分類コストとなる最小の木の結果を表示するには、このオプションを選択します。
内部ノードを分岐する最小ケース数
ノードに属することができ、さらに分割できるケースの最小数を入力します。デフォルトは10です。サンプルサイズが大きい場合、この最小値を増やす必要がある場合があります。たとえば、内部ノードにケースが10個以上ある場合、Minitabは分割を実行しようとします。内部ノードに9個以下のケースがある場合、分割は実行されません。
内部ノードの制限は、値が端末ノードの制限の 2 倍以上の場合にのみ関係します。ターミナルノードの制限の3倍以上の内部ノードの制限で、適度な数の分岐変数を使用できます。通常、大きな制限は、より大きなデータ セットに適しています。
ターミナルノードで許容される最小ケース数
ターミナルノードに属することができるケースの最小数を入力します。デフォルトは3です。サンプルサイズが大きい場合、この最小値を増やす必要がある場合があります。たとえば、ある分岐で3ケース未満のノードが生成される場合、分岐は実行されません。

乱数ジェネレータの初期値

乱数生成器の初期値を指定して、サブサンプルと予測変数のサブセットをランダムに選択できます。通常、初期値を変更する必要はありません。結果がランダム選択にどの程度敏感であるかを調べるか、繰り返し分析を行う場合に同じランダム選択を行うために、初期値を変更できます。

事象クラスの割り当て

事象クラスにケースを割り当てる予測される最低確率を指定します。このオプションは 、TreeNet® モデルと 2 項ロジスティック回帰モデルに影響します。

  • 事象確率が指定値を超えています: 事象クラスにケースを割り当てる予測される最低確率を指定します。たとえば、値0.5は、事象の確率が0.5より大きい場合に、事象クラスにケースを割り当てることを意味します。
  • 事象確率がサンプル事象率を超えています: トレーニングデータのサンプル事象率をしきい値として使用して、ケースの予測クラスを割り当てる場合に指定します。サンプル事象率が0.50より大きい場合、このオプションを使用すると、事象が事象として分類される可能性が低くなり、非事象として分類される可能性が高くなります。通常、事象と非事象の誤分類率と、しきい値が0.50の場合とのバランスを取る場合は、このオプションを検討します。