TreeNet® 分類適合モデルおよび主要な予測変数を検出の分析オプションを選択する

予測分析モジュール > TreeNet®分類 > 適合モデル > オプション

予測分析モジュール > TreeNet®分類 > 主要な予測変数を検出 > オプション

このコマンドは、予測分析モジュールで使用できます。モジュールをアクティブにする方法については、ここをクリックしてください

分析オプションを選択します。

最適な木の数を選択するための基準
最適モデルを生成する方法を選択します。いくつかの方法の結果を比較して、応用に最適な選択肢を決定できます。
  • 最大対数尤度: 最尤法は、データの尤度関数の最大値を検索します。これは、2値応答を持つデフォルトです。
  • ROC曲線下の最大面積: ROC曲線下の最大面積は、多くのアプリケーションで適切に機能します。ROC曲線の下の面積は、事象を生成する可能性が最も高い行から、事象を生成する可能性が最も低い行をモデルがどの程度適切にランク付けしているかを測定します。このオプションは、2値応答で使用できます。
  • 最小誤分類率: 誤分類率を最小にするモデルの結果を表示するには、このオプションを選択します。誤分類率は、モデルがどのくらいの頻度で正しく、あるいは正しくないケースを予測しているのかを単純にカウントしたものです。これは、多項応答を持つデフォルトです。
最小誤分類率と2値応答を使用して、結果サブダイアログボックスで事象クラスを割り当てる方法を選択します。詳細については、TreeNet® 分類で適合モデルおよび主要な予測変数を検出で表示する結果を選択するを参照してください。
木の数
1~5000の値を入力して構築する木の数を設定します。300のデフォルト値は、有用な初期結果を提供します。
最初に選択したモデルが指定した木の数に近い場合は、より良いモデルを探すために木の数を増やすことを検討します。
木あたりの最大ターミナルノード数および木の最大深度
また、木のサイズを制限することもできます。木の大きさを制限するには次のいずれかを選択します。
  • 木あたりの最大ターミナルノード数: 木のターミナルノードの最大数を表す2~2000の値を入力します。通常、デフォルト値6は、計算速度と変数間の交互作用の調査のバランスを最適化します。2の値は交互作用の調査を除外します。
  • 木の最大深度: 2~1000の値を入力して木の最大深さを表します。ルートノードは深さ1に対応します。デフォルトの深さは4です。多くのアプリケーションでは、4から6までの深さで、合理的に良いモデルが得られます。
ターミナルノードで許容される最小ケース数
ターミナルノードのケースの最小数を入力します。たとえば、最小数が3で、ある分岐で3ケース未満のノードが作成される場合、分岐は実行されません。
過剰適合保護
モデルのオーバーフィットを最小限に抑えるには、次のオプションを使用します。
学習率
学習率は、データに最適なモデルを特定するために調整できる、非常に重要な2つのハイパーパラメーターの1つです。
デフォルトでは、トレーニングデータのケース数が1000以下の場合、Minitabでは学習率として0.01が使用されます。1000を超えるケースを持つデータセットの場合、デフォルトの学習率はmax[0.01, 0.1 * min(1.0, N/10000)]です。たとえば、データセットに9000の応答がある場合、学習率は0.09です。
初期モデルでデータが適切に予測されない場合は、学習率を5倍または10倍に増減して、より良いモデルを得ることができるか確認します。
サブサンプル選択のランダム化
分析の各木を、トレーニングデータセット全体のサブサンプルから構築するか、各応答水準内のサブサンプルから構築するかを選択します。
  • データセット全体内: トレーニングデータセット全体からランダムにサンプルを選択します。通常、0.5の割合が有効に機能します。初期モデルがデータに適合しない場合は、割合をデフォルト値の0.5から0.70以上に増やすことを検討してください。
  • 各応答水準内: トレーニングデータの事象クラスケースのサブサンプルと、トレーニングデータの非事象クラスケースのサブサンプルを取得します。このオプションを使用すると、各サブサンプルに、非常にまれなクラスのケースが十分にあることを確認できます。クラスが十分にまれな場合は、1を入力してすべてのケースをすべてのサブサンプルに含めることができます。
サブサンプル割合
分析の各木を構築するためにランダムに選択する学習データの比率を指定します。通常、0.5の割合が有効に機能します。初期モデルがデータに適合しない場合は、割合をデフォルト値の0.5から0.70以上に増やすことを検討してください。
ノード分割の予測変数の数
各ノード分割について考慮する予測変数の数を指定します。通常、すべてのノードですべての予測変数を考慮すると、分析が適切に機能します。ただし、いくつかのデータセットは、分析が各ノードで予測変数の異なるランダムなサブセットを考慮したときに、モデルパフォーマンスの向上につながる予測変数間の関連性を持っています。このような場合、予測変数の総数の平方根は典型的な開始点です。平方根を使用してモデルを表示した後、合計に対するパーセンテージを持つ予測変数の数を増やすか、より少ない数を指定するかを検討できます。
  • 予測変数の総数: ノードの分割にすべての予測変数を使用する場合に選択します。
  • 予測変数の総数の平方根: ノードの分割に対して予測変数の総数の平方根を使用する場合に選択します。
  • 予測変数の総数のKパーセント、K =: ノードの分割に予測変数のパーセンテージを使用する場合に選択します。
乱数ジェネレータの初期値
乱数生成器の初期値を指定して、サブサンプルと予測変数のサブセットをランダムに選択できます。通常、初期値を変更する必要はありません。結果がランダム選択にどの程度敏感であるかを調べるか、繰り返し分析を行う場合に同じランダム選択を行うために、初期値を変更できます。
重み
ケースの重みを含む列を入力します。この列の行数は、応答列と同じである必要があります。値は0以上である必要があります。Minitabでは、欠損値またはゼロを含む行は分析から除外されます。