TreeNet® 分類適合モデルおよび主要な予測変数を検出を評価するハイパーパラメーター値を選択する

予測分析モジュール > TreeNet®分類 > 適合モデルを実行します。モデル要約表の後で、より良いモデルを識別するためにハイパーパラメーターを調整するをクリックします。

予測分析モジュール > TreeNet®分類 > 主要な予測変数を検出を実行します。モデル要約表の後で、より良いモデルを識別するためにハイパーパラメーターを調整するをクリックします。

概要

TreeNet®モデルのパフォーマンスは、一般に、学習率、サブサンプル割合、およびモデルを形成する個々の木の複雑さの値の影響を強く受けます。モデルの結果で、より良いモデルを識別するためにハイパーパラメーターを調整するをクリックすると、これらの複数のハイパーパラメーターの値を評価して、平均対数尤度などの精度基準の最適値を生成する組み合わせを確認できます。これらのハイパーパラメーターの値が良いほど予測精度が大幅に向上する可能性があるため、様々な値で試すことは分析の一般的なステップです。

モデルに含まれる木の数を調整することもできます。一般に、300本の木でハイパーパラメーターの値を十分に区別できます。一般に、対象となる1つ以上のモデルで最適な木の数が木の最大数に近づくと、木の数が増えます。木の数が最大数に近い場合、木の数を増加するとモデルのパフォーマンスが向上する可能性が高くなります。

過剰適合保護パラメータ

評価するハイパーパラメーターのそれぞれに対して値を1つ以上指定します。分析でハイパーパラメーターを評価して、精度基準の最適値を使用して組み合わせを検索します。ハイパーパラメーターに値を入力しなかった場合、評価では、結果のモデルからそのハイパーパラメーターの値が使用されます。応答が2値で、元のモデルでサンプルに対する事象と非事象の比率が指定されている場合、評価では常に元のモデルの比率が使用されます。

学習率

最大10個の値を入力します。有効値は0.0001~1の範囲になります。

サブサンプル割合

最大10個の値を入力します。有効値は0より大きく1以下の数です。

元のモデルが2値応答のサンプリング対象となる事象と非事象の比率を指定するとサブサンプル割合が無効になります。

個々の木の複雑さパラメータ

最大ターミナル ノード数または木の最大深度のどちらを評価するかを選択します。通常、どちらの選択も有用なモデルを識別する妥当な方法であり、選択は各自の好みによって行われます。
最大ターミナル ノード数
最大3個の値を入力します。有効値は2~2000の範囲になります。通常、デフォルト値6は、計算速度と変数間の交互作用の調査のバランスを最適化します。2の値は交互作用の調査を除外します。
木の最大深度
最大3個の値を入力します。木の最大深さを表すのに有効な値は2~1000です。ルートノードは深さ1に対応します。多くのアプリケーションでは、4から6までの深さで、合理的に良いモデルが得られます。

木の数

1~5000の値を指定して、構築する木の最大数を設定します。デフォルト値の300は、通常、ハイパーパラメーター値の評価に有用な結果を提供します。

対象となる1つ以上のモデルが、指定した木の数に近い木の数を持つ場合は、木の数を増やすかどうかを検討します。木の数が最大数に近い場合、木の数を増加するとモデルのパフォーマンスが向上する可能性が高くなります。

完全なパラメーターの組み合わせを評価する

複数のハイパーパラメーターに値を指定する場合、評価表のモデルは、ハイパーパラメーターの完全な組み合わせを評価するかどうかによって異なります。
  • 完全なパラメーターの組み合わせを評価するを選択すると、アルゴリズムはハイパーパラメーターのすべての組み合わせを評価します。このオプションは、一般に計算に時間がかかります。
  • それ以外の場合、アルゴリズムはハイパーパラメーターを次の順序で評価します。
    1. 学習率
    2. サブサンプル割合
    3. 個々の木の複雑さパラメータ
    たとえば、アルゴリズムが次のハイパーパラメーターを受け取るとします。
    • 学習率:0.001, 0.01, 0.1
    • サブサンプル割合:0.4, 0.5, 0.7
    • ターミナルノードの最大数:4, 6
    1. このアルゴリズムでは、サブサンプル比率を0.4に、ターミナルノードの最大数を4に設定します。次に、アルゴリズムは学習率を最小から最大の順に評価します: 0.001, 0.01, 0.1.
    2. アルゴリズムが最適な学習率として0.01を識別するとします。次に、アルゴリズムは学習率を0.01に、ターミナルノードの最大数を4に設定します。次に、アルゴリズムは、0.4、0.5、および0.7のサブサンプル比率を評価します。
    3. アルゴリズムが0.5を最適なサブサンプル比率として識別するとします。次に、アルゴリズムは学習率を0.01に、サブサンプル比率を0.5に設定します。次に、アルゴリズムは、4と6のノードの最大数を評価します。
    4. アルゴリズムが最適なターミナルノードの最大数として6を識別したとします。次に、学習率 = 0.01、サブサンプル比率0.5、およびターミナルノードの最大数6を持つモデルの評価表と結果が作成されます。

    この例では、パラメーターの組み合わせの完全なセットを評価しない分析で、評価表に8つのモデルが含まれています。すべてのパラメーターの組み合わせ分析では3 × 3 × 2 = 18通りの組み合わせがあり、計算に時間がかかります。

結果を表示

検査する値を指定したら、 結果を表示をクリックします。新しい結果セットでは、ハイパーパラメーターの組み合わせの精度基準と、最適な精度基準の値を持つモデルの結果とを比較する表が生成されます。

Minitabでは、元のモデルに対するものと同じ表とグラフが新しいモデルでも再作成されます。新しいモデルの表とグラフは、新しい結果セットに含まれています。保存は元の分析と同じです。格納列は同じワークシート内となります。たとえば、元の分析で適合値が「Fit」という列に格納されている場合、新しい分析では空の列に「Fit_1」のタイトルが付けられ、適合値が格納されます。