結果から評価するハイパーパラメータ値を選択 TreeNet^® 分類

予測分析モジュール > TreeNet®分類 > 適合モデルを実行します。結果のハイパーパラメータの調整をクリックします。

予測分析モジュール > TreeNet®分類 > 主要な予測変数を検出を実行します。結果のハイパーパラメータの調整をクリックします。

予測分析モジュール > 自動機械と学習 > ベストモデルの検出(2値応答)を実行します。結果の代替モデルの選択をクリックします。

注

このコマンドは、予測分析モジュール.モジュールをアクティブにする方法については、ここをクリックしてください。

このトピックの内容

概要
過剰適合保護パラメータ
ノード分割の予測変数の数
木の数
完全なパラメーターの組み合わせを評価する
結果を表示

概要

TreeNet^®モデルのパフォーマンスは、一般に、学習率、サブサンプル割合、およびモデルを形成する個々の木の複雑さの値の影響を強く受けます。モデルの結果で、ハイパーパラメータの調整をクリックすると、これらの複数のハイパーパラメーターの値を評価して、平均対数尤度などの精度基準の最適値を生成する組み合わせを確認できます。これらのハイパーパラメーターの値が良いほど予測精度が大幅に向上する可能性があるため、様々な値で試すことは分析の一般的なステップです。

モデルに含まれる木の数を調整することもできます。通常、すべてのノードの予測変数を考慮すると分析はうまく機能します。ただし、いくつかのデータセットは、分析が各ノードで予測変数の異なるランダムなサブセットを考慮したときに、モデルパフォーマンスの向上につながる予測変数間の関連性を持っています。

一般に、300本の木でハイパーパラメーターの値を十分に区別できます。一般に、対象となる1つ以上のモデルで最適な木の数が木の最大数に近づくと、木の数が増えます。木の数が最大数に近い場合、木の数を増加するとモデルのパフォーマンスが向上する可能性が高くなります。

過剰適合保護パラメータ

評価するハイパーパラメーターのそれぞれに対して値を1つ以上指定します。分析でハイパーパラメーターを評価して、精度基準の最適値を使用して組み合わせを検索します。ハイパーパラメーターに値を入力しなかった場合、評価では、結果のモデルからそのハイパーパラメーターの値が使用されます。応答が2値で、元のモデルでサンプルに対する事象と非事象の比率が指定されている場合、評価では常に元のモデルの比率が使用されます。

学習率

最大10個の値を入力します。有効値は0.0001～1の範囲になります。

サブサンプル割合

最大10個の値を入力します。対象値が0より大きく、1以下です。

元のモデルが2値応答のサンプリング対象となる事象と非事象の比率を指定するとサブサンプル割合が無効になります。

個々の木の複雑さパラメータ

最大ターミナルノード数または木の最大深度のどちらを評価するかを選択します。通常、どちらの選択も有用なモデルを識別する妥当な方法であり、選択は各自の好みによって行われます。

最大ターミナルノード数: 最大3個の値を入力します。有効値は2～2000の範囲になります。通常、デフォルト値6は、計算速度と変数間の交互作用の調査のバランスを最適化します。2の値は交互作用の調査を除外します。
木の最大深度: 最大3個の値を入力します。木の最大深さを表すのに有効な値は2～1000です。ルートノードは深さ1に対応します。多くのアプリケーションでは、4から6までの深さで、合理的に良いモデルが得られます。

ノード分割の予測変数の数

最大3個の値を入力します。適格な値は1から予測変数の総数の間です。通常、この分析は予測変数の総数を考慮するとうまく機能します。ただし、一部のデータセットには予測変数間の関連性があり、分析で各ノードの予測変数の数が少ないとモデルのパフォーマンスが向上します。

木の数

1から5000までの値を入力すると、最大数の木を作れます。デフォルト値の300は、通常、ハイパーパラメーター値の評価に有用な結果を提供します。

対象となる1つ以上のモデルが、指定した木の数に近い木の数を持つ場合は、木の数を増やすかどうかを検討します。木の数が最大数に近い場合、木の数を増加するとモデルのパフォーマンスが向上する可能性が高くなります。

完全なパラメーターの組み合わせを評価する

複数のハイパーパラメーターに値を指定する場合、評価表のモデルは、ハイパーパラメーターの完全な組み合わせを評価するかどうかによって異なります。

完全なパラメーターの組み合わせを評価するを選択すると、アルゴリズムはハイパーパラメーターのすべての組み合わせを評価します。このオプションは、一般に計算に時間がかかります。
それ以外の場合、アルゴリズムはハイパーパラメーターを次の順序で評価します。
1. 学習率
2. サブサンプル割合
3. 個々の木の複雑さパラメータ
たとえば、アルゴリズムが次のハイパーパラメーターを受け取るとします。
- 学習率：0.001, 0.01, 0.1
- サブサンプル割合：0.4, 0.5, 0.7
- ターミナルノードの最大数：4, 6
1. アルゴリズムはサブサンプルの割合を0.4に、ターミナルノードの最大数を4に設定します。次に、アルゴリズムは学習率を最小から最大の順に評価します：0.001, 0.01, 0.1.
2. アルゴリズムが最適な学習率として0.01を識別するとします。その後、アルゴリズムは学習率を0.01に、端末ノードの最大数を4に設定します。次に、アルゴリズムは、0.4、0.5、および0.7のサブサンプル比率を評価します。
3. アルゴリズムが0.5を最適なサブサンプル比率として識別するとします。次に、アルゴリズムは学習率を0.01に、サブサンプル比率を0.5に設定します。次に、アルゴリズムは、4と6のノードの最大数を評価します。
4. アルゴリズムが6を終端ノードの最大数として識別すると仮定します。その後、Minitabは学習率=0.01、サブサンプル比率0.5、ターミナルノード最大数6の評価表と結果を生成します。
この例では、パラメーターの組み合わせの完全なセットを評価しない分析で、評価表に8つのモデルが含まれています。すべてのパラメーターの組み合わせ分析では3 × 3 × 2 = 18通りの組み合わせがあり、計算に時間がかかります。

結果を表示

検査する値を指定したら、結果を表示をクリックします。新しい結果セットでは、ハイパーパラメーターの組み合わせの精度基準と、最適な精度基準の値を持つモデルの結果とを比較する表が生成されます。

Minitabでは、元のモデルに対するものと同じ表とグラフが新しいモデルでも再作成されます。新しいモデルの表とグラフは、新しい結果セットに含まれています。保存は元の分析と同じです。格納列は同じワークシート内となります。たとえば、元の分析で適合値が「Fit」という列に格納されている場合、新しい分析では空の列に「Fit_1」のタイトルが付けられ、適合値が格納されます。

結果から評価するハイパーパラメータ値を選択 TreeNet® 分類

注