最適な木の数を選択するための基準

Minitabでは、最大対数尤度(デフォルト)、ROC曲線下の最大面積、または最小誤分類率を使用して、最適な木の数を選択します。

モデルの検証

Minitabは、交差検証法を使用するか、別のテストセットを使用してモデルを検証します。交差検証の場合、各分割の行を指定することや、ランダムに選択させることができます。別のテストセットを使用する場合、トレーニングセットとテストセットの両方の行を指定することや、ランダムに選択させることができます。

学習率

低学習率は、モデル内の各新しいツリーを高い学習率よりも低く評価し、モデルのツリーを生成する場合があります。学習率が低いモデルでは、トレーニングデータセットを過剰適合する可能性が低くなります。

デフォルトの学習率 = max[0.01, 0.1 * min(1.0, N/10000)低学習率を使用する場合は、最適な木の数が木の最大数よりも少なくなるように、モデル内の木の最大数を増やします。

サブサンプルの選択方法

サブサンプル選択方法は、分析が各ツリーの構築に使用するデータの割合を示します。過剰適合が問題の場合は、このパラメータを調整します。分析で、2値応答変数の各クラスに対して個別の分数を指定した場合、メソッドは両方の値を表示します。各応答レベルの分数を指定するオプションにより、値の1つがまれである場合に、ツリーに各応答値の最小量が含まれるようになります。

木あたりの最大ターミナルノード数または木の最大深度

TreeNet® 分類 多くの小さなCART®ツリーを強力なモデルに組み合わせています。これらの小さな CART®ツリーの場合、ターミナルノードの最大数または木の最大深度のいずれかを指定できます。
木あたりの最大ターミナルノード数
デフォルトのターミナルノードの最大数は6です。ツリーあたりのターミナルノードの最大数が大きいほど相互作用を検出する機能が向上しますが、12を超える値はモデルに大きなメリットを与えることなく分析を遅くする可能性があります。
木の最大深度
デフォルトの木の最大深度は4です。最初の適合モデルがうまく機能しない場合は、5または6など、木の最大深度を大きくして、木の最大深度が大きいほどモデルが改善されるかどうかを確認します。

最小ターミナルノードサイズ

ターミナルノードのケースの最小数を示します。たとえば、最小数が3で、ある分岐で3ケース未満のノードが作成される場合、分岐は実行されません。

ノード分割に選択された予測変数の数

この行は、ノード分割が各ノードのすべての予測変数を考慮するか、予測変数のランダム・サブセットを考慮するかを示します。ノード分割でランダムなサブセットが使用されている場合、この行は考慮すべき予測変数の数の選択を示します。

最初にすべての予測変数を使用する場合は、後続のモデルで予測変数のサブセットを使用してモデルのパフォーマンスを比較するかどうかを検討します。

欠損値のペナルティ

デフォルトでは、分析には欠損値ペナルティがないため、この行は存在しません。欠損値ペナルティは、欠損値の比率に対する予測変数にペナルティを課します。ペナルティが高い変数は、ノードのスプリッターになる可能性が低くなります。

高水準カテゴリのペナルティ

デフォルトでは、分析には高水準カテゴリのペナルティが存在せず、この行は存在しません。高水準カテゴリのペナルティは、各ノードのノードのサイズに対するカテゴリ水準の数に基づいて変数にペナルティを課します。したがって、多くのレベルを持つ競合企業は、ノードのスプリッターになる可能性が低くなります。

重み

応答の重み付けに使用される列を示します。

使用中の行

モデルに適合して評価される解析内の応答観測値の数。

未使用の行

欠損している応答の観測値の数。これには、重み列の欠損値、またはゼロも含まれます。