TreeNet^® 分類による適合モデルおよび主要な予測変数を検出のハイパーパラメーターの最適化

モデル評価表の定義と解釈について説明します。

注

このコマンドは、予測分析モジュールで使用できます。モジュールをアクティブにする方法については、ここをクリックしてください。

このトピックの内容

最適な木の数
平均対数尤度
ROC曲線下の面積
誤分類率

学習率
サブサンプル割合
木あたりの最大ターミナルノード数
木の最大深度

結果を使用して、異なる設定のハイパーパラメータでモデルのパフォーマンスを比較します。ハイパーパラメータの調整をクリックして、ハイパーパラメータの追加値を評価します。

最適な木の数

通常、最適な木の数は、各ステップで異なります。最適な木の数がこの分析の木の数の最大値に近い場合、最大値から遠く離れた最適な木の数を持つモデルよりも木の数を増やすと、モデルが改善される可能性が高くなります。改善の可能性が高いと思われる代替モデルを調べることを検討することもできます。

平均対数尤度

平均対数尤度は、モデルの精度の尺度です。値が小さいほど、適合性が高いことを示します。

応答が2値の場合、最良モデルの選択基準として最大対数尤度を使用できます。表の後に続く完全な結果は、平均対数尤度の最小値を持つモデルに対するものです。

ROC曲線下の面積

ROC曲線は、検出力とも呼ばれる真陽性率 (TPR) をy軸にプロットします。ROC曲線は、第1種の過誤とも呼ばれる偽陽性率 (FPR) をx軸にプロットします。ROC曲線下の面積は、モデルが適切な分類器であるかどうかを示します。

分類木の場合、ROC曲線下の面積の通常範囲は0.5から1です。値が大きいほど、分類モデルが適切であることを示します。モデルがクラスを完全に分離できる場合、曲線下の面積は1です。モデルがランダムな割り当てよりも良くクラスを分離できない場合、曲線下の面積は0.5です。

最適なモデルの選択基準としてROC曲線下の最大面積を使用する場合、表には各モデルのROC曲線下の面積が含まれます。表の後に続く完全な結果は、ROC曲線下の最大面積を持つモデルのものです。

誤分類率

誤分類率は、モデルが応答値を正確に分類する頻度を示します。値が小さいほど、パフォーマンスが高いことを示します。

最適なモデルの選択基準として最小誤分類率を使用する場合、表には各モデルの誤分類率が含まれます。表に続く完全な結果は、誤分類率が最も少ないモデルに対してのものです。

学習率

低学習率は、モデル内の各新しいツリーを高い学習率よりも低く評価し、モデルのツリーを生成する場合があります。学習率が低いモデルでは、トレーニングデータセットを過剰適合する可能性が低くなります。学習率が低いモデルは、一般的に、最適な木の数を見つけるためにより多くの木を使用します。

サブサンプル割合

サブサンプル割合は、分析が各木の構築に使用するデータの割合を示します。

木あたりの最大ターミナルノード数

TreeNet^® 分類多くの小さなCART®ツリーを強力なモデルに組み合わせています。この表には、分析に含まれるハイパーパラメータ(木あたりのターミナルノードの最大数または木の最大深度)がのいずれか含まれます。より多くのターミナルノードを持つ木は、より複雑な交互作用をモデル化できます。一般に、12を超える値は、モデルに多くのメリットを与えることなく分析を遅くする可能性があります。

木の最大深度

TreeNet^® 分類多くの小さなCART®ツリーを強力なモデルに組み合わせています。これらの小さな CART®ツリーの場合、ターミナルノードの最大数または木の最大深度のいずれかを指定できます。より深い木では、より複雑な交互作用をモデル化できます。多くのデータセットで4から6の値が適当です。

TreeNet® 分類による適合モデルおよび主要な予測変数を検出のハイパーパラメーターの最適化

注