事前確率

事前確率とは、データを収集する前の、ある観測値があるグループに分類される確率です。たとえば、特定の車の購入者を分類する場合、購入者の60%が男性、40%が女性であることをすでに知っているかもしれません。

あるクラスの分類の正確性を向上させるために、事前確率を使用します。CARTは、事前確率に基づいて、様々な内部バランスの決定を行います。あるクラスの確率を上げ、別のクラスの確率を下げることは、様々なクラスの誤分類率のバランスをとるのに役立ちます。たとえば、事象確率を高くして非事象確率を下げると、偽陽性率が改善する可能性がありますが、偽陰性率は悪化する可能性があります。

事象確率を高くすると、事象のクラス分類に関するノードのしきい値が下がります。したがって、事象のクラスの割合が低いノードが、事象として分類されます。事前確率は、木の成長段階で木全体の成長に最も強い影響を与えるものの一つで、最終的なモデルを変更する強力な意味を提供します。

解釈

すべてのクラスで等しい
たとえば、クラスが4つある場合、各クラス確率は0.25です。
全体のサンプル度数と対応
たとえば、第1のクラスは50%の度数を含み、2番目のクラスは30%の度数を含み、最後のクラスは20%の度数を含む可能性があります。したがって、事前確率は0.50、0.30、および0.20です。
ユーザー指定
事前確率は、あなたの判断に基づいており、誤分類率のバランスを取るために変更してもよいです。確率の合計は1にする必要があります。

ノード分岐

Minitabでは、次のノード分岐方法を提供します。
  • ジニ
  • エントロピー
  • クラス確率
  • Towing — 多項応答で使用可能。Twoingの方法は、2値応答の場合のジニの方法と同じです。

解釈

データに最も適した木を見つける分岐方法を使用します。個々のデータによって、ある分岐方法が他の方法よりも優れている場合があります。いくつかの分岐方法の結果を比較して、応用に最適な選択肢を決定します。

最適な木

Minitabでは、最小誤分類コストを使用して最適な木を決定するか、誤分類コストに関する標準誤差の範囲を指定して、最適な木の選択を拡張することができます。
最小誤分類コスト
Minitabは、最小相対コストを使用して最適な木を選択します。
最小誤分類コストのX標準誤差内
Minitabは、指定した標準誤差範囲内の誤分類コストの木を特定し、その範囲内のターミナルノードの数が最も少ない木が最適な木として選択されます。

モデルの検証

Minitabは、交差検証法を使用するか、別のテストセットを使用してモデルを検証します。交差検証の場合、各分割の行を指定することや、ランダムに選択させることができます。別のテストセットを使用する場合、トレーニングセットとテストセットの両方の行を指定することや、ランダムに選択させることができます。

欠損値のペナルティ

欠損値のペナルティは、各ノードの欠損値の割合に基づいて競合変数にペナルティを課します。したがって、あるノード内の欠損値が多い競合変数は、最良の分岐変数の役割を担う可能性が低くなります。

多水準カテゴリのペナルティ

多水準カテゴリのペナルティは、各ノードに関して、ノードのサイズに対するカテゴリ水準の数に基づいて競合変数にペナルティを課します。したがって、ノード内に多数の水準を持つ競合変数は、最良の分岐変数の役割を担う可能性が低くなります。

重み

応答の重み付けに使用される列を示します。

使用される行

木で使用される応答の観測値の数。

未使用の行

欠損している応答の観測値の数。これには、欠損値0、または重みの列の負の値も含まれます。

本サイトを使用すると、分析およびコンテンツのカスタマイズのためにクッキーが使用されることに同意したことになります。  当社のプライバシーポリシーをご確認ください