事前確率とは、データを収集する前に観測値がグループ内に収まる確率です。たとえば、特定の車の購入者を分類する場合に、購入者の60%が男性で、40%が女性であることがすでにわかっている可能性があります。
あるクラスの分類の正確性を向上させるために、事前確率を使用します。CARTは、事前確率に基づいて、様々な内部バランスの決定を行います。あるクラスの確率を上げ、別のクラスの確率を下げることは、様々なクラスの誤分類率のバランスをとるのに役立ちます。たとえば、事象確率を高くして非事象確率を下げると、偽陽性率が改善する可能性がありますが、偽陰性率は悪化する可能性があります。
事象確率を高くすると、事象のクラス分類に関するノードのしきい値が下がります。したがって、事象のクラスの割合が低いノードが、事象として分類されます。事前確率は、木の成長段階で木全体の成長に最も強い影響を与えるものの一つで、最終的なモデルを変更する強力な意味を提供します。
データに最も適した木を見つける分岐方法を使用します。個々のデータによって、ある分岐方法が他の方法よりも優れている場合があります。いくつかの分岐方法の結果を比較して、応用に最適な選択肢を決定します。
Minitabは、交差検証法を使用するか、別のテストセットを使用してモデルを検証します。交差検証の場合、各分割の行を指定することや、ランダムに選択させることができます。別のテストセットを使用する場合、トレーニングセットとテストセットの両方の行を指定することや、ランダムに選択させることができます。
デフォルトでは、分析には欠損値ペナルティがないため、この行は存在しません。欠損値ペナルティは、各ノードの欠損値の割合に基づいて競合変数にペナルティを課します。したがって、ノード内の欠損値が多い競合変数は、最良の分岐変数の役割を担う可能性が低くなります。
デフォルトでは、分析には高水準カテゴリのペナルティが存在せず、この行は存在しません。高水準カテゴリのペナルティは、各ノードのノードのサイズに対するカテゴリ水準の数に基づいて競合変数にペナルティを課します。したがって、ノード内に多数の水準をもつ競合変数は、最良の分岐変数の役割を担う可能性が低くなります。
応答の重み付けに使用される列を示します。
木で使用される応答の観測値の数。
欠損している応答の観測値の数。これには、重み列の欠損値、またはゼロも含まれます。