CART^® 分類の方法表

方法表の定義と解釈について解説します。

このトピックの内容

事前確率
ノード分岐
最適な木
モデルの検証
欠損値のペナルティ

高水準カテゴリのペナルティ
重み
使用中の行
未使用の行

事前確率

事前確率とは、データを収集する前に観測値がグループ内に収まる確率です。たとえば、特定の車の購入者を分類する場合に、購入者の60%が男性で、40%が女性であることがすでにわかっている可能性があります。

あるクラスの分類の正確性を向上させるために、事前確率を使用します。CARTは、事前確率に基づいて、様々な内部バランスの決定を行います。あるクラスの確率を上げ、別のクラスの確率を下げることは、様々なクラスの誤分類率のバランスをとるのに役立ちます。たとえば、事象確率を高くして非事象確率を下げると、偽陽性率が改善する可能性がありますが、偽陰性率は悪化する可能性があります。

事象確率を高くすると、事象のクラス分類に関するノードのしきい値が下がります。したがって、事象のクラスの割合が低いノードが、事象として分類されます。事前確率は、木の成長段階で木全体の成長に最も強い影響を与えるものの一つで、最終的なモデルを変更する強力な意味を提供します。

解釈

すべてのクラスで等しい: たとえば、クラスが４つある場合、各クラス確率は0.25です。
全体のサンプル度数と対応: たとえば、第1のクラスは50%の度数を含み、2番目のクラスは30%の度数を含み、最後のクラスは20%の度数を含む可能性があります。したがって、事前確率は0.50、0.30、および0.20です。
ユーザー指定: 事前確率は、あなたの判断に基づいており、誤分類率のバランスを取るために変更してもよいです。確率の和は必ず1になります。

ノード分岐

Minitabでは、次のノード分岐方法を提供します。

ジニ
エントロピー
クラス確率
Twoing — 多項応答で使用可能。Twoingの方法は、2値応答の場合のジニの方法と同じです。

解釈

データに最も適した木を見つける分岐方法を使用します。個々のデータによって、ある分岐方法が他の方法よりも優れている場合があります。いくつかの分岐方法の結果を比較して、応用に最適な選択肢を決定します。

最適な木

Minitabでは、最小誤分類コストを使用して最適な木を決定するか、誤分類コストに関する標準誤差の範囲を指定して、最適な木の選択を拡張することができます。

最小誤分類コスト: Minitabは、最小相対コストを使用して最適な木を選択します。
最小誤分類コストのX標準誤差内: Minitabは、指定した標準誤差範囲内の誤分類コストの木を特定し、その範囲内のターミナルノードの数が最も少ない木が最適な木として選択されます。

モデルの検証

Minitabは、交差検証法を使用するか、別のテストセットを使用してモデルを検証します。交差検証の場合、各分割の行を指定することや、ランダムに選択させることができます。別のテストセットを使用する場合、トレーニングセットとテストセットの両方の行を指定することや、ランダムに選択させることができます。

欠損値のペナルティ

デフォルトでは、分析には欠損値ペナルティがないため、この行は存在しません。欠損値ペナルティは、各ノードの欠損値の割合に基づいて競合変数にペナルティを課します。したがって、ノード内の欠損値が多い競合変数は、最良の分岐変数の役割を担う可能性が低くなります。

高水準カテゴリのペナルティ

デフォルトでは、分析には高水準カテゴリのペナルティが存在せず、この行は存在しません。高水準カテゴリのペナルティは、各ノードのノードのサイズに対するカテゴリ水準の数に基づいて競合変数にペナルティを課します。したがって、ノード内に多数の水準をもつ競合変数は、最良の分岐変数の役割を担う可能性が低くなります。

重み

応答の重み付けに使用される列を示します。

使用中の行

木で使用される応答の観測値の数。

未使用の行

欠損している応答の観測値の数。これには、重み列の欠損値、またはゼロも含まれます。

CART® 分類の方法表