CART® 回帰の方法表

方法表における統計量の定義と解釈について解説します。

ノード分岐

Minitabでは、ノード分岐の基準として、最小二乗誤差または最小絶対偏差のいずれかを使用できます。最小二乗誤差の方法は、二乗誤差の合計を最小にします。最小絶対偏差の方法は、誤差の絶対値の合計を最小にするものです。

最適な木

Minitabは、最初に、最適な木または最適な木の基準値の標準誤差のある数値の範囲内の基準値をもつ最小の木に関する結果を表示します。デフォルトでは、結果は、最大R2値の1標準誤差内の R2値をもつ最小の木、または最小値の1標準誤差内の絶対偏差をもつ最小の木で、ノード分岐法の選択に応じて異なります。

解釈

多くのデータセットでは、ターミナルノードの数が増えるほど、最初のうちは基準値が改善されます。その後、基準値は最適値に達し、その後悪化します。最適な値が、ノードを追加しても基準値にほとんど違いが生じない木に関するものである場合、最適な木とほぼ同じように働くより小さな木を使用するかどうかを検討できます。小さい木は解釈しやすいです。

モデルの検証

Minitabでは、テストデータセットまたはK分割交差検証を使用して、木のパフォーマンスを検証できます。また、木のパフォーマンスを検証しないと選択することもできます。分析でテストデータセットを使用する場合、この項目にはトレーニングデータセットとテストデータセットの目的の比率が表示されます。

解釈

デフォルトでは、5,000ケース以下のデータセットの場合、木のパフォーマンスを検証するためにK分割交差検証が使用されます。5000を超えるケースを含むデータセットの場合、テストデータセットが使用されます。分析で検証方法を使用する場合、最適な木の選択基準値は検証法から得られます。検証法を使用して最適な木を選択すると、木が利用可能なデータに過剰に適合するのを防ぎ、新しいデータに対する木のパフォーマンスをより現実的に説明できます。

欠損値のペナルティ

デフォルトでは、分析には欠損値ペナルティがないため、この行は存在しません。欠損値ペナルティは、各ノードの欠損値の割合に基づいて競合変数にペナルティを課します。したがって、ノード内の欠損値が多い競合変数は、最良の分岐変数の役割を担う可能性が低くなります。

高水準カテゴリのペナルティ

デフォルトでは、分析には高水準カテゴリのペナルティが存在せず、この行は存在しません。高水準カテゴリのペナルティは、各ノードのノードのサイズに対するカテゴリ水準の数に基づいて競合変数にペナルティを課します。したがって、ノード内に多数の水準をもつ競合変数は、最良の分岐変数の役割を担う可能性が低くなります。

重み

応答の重み付けに使用される列を示します。

使用中の行

予測分析の分析では、予測変数のデータが不足している場合に対処するため、使用される行数は、多くの場合、完全なデータセットと同じサイズになります。一部のデータは無効であり、分析から除外される可能性があります。たとえば、分析では、応答値が欠損している行、欠損している重み、0の重み、または負の重みがある行は除外されます。

未使用の行

欠損している応答の観測値の数。これには、重み列の欠損値、またはゼロも含まれます。