のデータに関する考慮事項 CART® 分類

有効な結果が確実に得られるようにするため、データの収集、分析の実行、および結果の解釈時には、次のガイドラインを考慮してください。

応答変数 (目的変数) はカテゴリにする必要があります
カテゴリ変数には、有限の可算個のカテゴリについての数字または個別のグループが含まれます。カテゴリデータには、論理的な順序がある場合と、ない場合があります。たとえば、カテゴリ変数には性別、材料の種類、支払方法などが含まれます。
  • 応答変数に合格と不合格などの2つのカテゴリがある場合、応答は2値です。
  • 応答変数に3つ以上のカテゴリが含まれている場合、応答は多項です。

応答変数のデータは、テキストまたは数値のいずれかでなければなりません。日付/時刻の値は使用できません。

応答変数が連続的な場合は、 CART® 回帰を使用してください。

予測変数は、連続またはカテゴリである場合があります。
連続予測変数またはカテゴリー予測変数の組み合わせを使用できます。ただし、各予測変数の列の長さは応答列と同じ長さである必要があります。欠損値は許容されます。
  • すべての連続予測変数は数値である必要があります。
  • カテゴリ予測変数は、テキストまたは数値です。
ケースの数が5000を超える場合は、Minitabではテストセットが推奨されます。

デフォルトでは、ケースの数が5000以下の場合、交差検証が使用されます。ケースの数が5000を超える場合、テストセットが使用されます。データのトレーニングセットとテストセットを使用した検証は、データセットが大きい場合に有用です。 CART® 分類における検証法の設定の詳細については、の検証法を指定するCART® 分類を参照してください。