Überlegungen zu Daten für CART® Klassifikation

Um die Gültigkeit Ihrer Ergebnisse sicherzustellen, befolgen Sie beim Erfassen von Daten, beim Durchführen der Analyse und beim Interpretieren der Ergebnisse die folgenden Richtlinien.

Die Antwortvariable (Ziel) muss kategorial sein
Kategoriale Variablen enthalten eine endliche, zählbare Anzahl von Kategorien oder eindeutigen Gruppen. Kategoriale Daten können eine logische Reihenfolge haben, dies ist jedoch nicht erforderlich. Beispiele für kategoriale Variablen sind Geschlecht, Materialart und Zahlungsmethode.
  • Wenn Ihre Antwortvariable zwei Kategorien aufweist, z. B. „Bestanden“ und „Nicht bestanden“, ist die Antwortvariable binär.
  • Enthält Ihre Antwortvariable drei oder mehr Kategorien, ist die Antwortvariable multinomial.

Die Daten für die Antwortvariable müssen entweder Textwerte oder numerische Werte sein. Datum-/Uhrzeitwerte sind nicht zulässig.

Wenn Ihre Antwortvariable stetig ist, verwenden Sie CART® Regression.

Prädiktorvariablen können stetig oder kategorial sein
Sie können eine Kombination aus stetigen oder kategorialen Prädiktoren verwenden. Die Länge der Spalten für jeden Prädiktor muss jedoch der Länge der Spalte der Antwortvariablen entsprechen. Fehlende Werte sind zulässig.
  • Alle stetigen Prädiktoren müssen numerisch sein.
  • Kategoriale Prädiktoren können Textwerte oder numerische Werte sein.
Ein Testdatensatz wird empfohlen, wenn mehr als 5000 Fälle vorliegen.

Standardmäßig verwendet Minitab die Kreuzvalidierung, wenn 5000 oder weniger Fälle vorliegen. Sind mehr als 5000 Fälle vorhanden, verwendet Minitab einen Testdatensatz. Die Validierung mit einem Trainingsdatensatz und einem Testdatensatz ist hilfreich bei einem großen Datensatz. Weitere Informationen zu den Einstellungen für Validierungsverfahren in CART® Klassifikationfinden Sie unter Angeben der Validierungsmethode für CART® Klassifikation.