Die A-priori-Wahrscheinlichkeit ist die Wahrscheinlichkeit, dass eine Beobachtung einer Gruppe angehört, bevor die Daten erfasst werden. Wenn Sie z. B. die Käufer eines bestimmten Autos klassifizieren, wissen Sie vielleicht bereits, dass 60 % der Käufer männlich und 40 % weiblich sind.
Verwenden Sie A-priori-Wahrscheinlichkeiten, um die Klassifikationsgenauigkeit für bestimmte Klassen zu erhöhen. CART trifft auf der Grundlage von A-priori-Wahrscheinlichkeiten andere interne Abwägungsentscheidungen. Durch Erhöhen der Wahrscheinlichkeit einer Klasse und Verringern der Wahrscheinlichkeit einer anderen Klasse können die Fehlklassifizierungsraten für verschiedene Klassen ausgeglichen werden. So können beispielsweise die Erhöhung der Ereigniswahrscheinlichkeit und die Verringerung der Wahrscheinlichkeit eines Nicht-Ereignisses die Falsch-Positiv-Rate verbessern, während sich die Falsch-Negativ-Rate verschlechtert.
Durch Erhöhen der Ereigniswahrscheinlichkeit wird der Knotenschwellenwert für die Klassenzuweisung für das Ereignis herabgesetzt. Dadurch werden Knoten mit niedrigeren Anteilen der Ereignisklasse als Ereignis klassifiziert. A-priori-Wahrscheinlichkeiten haben während der Baumwachstumsphase den stärksten Einfluss auf die Entwicklung des gesamten Baums; sie eröffnen effektive Möglichkeiten zum Ändern des endgültigen Modells.
Verwenden Sie die Teilungsmethode, um den Baum zu finden, der am besten für Ihre Daten passend ist. Bestimmte Teilungsmethoden können je nach Ihren Daten besser als andere geeignet sein. Vergleichen Sie die Ergebnisse mehrerer Teilungsmethoden, um die beste Option für Ihre Anwendung zu ermitteln.
Minitab verwendet die Kreuzvalidierung oder einen separaten Testdatensatz, um das Modell zu validieren. Mit der Kreuzvalidierung können Sie die Zeilen für jede Faltung angeben oder eine Zufallsauswahl zulassen. Mit einem separaten Testdatensatz können Sie die Zeilen für Trainings- und Testdatensätze angeben oder eine Zufallsauswahl zulassen.
Standardmäßig hat die Analyse keine Strafe für den fehlenden Wert, und diese Zeile ist nicht vorhanden. Durch die Strafe für einen fehlenden Wert erhalten Konkurrenten entsprechend dem Anteil der fehlenden Werte für jeden Knoten einen Abzug. Daher ist es weniger wahrscheinlich, dass ein Konkurrent mit vielen fehlenden Werten in einem Knoten den primären Teiler darstellt.
Standardmäßig hat die Analyse keine Strafe für Kategorie auf hoher Stufe, und diese Zeile ist nicht vorhanden. Durch die Strafe für eine Kategorie auf hoher Stufe erhalten Konkurrenten entsprechend der Anzahl der kategorialen Stufen relativ zur Größe des Knotens für jeden Knoten einen Abzug. Daher ist es weniger wahrscheinlich, dass ein Konkurrent mit vielen Stufen in einem Knoten den primären Teiler darstellt.
Gibt die Spalte an, mit der die Antwortvariable gewichtet wird.
Die Anzahl der im Baum verwendeten Beobachtungen in der Antwortvariablen.
Die Anzahl der fehlenden Beobachtungen in der Antwortvariablen. Dazu gehören auch fehlende Werte oder Nullen in der Gewichtungsspalte.