A-priori-Wahrscheinlichkeiten

Eine A-priori-Wahrscheinlichkeit ist die vor der Datenerfassung vorliegende Wahrscheinlichkeit, dass eine Beobachtung in eine Gruppe fällt. Wenn Sie beispielsweise die Käufer eines bestimmten Automodells klassifizieren, ist Ihnen vielleicht bereits bekannt, dass 60 % der Käufer männlich und 40 % weiblich sind.

Verwenden Sie A-priori-Wahrscheinlichkeiten, um die Klassifikationsgenauigkeit für bestimmte Klassen zu erhöhen. CART trifft auf der Grundlage von A-priori-Wahrscheinlichkeiten andere interne Abwägungsentscheidungen. Durch Erhöhen der Wahrscheinlichkeit einer Klasse und Verringern der Wahrscheinlichkeit einer anderen Klasse können die Fehlklassifikationsquoten für verschiedene Klassen ausgeglichen werden. So können beispielsweise die Erhöhung der Ereigniswahrscheinlichkeit und die Verringerung der Wahrscheinlichkeit eines Nicht-Ereignisses die Falsch-Positiv-Rate verbessern, während sich die Falsch-Negativ-Rate verschlechtert.

Durch Erhöhen der Ereigniswahrscheinlichkeit wird der Knotenschwellenwert für die Klassenzuweisung für das Ereignis herabgesetzt. Dadurch werden Knoten mit niedrigeren Anteilen der Ereignisklasse als Ereignis klassifiziert. A-priori-Wahrscheinlichkeiten haben während der Baumwachstumsphase den stärksten Einfluss auf die Entwicklung des gesamten Baums; sie eröffnen effektive Möglichkeiten zum Ändern des endgültigen Modells.

Interpretation

Gleich für alle Klassen
Bei beispielsweise vier Klassen beträgt jede Klassenwahrscheinlichkeit 0,25.
An Gesamt-Stichprobenhäufigkeiten anpassen
Beispielsweise kann die erste Klasse 50 % der Häufigkeiten, die zweite Klasse 30 % der Häufigkeiten und die letzte Klasse 20 % der Häufigkeiten enthalten. Somit liegen die A-priori-Wahrscheinlichkeiten bei 0,50; 0,30 und 0,20.
Benutzerspezifisch
Die A-priori-Wahrscheinlichkeiten basieren auf Ihrer eigenen Einschätzung, und sie können geändert werden, um Fehlklassifikationsquoten auszugleichen. Die Summe der Wahrscheinlichkeiten muss 1 ergeben.

Knotenteilung

Minitab bietet die folgenden Methoden zur Knotenteilung:
  • Gini
  • Entropie
  • Klassenwahrscheinlichkeit
  • Twoing: verfügbar bei einer multinomialen Antwortvariablen. Die Twoing-Methode entspricht der Gini-Methode bei einer binären Antwortvariablen.

Interpretation

Verwenden Sie die Teilungsmethode, um den Baum zu finden, der am besten für Ihre Daten passend ist. Bestimmte Teilungsmethoden können je nach Ihren Daten besser als andere geeignet sein. Vergleichen Sie die Ergebnisse mehrerer Teilungsmethoden, um die beste Option für Ihre Anwendung zu ermitteln.

Optimaler Baum

Zum Bestimmen des optimalen Baums verwendet Minitab entweder die minimalen Fehlklassifikationskosten, oder Sie können einen Standardfehlerbereich rund um die Fehlklassifikationskosten angeben, um die Auswahl des optimalen Baums zu erweitern.
Minimale Fehlklassifikationskosten
Minitab verwendet die minimalen relativen Kosten, um den optimalen Baum auszuwählen.
Innerhalb von X Standardfehlern der minimalen Fehlklassifikationskosten
Minitab identifiziert die Bäume mit Fehlklassifikationskosten innerhalb des von Ihnen angegebenen Standardfehlerbereichs und wählt in diesem Bereich den Baum mit der kleinsten Anzahl von Endknoten als optimalen Baum aus.

Modellvalidierung

Minitab verwendet die Kreuzvalidierung oder einen separaten Testdatensatz, um das Modell zu validieren. Mit der Kreuzvalidierung können Sie die Zeilen für jede Faltung angeben oder eine Zufallsauswahl zulassen. Mit einem separaten Testdatensatz können Sie die Zeilen für Trainings- und Testdatensätze angeben oder eine Zufallsauswahl zulassen.

Strafe für fehlenden Wert

Die Strafe für den fehlenden Wert bewirkt für ein Vergleichselement einen Abzug entsprechend dem Anteil der fehlenden Werte für jeden Knoten. Daher ist es weniger wahrscheinlich, dass ein Vergleichselement mit vielen fehlenden Werten in einem Knoten eine Rolle als primärer Teiler spielt.

Strafe für Kategorie auf hoher Stufe

Die Strafe für eine Kategorie auf hoher Stufe bewirkt für ein Vergleichselement bei jedem Knoten einen Abzug entsprechend der Anzahl der kategorialen Stufen relativ zur Größe des Knotens. Daher ist es weniger wahrscheinlich, dass ein Vergleichselement mit vielen Stufen in einem Knoten eine Rolle als primärer Teiler spielt.

Gewichtungen

Gibt die Spalte an, mit der die Antwortvariable gewichtet wird.

Verwendete Zeilen

Die Anzahl der im Baum verwendeten Beobachtungen in der Antwortvariablen.

Nicht verwendete Zeilen

Die Anzahl der fehlenden Beobachtungen in der Antwortvariablen. Hierzu zählen auch fehlende Werte, 0 oder negative Werte in der Gewichtungsspalte.

Durch Ihre Nutzung dieser Website stimmen Sie zu, dass Cookies verwendet werden. Cookies dienen zu Analysezwecken und zum Bereitstellen personalisierter Inhalte.  Lesen Sie unsere Richtlinien