A-priori-Wahrscheinlichkeiten

Die A-priori-Wahrscheinlichkeit ist die Wahrscheinlichkeit, dass eine Beobachtung einer Gruppe angehört, bevor die Daten erfasst werden. Wenn Sie z. B. die Käufer eines bestimmten Autos klassifizieren, wissen Sie vielleicht bereits, dass 60 % der Käufer männlich und 40 % weiblich sind.

Verwenden Sie A-priori-Wahrscheinlichkeiten, um die Klassifikationsgenauigkeit für bestimmte Klassen zu erhöhen. CART trifft auf der Grundlage von A-priori-Wahrscheinlichkeiten andere interne Abwägungsentscheidungen. Durch Erhöhen der Wahrscheinlichkeit einer Klasse und Verringern der Wahrscheinlichkeit einer anderen Klasse können die Fehlklassifikationsquoten für verschiedene Klassen ausgeglichen werden. So können beispielsweise die Erhöhung der Ereigniswahrscheinlichkeit und die Verringerung der Wahrscheinlichkeit eines Nicht-Ereignisses die Falsch-Positiv-Rate verbessern, während sich die Falsch-Negativ-Rate verschlechtert.

Durch Erhöhen der Ereigniswahrscheinlichkeit wird der Knotenschwellenwert für die Klassenzuweisung für das Ereignis herabgesetzt. Dadurch werden Knoten mit niedrigeren Anteilen der Ereignisklasse als Ereignis klassifiziert. A-priori-Wahrscheinlichkeiten haben während der Baumwachstumsphase den stärksten Einfluss auf die Entwicklung des gesamten Baums; sie eröffnen effektive Möglichkeiten zum Ändern des endgültigen Modells.

Interpretation

Gleich für alle Klassen
Bei beispielsweise vier Klassen beträgt jede Klassenwahrscheinlichkeit 0,25.
An Gesamt-Stichprobenhäufigkeiten anpassen
Beispielsweise kann die erste Klasse 50 % der Häufigkeiten, die zweite Klasse 30 % der Häufigkeiten und die letzte Klasse 20 % der Häufigkeiten enthalten. Somit liegen die A-priori-Wahrscheinlichkeiten bei 0,50; 0,30 und 0,20.
Benutzerspezifisch
Die A-priori-Wahrscheinlichkeiten basieren auf Ihrer eigenen Einschätzung, und sie können geändert werden, um Fehlklassifikationsquoten auszugleichen. Die Summe der Wahrscheinlichkeiten muss 1 ergeben.

Knotenteilung

Minitab bietet die folgenden Methoden zur Knotenteilung:
  • Gini
  • Entropie
  • Klassenwahrscheinlichkeit
  • Twoing: verfügbar bei einer multinomialen Antwortvariablen. Die Twoing-Methode entspricht der Gini-Methode bei einer binären Antwortvariablen.

Interpretation

Verwenden Sie die Teilungsmethode, um den Baum zu finden, der am besten für Ihre Daten passend ist. Bestimmte Teilungsmethoden können je nach Ihren Daten besser als andere geeignet sein. Vergleichen Sie die Ergebnisse mehrerer Teilungsmethoden, um die beste Option für Ihre Anwendung zu ermitteln.

Optimaler Baum

Zum Bestimmen des optimalen Baums verwendet Minitab entweder die minimalen Fehlklassifikationskosten, oder Sie können einen Standardfehlerbereich rund um die Fehlklassifikationskosten angeben, um die Auswahl des optimalen Baums zu erweitern.
Minimale Fehlklassifikationskosten
Minitab verwendet die minimalen relativen Kosten, um den optimalen Baum auszuwählen.
Innerhalb von X Standardfehlern der minimalen Fehlklassifikationskosten
Minitab identifiziert die Bäume mit Fehlklassifikationskosten innerhalb des von Ihnen angegebenen Standardfehlerbereichs und wählt in diesem Bereich den Baum mit der kleinsten Anzahl von Endknoten als optimalen Baum aus.

Modellvalidierung

Minitab verwendet die Kreuzvalidierung oder einen separaten Testdatensatz, um das Modell zu validieren. Mit der Kreuzvalidierung können Sie die Zeilen für jede Faltung angeben oder eine Zufallsauswahl zulassen. Mit einem separaten Testdatensatz können Sie die Zeilen für Trainings- und Testdatensätze angeben oder eine Zufallsauswahl zulassen.

Strafe für fehlenden Wert

Durch die Strafe für einen fehlenden Wert erhalten Konkurrenten entsprechend dem Anteil der fehlenden Werte für jeden Knoten einen Abzug. Daher ist es weniger wahrscheinlich, dass ein Konkurrent mit vielen fehlenden Werten in einem Knoten den primären Teiler darstellt.

Strafe für Kategorie auf hoher Stufe

Durch die Strafe für eine Kategorie auf hoher Stufe erhalten Konkurrenten entsprechend der Anzahl der kategorialen Stufen relativ zur Größe des Knotens für jeden Knoten einen Abzug. Daher ist es weniger wahrscheinlich, dass ein Konkurrent mit vielen Stufen in einem Knoten den primären Teiler darstellt.

Gewichtungen

Gibt die Spalte an, mit der die Antwortvariable gewichtet wird.

Verwendete Zeilen

Die Anzahl der im Baum verwendeten Beobachtungen in der Antwortvariablen.

Nicht verwendete Zeilen

Die Anzahl der fehlenden Beobachtungen in der Antwortvariablen. Dazu gehören auch fehlende Werte oder Nullen in der Gewichtungsspalte.

Durch Ihre Nutzung dieser Website stimmen Sie zu, dass Cookies verwendet werden. Cookies dienen zu Analysezwecken und zum Bereitstellen personalisierter Inhalte.  Lesen Sie unsere Richtlinien