Angeben der Standardeinstellungen für CART® Klassifikation

Datei > Optionen > Prädiktive Analysen > CART® Klassifikation

Geben Sie die Standardmethoden für Klassifizierungsstrukturen an. Die an den Standardeinstellungen vorgenommenen Änderungen bleiben auch nach dem Beenden von Minitab in Kraft, bis Sie sie wieder ändern.

Knotenteilungsmethode
Wählen Sie die Aufteilungsmethode aus, um die Entscheidungsstruktur zu generieren. Sie können die Ergebnisse aus mehreren Splitting-Methoden vergleichen, um die beste Wahl für Ihre Anwendung zu ermitteln.
  • : Die Gini-Methode ist die Standardmethode. Die Gini-Methode funktioniert gut in vielen Anwendungen. Die Gini-Methode erzeugt in der Regel Bäume, die kleine Knoten mit einer hohen Konzentration der Reaktion von Interesse enthalten.
  • : Die Entropiemethode ist proportional zum Maximum bestimmter Wahrscheinlichkeitsfunktionen für den Knoten.
  • : Die Twoing-Methode ist nur mit einer multinomiaalen Reaktion verfügbar. Die Twoing-Methode erzeugt in der Regel ausgewogenere Splits als die Gini- oder Entropie-Methoden. Bei einer binären Antwortvariablen ist die Twoing-Methode die gleiche wie die Gini-Methode.
  • : Der Wahrscheinlichkeitsbaum ist tendenziell größer als der Gini-Baum. Verwenden Sie die Wahrscheinlichkeitsmethode, wenn Sie an der Leistung einiger Top-Knoten interessiert sind.
Kriterium für Auswahl des optimalen Baums
Wählen Sie zwischen den folgenden Kriterien, um die Struktur in den Ergebnissen auszuwählen. Sie können die Ergebnisse aus verschiedenen Bäumen vergleichen, um die beste Wahl für Ihre Anwendung zu ermitteln.
  • : Wählen Sie diese Option aus, um die Ergebnisse für die Struktur anzuzeigen, die die Kosten für die Fehlklassifizierung minimiert.
  • : Wählen Sie diese Option aus, um Die Ergebnisse für den kleinsten Baum mit den Fehlklassifizierungskosten innerhalb von K-Standardfehlern der minimalen Fehlklassifizierungskosten anzuzeigen. Standardmäßig K=1, so dass die Ergebnisse für den kleinsten Baum mit einer Fehlklassifizierung Kosten innerhalb 1 Standardfehler des Baumes mit den minimalen Fehlklassifizierungskosten sind.
Minimale Anzahl der Fälle zum Teilen eines internen Knotens
Geben Sie einen Wert ein, um die minimale Anzahl von Fällen darzustellen, die ein interner Knoten aufteilen soll. Der Standardwert ist 10. Bei größeren Stichprobengrößen können Sie dieses Minimum erhöhen. Wenn ein interner Knoten beispielsweise 10 oder mehr Fälle hat, versucht Minitab, eine Aufteilung durchzuführen. Wenn der interne Knoten über 9 oder weniger Fälle verfügt, versucht Minitab nicht, eine Aufteilung durchzuführen.
Die interne Knotengrenze muss mindestens das Doppelte der Terminalknotengrenze betragen, größere Verhältnisse sind jedoch besser. Interne Knotenlimits von mindestens 3-fachen Terminalknotenlimits ermöglichen eine angemessene Anzahl von Splittern.
Der Standardwert ist 10. Bei den Befehlen für die logistische Regression berechnet Minitab Schätzwerte der Maximum-Likelihood über einen iterativen Prozess.
Minimal zulässige Anzahl der Fälle für einen Endknoten
Geben Sie einen Wert ein, um die minimale Anzahl von Anfragen darzustellen, die in einen Terminalknoten getrennt werden können. Der Standardwert ist 3. Bei größeren Stichprobengrößen können Sie dieses Minimum erhöhen. Wenn z. B. eine Teilung einen Knoten mit weniger als 3 Fällen erstellen würde, führt Minitab keine Teilung durch.
Der Standardwert ist 3. Bei den Befehlen für die logistische Regression berechnet Minitab Schätzwerte der Maximum-Likelihood über einen iterativen Prozess.
Fehlende Wertstrafe
Geben Sie einen Strafwert für einen Prädiktor mit fehlenden Werten ein. Da es einfacher ist, ein guter Splitter mit weniger Daten zu sein, haben Prädiktoren mit fehlenden Daten einen Vorteil gegenüber Prädiktoren ohne fehlende Daten. Verwenden Sie diese Option, um Prädiktoren mit fehlenden Daten zu bestrafen.
z. B. 0,0 x K bei 2,0:
  • K = 0: Gibt keine Strafe an.
  • K = 2: Gibt die höchste Strafe an.
Hohe Kategorie Strafe
Geben Sie einen Strafwert für kategoriale Prädiktoren mit vielen Werten ein. Da kategoriale Prädiktoren mit vielen Ebenen einen Baum aufgrund ihrer erhöhten Spaltleistung verzerren können, haben sie einen Vorteil gegenüber Prädiktoren mit weniger Ebenen. Verwenden Sie diese Option, um Prädiktoren mit vielen Ebenen zu bestrafen.
z. B. 0,0 x K bei 5,0:
  • K = 0: Gibt keine Strafe an.
  • K = 5: Gibt die höchste Strafe an.
Anzeige von Grafiken und Tabellen
Raten aus der Verwechslungsmatrix
Wählen Sie die Preise aus, die Sie in Ihrer Verwechslungsmatrix anzeigen möchten.
  • Wahr positiv: True positive rate (TPR) - die Wahrscheinlichkeit, dass ein Ereignisfall korrekt vorhergesagt wird.
  • Falsch positiv: Falsch positive Rate (FPR) - die Wahrscheinlichkeit, dass ein Nicht-Ereignis-Fall falsch vorhergesagt wird.
  • Falsch negativ: Falscher Negativkurs (FNR) - die Wahrscheinlichkeit, dass ein Ereignisfall falsch vorhergesagt wird.
  • True negativ: True negative rate (TNR) - die Wahrscheinlichkeit, dass ein Nicht-Ereignis-Fall korrekt vorhergesagt wird.
Grenzwertoptimierungskurve (ROC-Kurve)
Die Empfänger-Betriebskennung (ROC) zeigt die Fähigkeit eines Baumes, zwischen Klassen zu unterscheiden. Die ROC-Kurve zeichnet die wahre positive Rate (TPR) gegen die falsch positive Rate (FPR) auf.
Gain-Diagramm
Das kumulative Gewinndiagramm veranschaulicht die Effektivität des Modells in einem Teil der Grundgesamtheit. Das Gewinndiagramm zeichnet % Klasse im Vergleich zu % Der Bevölkerung.
Lift-Diagramm
Das Aufzugsdiagramm veranschaulicht die Effektivität des Vorhersagemodells. Das Aufzugsdiagramm zeichnet den kumulativen Auftrieb im Vergleich zu der Bevölkerungszahl von % und zeigt den Unterschied zwischen den Ergebnissen an, die mit und ohne das Vorhersagemodell erzielt wurden. Sie können dieses Diagramm angeben oder für dieses Diagramm festlegen.
Endknotentyp
Wählen Sie aus, ob die besten Knoten, die schlechtesten Knoten oder beide für die Effektivität der Klassifizierungstabelle und die Tabelle Kriterien für die Klassifizierung von Themen angezeigt werden sollen.
  • : Standardmäßig zeigt Minitab die besten Terminalknoten an. Die besten Knoten weisen die höchste Ereigniswahrscheinlichkeit (binär) oder die höchste Klassenwahrscheinlichkeit (multinomiaal) auf. Bei einer binären Antwort weisen die besten Knoten Ereigniswahrscheinlichkeiten in der Nähe der beiden Endfälle 1 oder 0 auf.
  • : Wählen Sie diese Option aus, um die schlechtesten Klemmenknoten anzuzeigen. Die schlechtesten Knoten haben die niedrigste Ereigniswahrscheinlichkeit (binär) oder die niedrigste Klassenwahrscheinlichkeit (multinomiaal) Werte. Bei einer binären Antwort weisen die schlechtesten Knoten Ereigniswahrscheinlichkeiten in der Nähe des mittleren Werts von 0,5 auf.
  • : Wählen Sie diese Option aus, um die besten und schlechtesten Klemmenknoten anzuzeigen.