Minitab stellt drei Linkfunktionen bereit: Logit (Standard), Normit und Gompit. Mit den Linkfunktionen können Sie eine Vielzahl von Modellen für ordinale Antwortvariablen anpassen. Das Logit stellt die Umkehrung der standardmäßigen kumulativen logistischen Verteilungsfunktion dar. Die Normit-Funktion, auch als Probit bezeichnet, stellt die Umkehrung der standardmäßigen kumulativen Normalverteilungsfunktion dar. Die Gompit-Funktion, auch als komplementärer Log-Log bezeichnet, stellt die Umkehrung der Gompertz-Verteilungsfunktion dar.
g(χ k ) = θk +x'β, k = 1, ..., K-1
Die Linkfunktion stellt die Umkehrung einer Verteilungsfunktion dar. Die Linkfunktionen und die entsprechenden Verteilungen werden im Folgenden dargestellt:
Name | Linkfunktion | Verteilung |
---|---|---|
Logit | g(χ) = loge(χ/ (1 – χ)) | Logistisch |
Normit (Probit) |
g(χ) = Φ–1(χ) |
Normal |
Gompit (komplementärer Log-Log) | g(χ) =loge (–loge(1 – χ)) | Gompertz |
Begriff | Beschreibung |
---|---|
K | Anzahl der eindeutigen Kategorien der Antwortvariablen |
χk | kumulative Wahrscheinlichkeit bis einschließlich Kategorie k, (π 1+ ...+ πk ) |
g(χ k ) | Vektor der Prädiktorvariablen |
θk | mit der k-ten eindeutigen Kategorie der Antwortvariablen verbundene Konstante |
x | ein Vektor mit Prädiktorvariablen |
β | ein Vektor mit Koeffizienten, die mit den Prädiktoren verbunden sind |
Beschreibt einen einzelnen Satz von Faktoren-/Kovariatenwerten in einem Datensatz. Minitab berechnet für jedes Faktoren-/Kovariatenmuster Ereigniswahrscheinlichkeiten, Residuen und weitere Bewertungsmaße.
Wenn ein Datensatz beispielsweise die Faktoren Geschlecht und Ethnie sowie die Kovariate Alter enthält, können die Kombinationen dieser Prädiktoren so viele verschiedene Kovariatenmuster wie Probanden enthalten. Wenn ein Datensatz nur die Faktoren Ethnie und Geschlecht enthält, die jeweils auf zwei Stufen kodiert sind, gibt es nur vier mögliche Faktoren-/Kovariatenmuster. Wenn Sie die Daten als Häufigkeiten oder als Erfolge, Versuche oder Misserfolge eingeben, enthält jede Zeile ein Faktoren-/Kovariatenmuster.
Ereigniswahrscheinlichkeiten entsprechen π k für k = 1, 2, ..., K.
Begriff | Beschreibung |
---|---|
k | gleich 1, ..., K – 1 |
θk | Konstante |
β | Vektor der Koeffizienten aus der Logit-Gleichung |
Die Wahrscheinlichkeit, dass die Antwortvariable in die Kategorie k oder darunter fällt, für jedes mögliche k. Die k-te kumulative Wahrscheinlichkeit beträgt:
P(y k) = p1 + ... + p k , k = 1, ... , K
Die kumulativen Wahrscheinlichkeiten spiegeln die Reihenfolge der Werte der Antwortvariablen wider. Für ein Modell mit k Kategorien der Antwortvariablen gilt:
P(y 1) <P(y 2) … P(y K) = 1
Minitab verwendet das Modell der proportionalen Chancen, in dem ein Vektor von Prädiktoren x, einen Parameter β aufweist, der den Effekt von x auf die logarithmierten Chancen der Antwortvariablen in Kategorie k oder darunter beschreibt. Minitab geht von einem identischen Effekt von x für alle K – 1 Kategorien aus, so dass pro Prädiktor nur ein Koeffizient berechnet wird. Der Koeffizient für den Prädiktor gibt bei einem beliebigen festen k einen Schätzwert an, wie stark sich der Logit-Wert der Antwortvariablen ändert, wenn sich der Prädiktor nicht auf der Referenzstufe, sondern auf einer bestimmten anderen Stufe befindet.
Minitab schätzt eine Konstante für jede der K – 1 Kategorien. Verwenden Sie die Parameterschätzwerte, um unter Verwendung des Modells für kumulative Wahrscheinlichkeiten geschätzte Wahrscheinlichkeiten für jede Kategorie zu berechnen:
Die geschätzten Koeffizienten werden mit Hilfe einer iterativen Methode der jeweils neu gewichteten kleinsten Quadrate berechnet; dies entspricht der Maximum-Likelihood-Schätzmethode.1,2
Asymptotischer Standardfehler, der die Genauigkeit des geschätzten Koeffizienten angibt. Je geringer der Standardfehler ist, desto genauer ist der Schätzwert.
Weitere Informationen finden Sie unter [1] und [2].
Mit Hilfe von z wird ermittelt, ob der Prädiktor eine signifikante Beziehung zur Antwortvariablen aufweist. Größere Absolutwerte von z weisen auf eine signifikante Beziehung hin. Der p-Wert gibt an, wo sich z innerhalb der Normalverteilung befindet.
z = βi / Standardfehler
Die Formel für die Konstante lautet:
z = θk / Standardfehler
Bei kleinen Stichproben ist der Likelihood-Quotienten-Test möglicherweise zuverlässiger zum Erkennen der Signifikanz.
p-Werte werden in Hypothesentests verwendet, um Ihnen die Entscheidung zu ermöglichen, ob eine Nullhypothese zurückgewiesen oder nicht zurückgewiesen werden sollte. Der p-Wert stellt die Wahrscheinlichkeit dar, eine Teststatistik zu erhalten, die mindestens so extrem wie der tatsächlich berechnete Wert ist, wenn die Nullhypothese wahr ist. Ein häufig verwendeter Trennwert für den p-Wert ist 0,05. Wenn beispielsweise der berechnete p-Wert einer Teststatistik kleiner als 0,05 ist, weisen Sie die Nullhypothese zurück.
Minitab verwendet für die ordinale logistische Regression ein Modell der proportionalen Chancen. Für jeden Prädiktor werden nur ein Parameter und ein Chancenverhältnis berechnet. Für das Chancenverhältnis werden kumulative Wahrscheinlichkeiten und deren Komplemente verwendet. Für einen Prädiktor mit 2 Stufen x 1 und x 2 beträgt das kumulative Chancenverhältnis:
Das große Stichprobenkonfidenzintervall für βi beträgt:
β i + Zα /2* (Standardfehler)
Um das Konfidenzintervall für das Chancenverhältnis zu erhalten, potenzieren Sie die Unter- und die Obergrenze des Konfidenzintervalls. Das Intervall gibt den Bereich an, in dem die Chance für jede Änderung des Prädiktors um eine Einheit liegen kann.
Begriff | Beschreibung |
---|---|
α | Signifikanzniveau |
Der Ausdruck ist abgeleitet von den einzelnen Dichtefunktionen und wird maximiert, um optimale Werte von β zu ergeben. Die Log-Likelihood kann nicht allein als Maß für die Anpassung verwendet werden, da sie vom Stichprobenumfang abhängt, sie kann aber für den Vergleich von zwei Modellen herangezogen werden.
Für die ordinale logistische Regression sind n unabhängige multinomiale Vektoren mit jeweils k Kategorien vorhanden. Diese Beobachtungen werden als y 1, ..., y n bezeichnet, wobei yi = (y i1, ..., yik ) und Σ j yij = mi für jedes i fest ist. Der Beitrag der i-ten Beobachtung yi zur Log-Likelihood beträgt:
L(πi ; yi ) = Σ k yik log πik
Die Gesamt-Log-Likelihood ist die Summe der Beiträge aller n Beobachtungen:
L(π ; y) = Σ i L(πi ; yi )
Begriff | Beschreibung |
---|---|
πik | Wahrscheinlichkeit der i-ten Beobachtung für die k-te Kategorie |
Eine Quadratmatrix der Größe p + K – 1. Die Varianz jedes Koeffizienten befindet sich in der Diagonalzelle, und die Kovarianz jedes Koeffizientenpaars befindet sich in der entsprechenden nicht diagonalen Zelle. Die Varianz ist der quadrierte Standardfehler des Koeffizienten.
Die Varianz-Kovarianz-Matrix ist asymptotisch und ergibt sich aus der letzten Iteration der Umkehrung der Informationsmatrix.
Begriff | Beschreibung |
---|---|
p | Anzahl der Prädiktoren |
K | Anzahl der Kategorien in der Antwortvariablen |
Hierbei handelt es sich um eine zusammenfassende Statistik auf der Grundlage der Pearson-Residuen, die angibt, wie gut das Modell an die Daten angepasst ist. Der Pearson-Wert ist nicht hilfreich, wenn die Anzahl der eindeutigen Werte der Kovariate annähernd der Anzahl der Beobachtungen entspricht, sie ist jedoch nützlich, wenn wiederholte Beobachtungen auf derselben Kovariatenstufe vorliegen. Höhere χ2-Teststatistiken und niedrigere p-Werte weisen darauf hin, dass das Modell möglicherweise nicht gut an die Daten angepasst ist.
Die Formel lautet:
Hierbei ist r = Pearson-Residuum, m = Anzahl der Versuche im j-ten Faktoren-/Kovariatenmuster und π0 = hypothetischer Wert des Anteils.
Hierbei handelt es sich um eine zusammenfassende Statistik auf der Grundlage der Abweichungsresiduen, die angibt, wie gut das Modell an die Daten angepasst ist. Die Abweichung ist nicht hilfreich, wenn die Anzahl der eindeutigen Werte der Kovariate annähernd der Anzahl der Beobachtungen entspricht, sie ist jedoch nützlich, wenn wiederholte Beobachtungen auf derselben Kovariatenstufe vorliegen. Höhere D-Werte und niedrigere p-Werte weisen darauf hin, dass das Modell möglicherweise nicht gut an die Daten angepasst ist. Der Test weist (k – 1)*J − (p) Freiheitsgrade auf, wobei k die Anzahl der Kategorien in der Antwortvariablen, J die Anzahl der eindeutigen Faktoren-/Kovariatenmuster und p die Anzahl der Koeffizienten ist.
Die Formel lautet:
D =2 Σ yik log p ik− 2 Σ yik log π ik
wobei πik = Wahrscheinlichkeit der i-ten Beobachtung für die k-te Kategorie ist.
Konkordante und diskordante Paare zeigen an, wie gut das Modell Daten prognostiziert. Je mehr konkordante Paare vorliegen, desto besser sind die Prognosefähigkeiten.
Die Tabelle der konkordanten, diskordanten und gebundenen Paare wird durch Bildung aller möglichen Paare aus Beobachtungen mit unterschiedlichen Werten der Antwortvariablen berechnet. Angenommen, die Antwortvariable weist die Werte 1, 2 und 3 auf. Minitab bildet Paare aus jeder einzelnen Beobachtung mit dem Wert der Antwortvariablen 1 und den Beobachtungen mit den Werten der Antwortvariablen 2 bzw. 3. Dann bildet Minitab Paare aus jeder einzelnen Beobachtung mit dem Wert der Antwortvariablen 2 und den Beobachtungen mit den Werten der Antwortvariablen 1 bzw. 3. Die Gesamtzahl der Paare entspricht der Anzahl der Beobachtungen mit dem Wert der Antwortvariablen 1 multipliziert mit der Anzahl der Beobachtungen mit dem Wert der Antwortvariablen 2 plus die Anzahl der Beobachtungen mit dem Wert der Antwortvariablen 1 multipliziert mit der Anzahl der Beobachtungen mit dem Wert der Antwortvariablen 3 plus die Anzahl der Beobachtungen mit dem Wert der Antwortvariablen 2 multipliziert mit der Anzahl der Beobachtungen mit dem Wert der Antwortvariablen 3.
Um zu ermitteln, ob die Paare konkordant oder diskordant sind, berechnet Minitab die kumulativen prognostizierten Wahrscheinlichkeiten für jede Beobachtung und vergleicht diese Werte für jedes Paar von Beobachtungen.
Aus der Tabelle der konkordanten, diskordanten und gebundenen Paare berechnet Minitab die folgenden zusammenfassenden Maße:
Begriff | Beschreibung |
---|---|
nc | Anzahl der konkordanten Paare |
nd | Anzahl der diskordanten Paare |
nt | Anzahl der gebundenen Paare |
N | Gesamtzahl der Beobachtungen |