Methoden und Formeln für Ordinale Logistische Regression

Wählen Sie die gewünschte Methode oder Formel aus.

In diesem Thema

Linkfunktion
Faktoren-/Kovariatenmuster
Ereigniswahrscheinlichkeit
Kumulative Ereigniswahrscheinlichkeit
Koeffizient
Standardfehler der Koeffizienten
Z
p-Wert (p)

Chancenverhältnis
Konfidenzintervall
Log-Likelihood
Varianz-Kovarianz-Matrix
Pearson
Abweichung
Assoziationsmaße

Linkfunktion

Minitab stellt drei Linkfunktionen bereit: Logit (Standard), Normit und Gompit. Mit den Linkfunktionen können Sie eine Vielzahl von Modellen für ordinale Antwortvariablen anpassen. Das Logit stellt die Umkehrung der standardmäßigen kumulativen logistischen Verteilungsfunktion dar. Die Normit-Funktion, auch als Probit bezeichnet, stellt die Umkehrung der standardmäßigen kumulativen Normalverteilungsfunktion dar. Die Gompit-Funktion, auch als komplementärer Log-Log bezeichnet, stellt die Umkehrung der Gompertz-Verteilungsfunktion dar.

Formel

g(χ _k) = θ_k +x'β, k = 1, ..., K-1

Die Linkfunktion stellt die Umkehrung einer Verteilungsfunktion dar. Die Linkfunktionen und die entsprechenden Verteilungen werden im Folgenden dargestellt:

Name	Linkfunktion	Verteilung
Logit	g(χ) = log_e(χ/ (1 – χ))	Logistisch
Normit (Probit)	g(χ) = Φ^–1(χ)	Normal
Gompit (komplementärer Log-Log)	g(χ) =log_e(–log_e(1 – χ))	Gompertz

Notation

Begriff	Beschreibung
K	Anzahl der eindeutigen Kategorien der Antwortvariablen
χ_k	kumulative Wahrscheinlichkeit bis einschließlich Kategorie k, (π ₁+ ...+ π_k )
g(χ _k)	Vektor der Prädiktorvariablen
θ_k	mit der k-ten eindeutigen Kategorie der Antwortvariablen verbundene Konstante
x	ein Vektor mit Prädiktorvariablen
β	ein Vektor mit Koeffizienten, die mit den Prädiktoren verbunden sind

Faktoren-/Kovariatenmuster

Beschreibt einen einzelnen Satz von Faktoren-/Kovariatenwerten in einem Datensatz. Minitab berechnet für jedes Faktoren-/Kovariatenmuster Ereigniswahrscheinlichkeiten, Residuen und weitere Bewertungsmaße.

Wenn ein Datensatz beispielsweise die Faktoren Geschlecht und Ethnie sowie die Kovariate Alter enthält, können die Kombinationen dieser Prädiktoren so viele verschiedene Kovariatenmuster wie Probanden enthalten. Wenn ein Datensatz nur die Faktoren Ethnie und Geschlecht enthält, die jeweils auf zwei Stufen kodiert sind, gibt es nur vier mögliche Faktoren-/Kovariatenmuster. Wenn Sie die Daten als Häufigkeiten oder als Erfolge, Versuche oder Misserfolge eingeben, enthält jede Zeile ein Faktoren-/Kovariatenmuster.

Ereigniswahrscheinlichkeit

Ereigniswahrscheinlichkeiten entsprechen π _k für k = 1, 2, ..., K.

Formel

Notation

Begriff	Beschreibung
k	gleich 1, ..., K – 1
θ_k	Konstante
β	Vektor der Koeffizienten aus der Logit-Gleichung

Kumulative Ereigniswahrscheinlichkeit

Die Wahrscheinlichkeit, dass die Antwortvariable in die Kategorie k oder darunter fällt, für jedes mögliche k. Die k-te kumulative Wahrscheinlichkeit beträgt:

Formel

P(y k) = p₁ + ... + p_k, k = 1, ... , K

Die kumulativen Wahrscheinlichkeiten spiegeln die Reihenfolge der Werte der Antwortvariablen wider. Für ein Modell mit k Kategorien der Antwortvariablen gilt:

P(y 1) <P(y 2) … P(y K) = 1

Da die Summe der Wahrscheinlichkeiten gleich 1 ist, wird für die letzte Kategorie keine Wahrscheinlichkeit berechnet. Die Logits der ersten K – 1 kumulativen Wahrscheinlichkeiten sind:

Koeffizient

Minitab verwendet das Modell der proportionalen Chancen, in dem ein Vektor von Prädiktoren x, einen Parameter β aufweist, der den Effekt von x auf die logarithmierten Chancen der Antwortvariablen in Kategorie k oder darunter beschreibt. Minitab geht von einem identischen Effekt von x für alle K – 1 Kategorien aus, so dass pro Prädiktor nur ein Koeffizient berechnet wird. Der Koeffizient für den Prädiktor gibt bei einem beliebigen festen k einen Schätzwert an, wie stark sich der Logit-Wert der Antwortvariablen ändert, wenn sich der Prädiktor nicht auf der Referenzstufe, sondern auf einer bestimmten anderen Stufe befindet.

Minitab schätzt eine Konstante für jede der K – 1 Kategorien. Verwenden Sie die Parameterschätzwerte, um unter Verwendung des Modells für kumulative Wahrscheinlichkeiten geschätzte Wahrscheinlichkeiten für jede Kategorie zu berechnen:

Formel

Die geschätzten Koeffizienten werden mit Hilfe einer iterativen Methode der jeweils neu gewichteten kleinsten Quadrate berechnet; dies entspricht der Maximum-Likelihood-Schätzmethode.^1,2

Literaturhinweise

D.W. Hosmer und S. Lemeshow (2000). Applied Logistic Regression. 2nd Ed. John Wiley & Sons, Inc.
P. McCullagh und J. A. Nelder (1992). Generalized Linear Model. Chapman & Hall.

Standardfehler der Koeffizienten

Asymptotischer Standardfehler, der die Genauigkeit des geschätzten Koeffizienten angibt. Je geringer der Standardfehler ist, desto genauer ist der Schätzwert.

Weitere Informationen finden Sie unter [1] und [2].

A. Agresti (1990). Categorical Data Analysis. John Wiley & Sons, Inc.
P. McCullagh und J. A. Nelder (1992). Generalized Linear Model. Chapman & Hall.

Z

Mit Hilfe von z wird ermittelt, ob der Prädiktor eine signifikante Beziehung zur Antwortvariablen aufweist. Größere Absolutwerte von z weisen auf eine signifikante Beziehung hin. Der p-Wert gibt an, wo sich z innerhalb der Normalverteilung befindet.

Formel

z = β_i / Standardfehler

Die Formel für die Konstante lautet:

z = θ_k / Standardfehler

Bei kleinen Stichproben ist der Likelihood-Quotienten-Test möglicherweise zuverlässiger zum Erkennen der Signifikanz.

p-Wert (p)

p-Werte werden in Hypothesentests verwendet, um Ihnen die Entscheidung zu ermöglichen, ob eine Nullhypothese zurückgewiesen oder nicht zurückgewiesen werden sollte. Der p-Wert stellt die Wahrscheinlichkeit dar, eine Teststatistik zu erhalten, die mindestens so extrem wie der tatsächlich berechnete Wert ist, wenn die Nullhypothese wahr ist. Ein häufig verwendeter Trennwert für den p-Wert ist 0,05. Wenn beispielsweise der berechnete p-Wert einer Teststatistik kleiner als 0,05 ist, weisen Sie die Nullhypothese zurück.

Chancenverhältnis

Minitab verwendet für die ordinale logistische Regression ein Modell der proportionalen Chancen. Für jeden Prädiktor werden nur ein Parameter und ein Chancenverhältnis berechnet. Für das Chancenverhältnis werden kumulative Wahrscheinlichkeiten und deren Komplemente verwendet. Für einen Prädiktor mit 2 Stufen x ₁ und x ₂ beträgt das kumulative Chancenverhältnis:

Formel

Konfidenzintervall

Formel

Das große Stichprobenkonfidenzintervall für β_i beträgt:

β _i+ Z_α _/2* (Standardfehler)

Um das Konfidenzintervall für das Chancenverhältnis zu erhalten, potenzieren Sie die Unter- und die Obergrenze des Konfidenzintervalls. Das Intervall gibt den Bereich an, in dem die Chance für jede Änderung des Prädiktors um eine Einheit liegen kann.

Notation

Begriff	Beschreibung
α	Signifikanzniveau

Log-Likelihood

Der Ausdruck ist abgeleitet von den einzelnen Dichtefunktionen und wird maximiert, um optimale Werte von β zu ergeben. Die Log-Likelihood kann nicht allein als Maß für die Anpassung verwendet werden, da sie vom Stichprobenumfang abhängt, sie kann aber für den Vergleich von zwei Modellen herangezogen werden.

Für die ordinale logistische Regression sind n unabhängige multinomiale Vektoren mit jeweils k Kategorien vorhanden. Diese Beobachtungen werden als y ₁, ..., y _n bezeichnet, wobei y_i = (y _i1, ..., y_ik ) und Σ _j y_ij = m_i für jedes i fest ist. Der Beitrag der i-ten Beobachtung y_i zur Log-Likelihood beträgt:

Formel

L(π_i ; y_i ) = Σ _k y_ik log π_ik

Die Gesamt-Log-Likelihood ist die Summe der Beiträge aller n Beobachtungen:

L(π ; y) = Σ_i L(π_i ; y_i )

Notation

Begriff	Beschreibung
π_ik	Wahrscheinlichkeit der i-ten Beobachtung für die k-te Kategorie

Varianz-Kovarianz-Matrix

Eine Quadratmatrix der Größe p + K – 1. Die Varianz jedes Koeffizienten befindet sich in der Diagonalzelle, und die Kovarianz jedes Koeffizientenpaars befindet sich in der entsprechenden nicht diagonalen Zelle. Die Varianz ist der quadrierte Standardfehler des Koeffizienten.

Die Varianz-Kovarianz-Matrix ist asymptotisch und ergibt sich aus der letzten Iteration der Umkehrung der Informationsmatrix.

Notation

Begriff	Beschreibung
p	Anzahl der Prädiktoren
K	Anzahl der Kategorien in der Antwortvariablen

Pearson

Hierbei handelt es sich um eine zusammenfassende Statistik auf der Grundlage der Pearson-Residuen, die angibt, wie gut das Modell an die Daten angepasst ist. Der Pearson-Wert ist nicht hilfreich, wenn die Anzahl der eindeutigen Werte der Kovariate annähernd der Anzahl der Beobachtungen entspricht, sie ist jedoch nützlich, wenn wiederholte Beobachtungen auf derselben Kovariatenstufe vorliegen. Höhere χ²-Teststatistiken und niedrigere p-Werte weisen darauf hin, dass das Modell möglicherweise nicht gut an die Daten angepasst ist.

Die Formel lautet:

Hierbei ist r = Pearson-Residuum, m = Anzahl der Versuche im j-ten Faktoren-/Kovariatenmuster und π₀ = hypothetischer Wert des Anteils.

Abweichung

Hierbei handelt es sich um eine zusammenfassende Statistik auf der Grundlage der Abweichungsresiduen, die angibt, wie gut das Modell an die Daten angepasst ist. Die Abweichung ist nicht hilfreich, wenn die Anzahl der eindeutigen Werte der Kovariate annähernd der Anzahl der Beobachtungen entspricht, sie ist jedoch nützlich, wenn wiederholte Beobachtungen auf derselben Kovariatenstufe vorliegen. Höhere D-Werte und niedrigere p-Werte weisen darauf hin, dass das Modell möglicherweise nicht gut an die Daten angepasst ist. Der Test weist (k – 1)*J − (p) Freiheitsgrade auf, wobei k die Anzahl der Kategorien in der Antwortvariablen, J die Anzahl der eindeutigen Faktoren-/Kovariatenmuster und p die Anzahl der Koeffizienten ist.

Die Formel lautet:

D =2 Σ y_iklog p _ik− 2 Σ y_iklog π _ik

wobei π_ik= Wahrscheinlichkeit der i-ten Beobachtung für die k-te Kategorie ist.

Assoziationsmaße

Konkordante und diskordante Paare zeigen an, wie gut das Modell Daten prognostiziert. Je mehr konkordante Paare vorliegen, desto besser sind die Prognosefähigkeiten.

Die Tabelle der konkordanten, diskordanten und gebundenen Paare wird durch Bildung aller möglichen Paare aus Beobachtungen mit unterschiedlichen Werten der Antwortvariablen berechnet. Angenommen, die Antwortvariable weist die Werte 1, 2 und 3 auf. Minitab bildet Paare aus jeder einzelnen Beobachtung mit dem Wert der Antwortvariablen 1 und den Beobachtungen mit den Werten der Antwortvariablen 2 bzw. 3. Dann bildet Minitab Paare aus jeder einzelnen Beobachtung mit dem Wert der Antwortvariablen 2 und den Beobachtungen mit den Werten der Antwortvariablen 1 bzw. 3. Die Gesamtzahl der Paare entspricht der Anzahl der Beobachtungen mit dem Wert der Antwortvariablen 1 multipliziert mit der Anzahl der Beobachtungen mit dem Wert der Antwortvariablen 2 plus die Anzahl der Beobachtungen mit dem Wert der Antwortvariablen 1 multipliziert mit der Anzahl der Beobachtungen mit dem Wert der Antwortvariablen 3 plus die Anzahl der Beobachtungen mit dem Wert der Antwortvariablen 2 multipliziert mit der Anzahl der Beobachtungen mit dem Wert der Antwortvariablen 3.

Um zu ermitteln, ob die Paare konkordant oder diskordant sind, berechnet Minitab die kumulativen prognostizierten Wahrscheinlichkeiten für jede Beobachtung und vergleicht diese Werte für jedes Paar von Beobachtungen.

Konkordant: Für Paare, die den kleinsten Wert der Antwortvariablen enthalten (im obigen Beispiel 1), ist ein Paar konkordant, wenn die kumulative Wahrscheinlichkeit bis zum kleinsten Wert der Antwortvariablen für die Beobachtung mit dem kleinsten Wert der Antwortvariablen größer als für die Beobachtung mit dem höheren Wert der Antwortvariablen Wert der Antwortvariablen. Für Paare mit den höchsten Werten der Antwortvariablen (im obigen Beispiel Paare mit 2 und 3) ist ein Paar konkordant, wenn die kumulative Wahrscheinlichkeit für Werte der Antwortvariablen bis zu 2 für die Beobachtung mit dem Wert der Antwortvariablen 2 größer als für die Beobachtung mit dem Wert der Antwortvariablen 3 ist.
Diskordant: Für Paare, die den kleinsten Wert der Antwortvariablen enthalten (im obigen Beispiel 1), ist ein Paar diskordant, wenn die kumulative Wahrscheinlichkeit bis zum kleinsten Wert der Antwortvariablen für die Beobachtung mit dem höheren Wert der Antwortvariablen größer als für die Beobachtung mit dem kleineren Wert der Antwortvariablen ist. Für Paare mit den höchsten Werten der Antwortvariablen (im obigen Beispiel Paare mit 2 und 3) ist ein Paar diskordant, wenn die kumulative Wahrscheinlichkeit für Werte der Antwortvariablen bis zu 2 für die Beobachtung mit dem Wert der Antwortvariablen 3 größer als für die Beobachtung mit dem Wert der Antwortvariablen 2 ist.
Bindungen: Ein Paar ist gebunden, wenn die Beobachtungen gleiche kumulative Wahrscheinlichkeiten aufweisen.

Formel

Aus der Tabelle der konkordanten, diskordanten und gebundenen Paare berechnet Minitab die folgenden zusammenfassenden Maße:

Notation

Begriff	Beschreibung
nc	Anzahl der konkordanten Paare
nd	Anzahl der diskordanten Paare
nt	Anzahl der gebundenen Paare
N	Gesamtzahl der Beobachtungen