In welchen Fällen werden die einzelnen Datenformate bei der binären logistischen Regression verwendet?

Bei der binären logistischen Regression können Sie Daten in zwei verschiedenen Formaten eingeben: im binären Antwort-/Häufigkeitenformat und im Ereignis-/Versuchsformat. Das Format der Daten für die Analyse sollte in der Regel mit der Art und Weise der Datenerfassung übereinstimmen.

Warum werden Daten im Ereignis-/Versuchsformat verwendet?

Sie erfassen und analysieren Daten in der Regel im Ereignis-/Versuchsformat, weil Sie damit viele Versuche gleichzeitig erfassen können. Beispiel: Ein Techniker stellt eine Charge von 200 integrierten Schaltkreisen her. Für alle Schaltkreise in der Charge müssen dieselben Prozesseinstellungen verwendet werden. Diese 200 Schaltkreise sind 200 Versuche. Wenn der Techniker Daten zu einer anderen Charge mit denselben Einstellungen erfasst, befinden sich die Daten in einer separaten Zeile.

Beispiel für das Ereignis-/Versuchsformat

Beim Ereignis-/Versuchsformat werden zwei Spalten für die Antwortvariable verwendet. Eine Spalte enthält die Anzahl der Erfolge bzw. Ereignisse von Interesse. Die andere Spalte enthält die Anzahl der Versuche.

In diesem Arbeitsblatt enthält Erfolge die Anzahl der Ereignisse, die angibt, wie viele Schaltkreise einen elektrischen Funktionstest bestanden haben. Versuche enthält die Anzahl der Versuche, die der Gesamtzahl der Chips entspricht, die für diese Kombination von Prädiktorvariablen hergestellt wurden. Temperatur ist ein stetiger Prädiktor. Rohmaterial ist ein kategorialer Prädiktor. Die erste Zeile des Arbeitsblatts zeigt eine Charge von 200 Chips, die bei einer Temperatur von 1500 aus dem Rohmaterial von Lieferant B hergestellt wurde. 180 dieser Schaltkreise bestanden den elektrischen Funktionstest.
C1 C2 C3 C4
Erfolge Versuche Temperatur Rohmaterial
180 200 1500 Lieferant B
200 200 1400 Lieferant A
196 200 1500 Lieferant A
197 200 1400 Lieferant B
190 200 1400 Lieferant A
193 200 1400 Lieferant B
198 200 1500 Lieferant A
185 200 1500 Lieferant B

Hinweis

Wenn die Daten im Arbeitsblatt das Ereignis-/Versuchsformat aufweisen, die Anzahl der Versuche pro Zeile aber gering ist, ändern sich Zuverlässigkeit und Interpretation der Statistiken. Beispiel: Wenn jede Zeile 1 Versuch enthält, beträgt die Anzahl der Ereignisse pro Zeile entweder 0 oder 1. Die Analyse dieser Daten ist die gleiche wie bei Daten im binären Antwort-/Häufigkeitenformat ohne Häufigkeitenspalte.

Warum werden Daten im binären Antwort-/Häufigkeitenformat verwendet?

Sie erfassen und analysieren Daten in der Regel im binären Antwort-/Häufigkeitenformat, weil Sie damit das Ergebnis jedes einzelnen Versuchs unmittelbar erfassen können. Beispiel: Ein Marketingberater befragt Verbraucher direkt bei Verlassen des Supermarkts, ob sie eine neue Frühstücksflockenmarke gekauft haben. Der Berater zeichnet die individuellen Informationen jedes Verbrauchers auf, sobald dieser antwortet.

Beispiel für Daten im binären Antwort-/Häufigkeitenformat

Beim binären Antwort-/Häufigkeitenformat wird eine Spalte für die Antwortvariable verwendet. Die Spalte der Antwortvariablen enthält zwei Werte, von denen einer für das Ereignis und einer für das Nicht-Ereignis steht.

In diesem Arbeitsblatt ist Gekauft die Antwortvariable; diese Spalte gibt an, ob ein Verbraucher eine neue Frühstücksflockenmarke gekauft hat. Das Ereignis der Antwortvariablen lautet Ja. Einkommen ist ein stetiger Prädiktor und Kinder ist ein kategorialer Prädiktor. Die erste Zeile in diesem Arbeitsblatt zeigt, dass der erste Verbraucher, den der Berater befragte, Kinder hatte, über ein Einkommen von 37.000 $ verfügte und die neue Frühstücksflockenmarke kaufte.
C1 C2 C3
Gekauft Einkommen Kinder
Ja 37 Ja
Nein 47 Ja
Ja 34 Nein
Ja 58 Nein

Bei Daten im binären Antwort-/Häufigkeitenformat können Sie eine Häufigkeitenspalte einbinden. Für eine möglichst eindeutige Interpretation des Diagramms der Residuen im Vergleich zur Reihenfolge kombinieren Sie nur aufeinander folgende Beobachtungen. Die Kombination nicht aufeinander folgender Beobachtungen kann zu Mustern im Diagramm der Residuen im Vergleich zur Reihenfolge führen oder diese maskieren.

In diesem Arbeitsblatt sind die Antwort- und Prädiktorvariablen dieselben wie im vorigen Beispiel, aber die Daten enthalten auch eine Häufigkeitenvariable. Die Spalte Häufigkeit enthält die Anzahl der Verbraucher, die der Kombination der Werte von Antwortvariable und Prädiktoren in jeder Zeile entspricht. Die erste Zeile in diesem Arbeitsblatt zeigt, dass 2 Verbraucher mit Kindern und einem Einkommen von 40.000 $ die neue Frühstücksflockenmarke kauften. Wenn dies nicht die zwei ersten Verbraucher waren, die befragt wurden, dann weicht die Reihenfolge der Daten im Arbeitsblatt von der Reihenfolge bei der Datenerfassung ab. Muster im Diagramm der Residuen im Vergleich zur Reihenfolge können verborgen oder für die Daten in der geänderten Reihenfolge bedeutungslos sein.
C1 C2 C3 C4
Gekauft Einkommen Kinder Häufigkeit
Ja 40 Ja 2
Nein 40 Nein 12
Ja 45 Ja 1
Nein 45 Nein 6