Anpassungen und Bewertung für Poisson-Modell anpassen

Anpassung

Die angepassten Werte sind Punktschätzungen für die durchschnittliche Anzahl von Ereignissen für die gegebenen Werte der Prädiktoren. Die kleinste Anzahl von prognostizierten Ereignissen ist null.

Interpretation

Angepasste Werte werden durch Einsetzen der spezifischen x-Werte für jede Beobachtung im Datensatz in die Modellgleichung berechnet.

Wenn die Gleichung beispielsweise ln(y) = 5 − 2x lautet, ist der angepasste Wert für den x-Wert 2 gleich y = exp(5−2(2)). Der angepasste Wert beträgt 2,72.

Beobachtungen mit angepassten Werten, die stark vom beobachteten Wert abweichen, können ungewöhnlich sein. Beobachtungen mit ungewöhnlichen Prädiktorwerten üben möglicherweise einen starken Einfluss aus. Wenn Minitab feststellt, dass Ihre Daten ungewöhnliche oder einflussreiche Werte enthalten, enthält die Ausgabe die Tabelle „Anpassungen und Bewertung für ungewöhnliche Beobachtungen“, in der die betreffenden Beobachtungen identifiziert werden. Die von Minitab als ungewöhnlich gekennzeichneten Beobachtungen werden durch die vorgeschlagene Regressionsgleichung nicht gut modelliert. Es ist jedoch zu erwarten, dass einige ungewöhnliche Beobachtungen vorliegen. Entsprechend den Kriterien für große standardisierte Residuen ist beispielsweise zu erwarten, dass ca. 5 % der Beobachtungen als Beobachtungen mit einem großen standardisierten Residuum gekennzeichnet werden. Weitere Informationen zu ungewöhnlichen Werten finden Sie unter Ungewöhnliche Beobachtungen.

SE Anpassung

Der Standardfehler der Anpassung (SE Anpassung) ist ein Schätzwert der Streuung im geschätzten Mittelwert der Antwort für die angegebenen Variableneinstellungen. Der Standardfehler der Anpassung wird bei der Berechnung des Konfidenzintervalls für den Mittelwert der Antwortvariablen verwendet. Standardfehler sind immer nicht negativ. Die Analyse berechnet Standardfehler für Modelle aus dem Statistik Menü und Modelle aus Lineare Regression und Binäre logistische Regression aus der Predictive Analytics-Modul.

Interpretation

Verwenden Sie den Standardfehler der Anpassung, um zu ermitteln, wie genau der Schätzwert für den Mittelwert der Antwort ist. Je kleiner der Standardfehler, desto genauer ist der prognostizierte Mittelwert der Antwort. Ein Analytiker entwickelt beispielsweise ein Modell, um die Lieferzeit zu prognostizieren. Für einen Satz von Variableneinstellungen prognostiziert das Modell eine mittlere Lieferzeit von 3,80 Tagen. Der Standardfehler der Anpassung für diese Einstellungen beträgt 0,08 Tage. Für einen zweiten Satz von Variableneinstellungen errechnet das Modell dieselbe mittlere Lieferzeit mit einem Standardfehler der Anpassung von 0,02 Tagen. Der Analytiker kann sich sicherer sein, dass die mittlere Lieferzeit für den zweiten Satz von Variableneinstellungen nahe an 3,80 Tagen liegt.

Mit dem angepassten Wert können Sie den Standardfehler der Anpassung verwenden, um ein Konfidenzintervall für die mittlere Antwortvariablen zu erstellen. Abhängig von der Anzahl der Freiheitsgrade erstreckt sich ein Konfidenzintervall von 95 % beispielsweise über und unter den vorhergesagten Mittelwert. Für die Lieferzeiten beträgt das 95%-Konfidenzintervall des prognostizierten Mittelwerts von 3,80 Tagen bei einem Standardfehler von 0,08 (3,64; 3,96) Tage. Sie können zu 95 % sicher sein, dass der Mittelwert der Grundgesamtheit innerhalb dieses Bereichs liegt. Wenn der Standardfehler 0,02 beträgt, ist das 95%-Konfidenzintervall (3,76; 3,84) Tage. Das Konfidenzintervall für den zweiten Satz von Variableneinstellungen ist schmaler, weil der Standardfehler kleiner ist.

Konfidenzintervall für Anpassung (95%-KI)

Diese Konfidenzintervalle (KI) sind Bereiche von Werten, die wahrscheinlich die mittlere Anzahl von Ereignissen für die Grundgesamtheit enthalten, die die beobachteten Werte der im Modell enthalten Prädiktorvariablen aufweist.

Da die Stichproben zufällig sind, ist es unwahrscheinlich, dass zwei Stichproben aus einer Grundgesamtheit identische Konfidenzintervalle ergeben. Wenn Sie die Stichprobennahme jedoch viele Male wiederholen, enthält ein gewisser Prozentsatz der resultierenden Konfidenzintervalle den unbekannten Parameter der Grundgesamtheit. Der Prozentsatz dieser Konfidenzintervalle, die den Parameter enthalten, stellt das Konfidenzniveau des Intervalls dar.

Das Konfidenzintervall setzt sich aus den folgenden zwei Teilen zusammen:

Interpretation

Verwenden Sie das Konfidenzintervall, um den Schätzwert des angepassten Werts für die beobachteten Werte der Variablen auszuwerten.

Bei einem 95%-Konfidenzniveau können Sie sich beispielsweise zu 95 % sicher sein, dass das Konfidenzintervall die mittlere Anzahl von Ereignissen für die Grundgesamtheit und die angegebenen Werte der Variablen im Modell enthält. Anhand des Konfidenzintervalls können Sie die praktische Signifikanz Ihrer Ergebnisse beurteilen. Bestimmen Sie anhand Ihrer Fachkenntnisse, ob das Konfidenzintervall Werte umfasst, die in der jeweiligen Situation von praktischer Signifikanz sind. Ein breites Konfidenzintervall deutet darauf hin, dass Sie sich bezüglich des Mittelwerts von künftigen Werten weniger sicher sein können. Wenn das Intervall zu breit und damit nicht hilfreich ist, erwägen Sie, den Stichprobenumfang zu vergrößern.

Resid

Das Residuum ist ein Maß dafür, wie genau die Beobachtung durch das Modell prognostiziert wird. In der Standardeinstellung berechnet Minitab die Abweichungsresiduen. Beobachtungen, an die das Modell nicht gut angepasst ist, weisen hohe Abweichungsresiduen und hohe Residuen nach Pearson auf. Minitab berechnet die Residuen für jedes eindeutige Faktoren-/Kovariatenmuster.

Das Residuum wird ungeachtet davon, ob Abweichungsresiduen oder Residuen nach Pearson verwendet werden, gleich interpretiert. Bei zunehmender Anzahl der Versuche für jede Kombination von Prädiktoreinstellungen werden die Abweichungsresiduen und die Residuen nach Pearson einander ähnlicher.

Interpretation

Stellen Sie die Residuen grafisch dar, um zu ermitteln, ob das Modell angemessen ist und die Annahmen für die Regression erfüllt. Eine Untersuchung der Residuen kann nützliche Informationen darüber liefern, wie gut das Modell an die Daten angepasst ist. Im Allgemeinen sollten die Residuen zufällig verteilt sein und weder offensichtliche Muster noch ungewöhnliche Werte aufweisen. Wenn Minitab feststellt, dass die Daten ungewöhnliche Beobachtungen enthalten, werden diese Beobachtungen in der Tabelle „Anpassungen und Bewertung für ungewöhnliche Beobachtungen“ in der Ausgabe identifiziert. Weitere Informationen zu ungewöhnlichen Werten finden Sie unter Ungewöhnliche Beobachtungen.

Std. Resid

Das standardisierte Residuum entspricht dem Wert eines Residuums e_i dividiert durch einen Schätzwert von dessen Standardabweichung.

Interpretation

Verwenden Sie die standardisierten Residuen, um Ausreißer zu erkennen. Standardisierte Residuen größer als 2 bzw. kleiner als −2 werden im Allgemeinen als groß erachtet. In der Tabelle „Anpassungen und Bewertung für ungewöhnliche Beobachtungen“ werden die betreffenden Beobachtungen mit einem „R“ gekennzeichnet. Wenn eine Analyse darauf hindeutet, dass viele ungewöhnliche Beobachtungen vorliegen, weist das Modell in der Regel eine signifikante fehlende Anpassung auf. Dies bedeutet, dass das Modell die Beziehung zwischen den Faktoren und der Antwortvariablen nicht adäquat beschreibt. Weitere Informationen finden Sie unter Ungewöhnliche Beobachtungen.

Standardisierte Residuen sind hilfreich, da Rohresiduen u. U. keine geeigneten Anzeichen für Ausreißer darstellen. Die Varianz jedes Rohresiduums kann um die mit ihm verbundenen x-Werte abweichen. Diese ungleichen Skalen erschweren es, die Größen der Rohresiduen zu beurteilen. Durch das Standardisieren der Residuen wird dieses Problem behoben, indem die unterschiedlichen Varianzen in eine gemeinsame Skala konvertiert werden.

Das Residuum wird ungeachtet davon, ob Abweichungsresiduen oder Residuen nach Pearson verwendet werden, gleich interpretiert. Bei zunehmender Anzahl der Versuche für jede Kombination von Prädiktoreinstellungen werden die Abweichungsresiduen und die Residuen nach Pearson einander ähnlicher.

Entfernte Residuen

Jedes entfernte studentisierte Residuum wird mit einer Formel berechnet, die diesem Verfahren entspricht: Jede einzelne Beobachtung wird systematisch aus dem Datensatz entfernt, die Regressionsgleichung wird geschätzt, und es wird ermittelt, wie genau das Modell die entfernte Beobachtung prognostiziert. Jedes entfernte studentisierte Residuum wird zudem standardisiert, indem das entfernte Residuum einer Beobachtung durch einen Schätzwert seiner Standardabweichung dividiert wird. Die Beobachtung wird entfernt, um das Verhalten des Modells ohne die betreffende Beobachtung zu ermitteln. Wenn eine Beobachtung ein großes studentisiertes entferntes Residuum aufweist (dessen Absolutwert größer als 2 ist), kann es sich um einen Ausreißer in den Daten handeln.

Interpretation

Verwenden Sie die entfernten studentisierten Residuen, um Ausreißer zu erkennen. Jede Beobachtung wird entfernt, um zu ermitteln, wie genau das Modell die Antwortvariable prognostiziert, wenn sie nicht in den Prozess der Modellanpassung eingebunden wird. Entfernte studentisierte Residuen größer als 2 oder kleiner als −2 werden in der Regel als groß erachtet. Die von Minitab gekennzeichneten Beobachtungen werden durch die vorgeschlagene Regressionsgleichung nicht gut modelliert. Es ist jedoch zu erwarten, dass einige ungewöhnliche Beobachtungen vorliegen. Entsprechend den Kriterien für große Residuen ist beispielsweise zu erwarten, dass ca. 5 % der Beobachtungen als Beobachtungen mit einem großen Residuum gekennzeichnet werden. Wenn die Analyse viele ungewöhnliche Beobachtungen aufdeckt, beschreibt das Modell die Beziehung zwischen den Prädiktoren und der Antwortvariablen höchstwahrscheinlich nicht adäquat. Weitere Informationen finden Sie unter Ungewöhnliche Beobachtungen.

Standardisierte und entfernte Residuen können beim Ermitteln von Ausreißern nützlicher als Rohresiduen sein. Es wird eine Korrektur für mögliche Differenzen in der Varianz der Rohresiduen vorgenommen, die auf unterschiedliche Werte der Prädiktoren oder Faktoren zurückzuführen sind.

Hoch (Hebelwirkung)

„Hoch“ (auch als Hebelwirkung bezeichnet) ist ein Maß für den Abstand vom x-Wert einer Beobachtung zum Durchschnitt der x-Werte aller Beobachtungen in einem Datensatz.

Interpretation

Hoch-Werte liegen zwischen 0 und 1. Minitab kennzeichnet Beobachtungen mit Hebelwirkungswerten von mehr als 3p/n oder, falls kleiner, 0,99 in der Tabelle „Anpassungen und Bewertung für ungewöhnliche Beobachtungen“ mit einem „X“. Im Ausdruck 3p/n ist p die Anzahl der Koeffizienten im Modell und n die Anzahl der Beobachtungen. Die von Minitab mit einem „X“ gekennzeichneten Beobachtungen können einflussreich sein.

Beobachtungen mit großem Einfluss wirken sich disproportional auf das Modell aus und können irreführende Ergebnisse verursachen. Das Einbinden oder Ausschließen eines einflussreichen Punkts könnte beispielsweise ändern, ob ein Koeffizient statistisch signifikant ist. Beobachtungen mit großem Einfluss können Hebelwirkungspunkte, Ausreißer oder beides sein.

Wenn Sie eine einflussreiche Beobachtung feststellen, ermitteln Sie, ob es sich bei der Beobachtung um einen Dateneingabe- oder Messfehler handelt. Wenn die Beobachtung weder einen Dateneingabefehler noch einen Messfehler darstellt, bestimmen Sie, wie einflussreich die Beobachtung ist. Passen Sie das Modell zuerst mit der Beobachtung und dann ohne die Beobachtung an. Vergleichen Sie anschließend die Koeffizienten, p-Werte, R²-Werte und weitere Modellinformationen. Wenn sich das Modell nach Entfernen der einflussreichen Beobachtung signifikant ändert, untersuchen Sie das Modell eingehender, um festzustellen, ob Sie das Modell falsch angegeben haben. Möglicherweise müssen Sie weitere Daten erfassen, um das Problem zu beheben.

DFITS

DFITS ist ein Maß für den Effekt der einzelnen Beobachtungen auf die angepassten Werte in einem linearen Modell. DFITS stellt die annähernde Anzahl der Standardabweichungen dar, um die sich der angepasste Wert ändert, wenn je eine Beobachtung aus dem Datensatz entfernt und das Modell erneut angepasst wird.

Interpretation

Beobachtungen mit einem großen DFITS-Wert können einflussreich sein. Häufig wird ein DFITS-Wert als groß betrachtet, wenn er den folgenden Wert überschreitet:

Begriff	Beschreibung
p	Anzahl der Modellterme
n	Anzahl der Beobachtungen

Beobachtungen mit großem Einfluss wirken sich disproportional auf das Modell aus und können irreführende Ergebnisse verursachen. Das Einbinden oder Ausschließen eines einflussreichen Punkts könnte beispielsweise ändern, ob ein Koeffizient statistisch signifikant ist. Beobachtungen mit großem Einfluss können Hebelwirkungspunkte, Ausreißer oder beides sein.

Wenn Sie eine einflussreiche Beobachtung feststellen, ermitteln Sie, ob es sich bei der Beobachtung um einen Dateneingabe- oder Messfehler handelt. Wenn die Beobachtung weder einen Dateneingabefehler noch einen Messfehler darstellt, bestimmen Sie, wie einflussreich die Beobachtung ist. Passen Sie das Modell zuerst mit der Beobachtung und dann ohne die Beobachtung an. Vergleichen Sie anschließend die Koeffizienten, p-Werte, R²-Werte und weitere Modellinformationen. Wenn sich das Modell nach Entfernen der einflussreichen Beobachtung signifikant ändert, untersuchen Sie das Modell eingehender, um festzustellen, ob Sie das Modell falsch angegeben haben. Möglicherweise müssen Sie weitere Daten erfassen, um das Problem zu beheben.

Cook-Distanz (D)

Die Cook-Distanz (D) ist ein Maß für den Effekt einer Beobachtung auf eine Gruppe von Koeffizienten in einem linearen Modell. Bei der Cook-Distanz werden sowohl die Hebelwirkung als auch das standardisierte Residuum jeder Beobachtung berücksichtigt, um den Effekt der betreffenden Beobachtung zu ermitteln.

Interpretation

Beobachtungen mit einem großen D-Wert können einflussreich sein. Ein D-Wert wird häufig als groß betrachtet, wenn er größer als der Median der F-Verteilung F(0,5; p; n–p) ist, wobei p die Anzahl der Modellterme einschließlich der Konstanten und n die Anzahl der Beobachtungen ist. Sie können die D-Werte auch untersuchen, indem Sie sie in einer Grafik vergleichen, beispielsweise in einem Einzelwertdiagramm. Beobachtungen, deren D-Werte im Verhältnis zu denen anderer Beobachtungen groß sind, können einen starken Einfluss ausüben.

Beobachtungen mit großem Einfluss wirken sich disproportional auf das Modell aus und können irreführende Ergebnisse verursachen. Das Einbinden oder Ausschließen eines einflussreichen Punkts könnte beispielsweise ändern, ob ein Koeffizient statistisch signifikant ist. Beobachtungen mit großem Einfluss können Hebelwirkungspunkte, Ausreißer oder beides sein.

Wenn Sie eine einflussreiche Beobachtung feststellen, ermitteln Sie, ob es sich bei der Beobachtung um einen Dateneingabe- oder Messfehler handelt. Wenn die Beobachtung weder einen Dateneingabefehler noch einen Messfehler darstellt, bestimmen Sie, wie einflussreich die Beobachtung ist. Passen Sie das Modell zuerst mit der Beobachtung und dann ohne die Beobachtung an. Vergleichen Sie anschließend die Koeffizienten, p-Werte, R²-Werte und weitere Modellinformationen. Wenn sich das Modell nach Entfernen der einflussreichen Beobachtung signifikant ändert, untersuchen Sie das Modell eingehender, um festzustellen, ob Sie das Modell falsch angegeben haben. Möglicherweise müssen Sie weitere Daten erfassen, um das Problem zu beheben.

Anpassungen und Bewertung für Poisson-Modell anpassen

In diesem Thema

Anpassung

Interpretation

SE Anpassung

Interpretation

Konfidenzintervall für Anpassung (95%-KI)

Interpretation

Resid

Interpretation

Std. Resid

Interpretation

Entfernte Residuen

Interpretation

Hoch (Hebelwirkung)

Interpretation

DFITS

Interpretation

Cook-Distanz (D)

Interpretation