Modellreduzierung

Als Modellreduzierung wird das Entfernen von Termen aus dem Modell bezeichnet, z. B. des Terms für eine Prädiktorvariable oder die Wechselwirkung zwischen Prädiktorvariablen. Mit der Modellreduzierung können Sie ein Modell vereinfachen und die Genauigkeit der Prognosen steigern. In Minitab können Sie die Modelle reduzieren, die mit jeder Gruppe von Befehlen erstellt wurden, einschließlich der Befehle für Regression, ANOVA, DOE und Zuverlässigkeit.

Ein Kriterium für die Modellreduzierung ist die statistische Signifikanz eines Terms. Durch das Entfernen von statistisch nicht signifikanten Termen steigt die Genauigkeit der Prognosen, die mit dem Modell erstellt werden können. Um das Kriterium der statistischen Signifikanz zu verwenden, wählen Sie zuerst ein Signifikanzniveau aus, z. B. 0,05 oder 0,15. Probieren Sie dann verschiedene Terme aus, um ein Modell mit möglichst vielen statistisch signifikanten, jedoch ohne statistisch nicht signifikante Terme zu erarbeiten. Um das Kriterium der statistischen Signifikanz verwenden zu können, müssen die Daten ausreichend Freiheitsgrade zum Schätzen der statistischen Signifikanz nach dem Anpassen des Modells aufweisen. Das Kriterium der statistischen Signifikanz lässt sich manuell oder automatisch mit einem algorithmischen Verfahren anwenden, z. B. mit der schrittweisen Regression. Das Kriterium der statistischen Signifikanz dient dazu, ein Modell zu finden, das Ihren Zielen entspricht. Mit dem Kriterium der statistischen Signifikanz lässt sich jedoch nicht immer das eindeutig beste Modell finden.

Neben dem Kriterium der statistischen Signifikanz berechnet Minitab weitere statistische Kriterien für Modelle, darunter S, angepasstes R², prognostiziertes R², PRESS, Mallows-Cp und AIC (Akaike Information Criterion). Beim Reduzieren eines Modells können Sie eines oder mehrere dieser Kriterien berücksichtigen.

Ähnlich wie die schrittweise Regression stellt die Regression der besten Teilmengen ein algorithmisches Verfahren dar, mit dem Sie ein Modell finden können, das Ihren Zielen entspricht. Bei der Regression der besten Teilmengen werden alle Modelle untersucht und diejenigen identifiziert, die die höchsten Werte von R² aufweisen. In Minitab werden mit der Regression der besten Teilmengen außerdem weitere Statistiken angezeigt, z. B. das angepasste R² und das prognostizierte R². Sie können diese Statistiken beim Vergleichen von Modellen heranziehen. Da bei der Regression der besten Teilmengen das R² verwendet wird, weisen die Modelle, die als die besten identifiziert werden, nicht zwangsläufig nur statistisch signifikante Terme auf. Beim Reduzieren eines Modells sollten sie außerdem andere statistische Kriterien wie Multikollinearität und Hierarchie berücksichtigen. Diese beiden Konzepte werden im Folgenden genauer erläutert.

Statistiken, mit denen gemessen wird, wie gut ein Modell an die Daten angepasst ist, können bei der Auswahl eines geeigneten Modells hilfreich sein. Bei der Entscheidung, welche Terme Sie entfernen, sollten Sie jedoch auch Prozesskenntnisse und Ihr eigenes Urteilsvermögen einsetzen. Einige Terme können unverzichtbar sein, während andere möglicherweise zu aufwändig oder zu schwierig zu erfassen sind.

Einfaches Beispiel für die Reduzierung eines Modells

Techniker messen den Gesamtwärmefluss im Rahmen eines Tests in Bezug auf solarthermische Energie. Ein Energieingenieur möchte bestimmen, wie der Gesamtwärmefluss anhand von anderen Variablen prognostiziert wird: Isolierung, Position der Fokuspunkte in östlicher, südlicher und nördlicher Richtung sowie Tageszeit. Unter Verwendung des vollständigen Regressionsmodells ermittelt der Ingenieur die folgende Beziehung zwischen dem Wärmefluss und den Variablen.

Regressionsgleichung Wärmefluss = 325,4 + 2,55 Ost + 3,80 Süd - 22,95 Nord + 0,0675 Isolierung + 2,42 Tageszeit

Koeffizienten Term Koef SE Koef t-Wert p-Wert VIF Konstante 325,4 96,1 3,39 0,003 Ost 2,55 1,25 2,04 0,053 1,36 Süd 3,80 1,46 2,60 0,016 3,18 Nord -22,95 2,70 -8,49 0,000 2,61 Isolierung 0,0675 0,0290 2,33 0,029 2,32 Tageszeit 2,42 1,81 1,34 0,194 5,37

Der Ingenieur möchte so viele nicht signifikante Terme wie möglich entfernen, um die Genauigkeit der Prognosen zu maximieren. Er entscheidet sich, 0,05 als Schwellenwert für die statistische Signifikanz zu verwenden. Der p-Wert für die Tageszeit (0,194) ist der höchste p-Wert, der größer als 0,05 ist, und daher entfernt der Ingenieur diesen Term zuerst. Der Ingenieur wiederholt die Regression und entfernt jedes Mal einen nicht signifikanten Term, bis nur statistisch signifikante Terme verbleiben. Das endgültige reduzierte Modell sieht folgendermaßen aus:

Regressionsgleichung Wärmefluss = 483,7 + 4,796 Süd - 24,22 Nord

Koeffizienten Term Koef SE Koef t-Wert p-Wert VIF Konstante 483,7 39,6 12,22 0,000 Süd 4,796 0,951 5,04 0,000 1,09 Nord -24,22 1,94 -12,48 0,000 1,09

Multikollinearität

Multikollinearität bei der Regression ist eine Bedingung, die eintritt, wenn Prädiktorvariablen im Modell mit anderen Prädiktorvariablen korrelieren. Eine stark ausgeprägte Multikollinearität ist problematisch, da sie zu einer erhöhten Varianz der Regressionskoeffizienten führen kann, die dadurch instabil werden. Wenn Sie einen Term mit hoher Multikollinearität entfernen, können sich die statistische Signifikanz und die Werte der Koeffizienten von hochgradig korrelierten Termen beträchtlich ändern. Daher ist es bei vorliegender Multikollinearität umso wichtiger, mehrere statistische Maße zu betrachten und das Modell jeweils nur um einen Term zu verändern. In der Regel reduzieren Sie soviel Multikollinearität wie möglich, bevor Sie ein Modell reduzieren. Weitere Informationen zum Reduzieren von Multikollinearität finden Sie unter Multikollinearität bei der Regression.

Beispiel für die Auswirkungen von Multikollinearität auf das Kriterium der statistischen Signifikanz

Ein Team an einer medizinischen Einrichtung entwickelt ein Modell, um die Werte der Patientenzufriedenheit zu prognostizieren. Das Modell enthält verschiedene Variablen, einschließlich der Zeit, die Patienten bei einem Arzt verbringen, und der Zeit, während der medizinische Tests an den Patienten vorgenommen werden. Wenn beide Variablen im Modell enthalten sind, ist die Multikollinearität hoch, mit einem Varianzinflationsfaktor (VIF) von 8,91. Werte, die größer als 5 sind, weisen in der Regel auf starke Multikollinearität hin. Der p-Wert für die Zeit, die Patienten bei einem Arzt verbringen, liegt bei 0,105, ist also bei einem Signifikanzniveau von 0,05 nicht signifikant. Das prognostizierte R² für dieses Modell beträgt 22,9 %.

Regressionsanalyse: Zufriedenheit vs. Zeit beim Arzt; Zeit in Tests

Zusammenfassung des Modells S R-Qd R-Qd(kor) R-Qd(prog) 0,951953 28,68% 25,64% 22,91%

Koeffizienten Term Koef SE Koef t-Wert p-Wert VIF Konstante -0,078 0,156 -0,50 0,618 Zeit beim Arzt 0,1071 0,0648 1,65 0,105 8,91 Zeit in Tests -0,516 0,178 -2,90 0,006 8,91

Das prognostizierte R² für das Modell, das nur die Zeit für Tests enthält, sinkt von 22,9 % auf 10,6 %. Obwohl die Zeit, die Patienten bei einem Arzt verbringen, auf einem Signifikanzniveau von 0,05 nicht signifikant ist, führt das Einbinden dieser Variablen zu einem mehr als doppelt so hohem R². Die hohe Multikollinearität könnte die Bedeutung des Prädiktors maskieren.

Regressionsanalyse: Zufriedenheit vs. Zeit in Tests

Zusammenfassung des Modells S R-Qd R-Qd(kor) R-Qd(prog) 0,968936 24,54% 22,96% 10,61%

Koeffizienten Term Koef SE Koef t-Wert p-Wert VIF Konstante -0,162 0,150 -1,08 0,285 Zeit in Tests -0,2395 0,0606 -3,95 0,000 1,00

Hierarchie

Ein hierarchisches Modell ist ein Modell, bei dem für jeden Term im Modell alle Terme niedrigerer Ordnung ebenfalls im Modell enthalten sind. Angenommen, ein Modell weist vier Faktoren auf: A, B, C und D. Wenn der Term A*B*C im Modell enthalten ist, müssen die Terme A, B, C, A*B, A*C und B*C ebenfalls im Modell enthalten sein. Terme mit D müssen nicht im Modell enthalten sein, weil D nicht im Term A*B*C enthalten ist. Die hierarchische Struktur gilt auch für die Schachtelung. Wenn B(A) im Modell enthalten ist, muss A ebenfalls im Modell enthalten sein, damit das Modell hierarchisch ist.

Eine Hierarchie ist empfehlenswert, da hierarchische Modelle von standardisierten in nicht standardisierte Einheiten übertragen werden können. Standardisierte Einheiten sind gebräuchlich, wenn das Modell Terme höherer Ordnung wie Wechselwirkungen enthält, weil mit der Standardisierung die Multikollinearität reduziert wird, die diese Terme verursachen.

Da eine Hierarchie empfehlenswert ist, ist die Reduzierung des hierarchischen Modells üblich. Eine Strategie besteht z. B. darin, dass Kriterium des p-Werts in Kombination mit der Hierarchie zur Reduzierung des Modells zu verwenden. Zuerst entfernen Sie die komplexesten Terme, die statistisch nicht signifikant sind. Wenn ein statistisch nicht signifikanter Term Teil eines Wechselwirkungsterms oder eines Terms höherer Ordnung ist, dann verbleibt der Term im Modell. Bei der schrittweisen Modellauswahl in Minitab können das Kriterium der Hierarchie sowie das Kriterium der statistischen Signifikanz verwendet werden.

Beispiel für eine hierarchische Modellreduzierung

Ein Materialtechniker eines Baumaterialherstellers entwickelt ein neues Dämmstoffprodukt. Der Techniker entwirft ein zweistufiges vollfaktorielles Experiment, um die verschiedenen Faktoren zu untersuchen, die den Dämmwert des Dämmstoffs beeinflussen könnten. Der Techniker bezieht Wechselwirkungen in das Modell ein, um zu ermitteln, ob die Effekte der Faktoren voneinander abhängig sind. Da Wechselwirkungen zu Multikollinearität führen, kodiert der Techniker die Prädiktoren, um die Multikollinearität zu reduzieren.

Der höchste p-Wert für das erste Modell, das der Techniker untersucht, beträgt 0,985 für die Wechselwirkung zwischen Einspritztemperatur und Material. Unter der Tabelle der kodierten Koeffizienten kann der Techniker die Regressionsgleichung in nicht kodierten Einheiten untersuchen. Mit Hilfe der Regressionsgleichung kann der Techniker die Größe der Effekte in denselben Einheiten wie die Daten auswerten.

Regressionsanalyse: Isolierung vs. EinsprDruck; EinsprTemp; AbkühlTemp; ...

Regressionsgleichung in nicht kodierten Einheiten Material Formel1 Isolierung = 26,6 + 0,154 EinsprDruck - 0,213 EinsprTemp - 0,906 AbkühlTemp - 0,00138 EinsprDruck*EinsprTemp - 0,00267 EinsprDruck*AbkühlTemp + 0,01137 EinsprTemp*AbkühlTemp + 0,000036 EinsprDruck*EinsprTemp*AbkühlTemp Formel2 Isolierung = 28,3 + 0,125 EinsprDruck - 0,179 EinsprTemp - 0,597 AbkühlTemp - 0,00073 EinsprDruck*EinsprTemp - 0,00369 EinsprDruck*AbkühlTemp + 0,00831 EinsprTemp*AbkühlTemp + 0,000036 EinsprDruck*EinsprTemp*AbkühlTemp

Kodierte Koeffizienten Term Koef SE Koef t-Wert p-Wert VIF Konstante 17,463 0,203 86,13 0,007 EinsprDruck 1,835 0,203 9,05 0,070 2,00 EinsprTemp 1,276 0,203 6,29 0,100 2,00 AbkühlTemp 2,173 0,203 10,72 0,059 2,00 Material Formel2 5,192 0,287 18,11 0,035 1,00 EinsprDruck*EinsprTemp -0,036 0,203 -0,18 0,887 2,00 EinsprDruck*AbkühlTemp 0,238 0,203 1,17 0,449 2,00 EinsprTemp*AbkühlTemp 1,154 0,203 5,69 0,111 2,00 EinsprDruck*Material Formel2 -0,198 0,287 -0,69 0,615 2,00 EinsprTemp*Material Formel2 -0,007 0,287 -0,02 0,985 2,00 AbkühlTemp*Material Formel2 -0,898 0,287 -3,13 0,197 2,00 EinsprDruck*EinsprTemp*AbkühlTemp 0,100 0,143 0,70 0,611 1,00 EinsprDruck*EinsprTemp*Material Formel2 0,181 0,287 0,63 0,642 2,00 EinsprDruck*AbkühlTemp*Material Formel2 -0,385 0,287 -1,34 0,408 2,00 EinsprTemp*AbkühlTemp*Material Formel2 -0,229 0,287 -0,80 0,570 2,00

Wenn der Techniker zum Reduzieren des Modells nur das Kriterium des p-Werts verwendet, ist das nächste Modell nicht hierarchisch, da eine Zwei-Faktor-Wechselwirkung entfernt wird, die Bestandteil einer Drei-Faktor-Wechselwirkung ist. Da das Modell nicht hierarchisch ist, sind die nicht kodierten Koeffizienten nicht vorhanden. Die Regressionsgleichung für das nicht hierarchische Modell ist also in kodierten Einheiten angegeben. Die kodierte Regressionsgleichung liefert keine Informationen über die Effekte in denselben Einheiten wie die Daten.

Regressionsanalyse: Isolierung vs. EinsprDruck; EinsprTemp; AbkühlTemp; ...

Regressionsgleichung in kodierten Einheiten Material Formel1 Isolierung = 17,463 + 1,835 EinsprDruck + 1,272 EinsprTemp + 2,173 AbkühlTemp - 0,036 EinsprDruck*EinsprTemp + 0,238 EinsprDruck*AbkühlTemp + 1,154 EinsprTemp*AbkühlTemp + 0,100 EinsprDruck*EinsprTemp*AbkühlTemp Formel2 Isolierung = 22,655 + 1,637 EinsprDruck + 1,272 EinsprTemp + 1,275 AbkühlTemp + 0,145 EinsprDruck*EinsprTemp - 0,147 EinsprDruck*AbkühlTemp + 0,924 EinsprTemp*AbkühlTemp + 0,100 EinsprDruck*EinsprTemp*AbkühlTemp

Kodierte Koeffizienten Term Koef SE Koef t-Wert p-Wert VIF Konstante 17,463 0,143 121,77 0,000 EinsprDruck 1,835 0,143 12,80 0,006 2,00 EinsprTemp 1,272 0,101 12,55 0,006 1,00 AbkühlTemp 2,173 0,143 15,15 0,004 2,00 Material Formel2 5,192 0,203 25,60 0,002 1,00 EinsprDruck*EinsprTemp -0,036 0,143 -0,25 0,824 2,00 EinsprDruck*AbkühlTemp 0,238 0,143 1,66 0,239 2,00 EinsprTemp*AbkühlTemp 1,154 0,143 8,04 0,015 2,00 EinsprDruck*Material Formel2 -0,198 0,203 -0,98 0,431 2,00 AbkühlTemp*Material Formel2 -0,898 0,203 -4,43 0,047 2,00 EinsprDruck*EinsprTemp*AbkühlTemp 0,100 0,101 0,99 0,427 1,00 EinsprDruck*EinsprTemp*Material Formel2 0,181 0,203 0,89 0,466 2,00 EinsprDruck*AbkühlTemp*Material Formel2 -0,385 0,203 -1,90 0,198 2,00 EinsprTemp*AbkühlTemp*Material Formel2 -0,229 0,203 -1,13 0,375 2,00

Anstatt das Kriterium des p-Werts zu verwenden, entscheidet sich der Techniker, zuerst die komplexesten Terme mit hohen p-Werten zu entfernen. In diesem Modell entfernt der Ingenieur anstelle des Terms mit dem höchsten p-Wert die Drei-Faktor-Wechselwirkung mit dem höchsten p-Wert. Der höchste p-Wert für eine Drei-Faktor-Wechselwirkung beträgt 0,466 für die Wechselwirkung zwischen Einspritzdruck, Einspritztemperatur und Material.