Als Modellreduzierung wird das Entfernen von Termen aus dem Modell bezeichnet, z. B. des Terms für eine Prädiktorvariable oder die Wechselwirkung zwischen Prädiktorvariablen. Mit der Modellreduzierung können Sie ein Modell vereinfachen und die Genauigkeit der Prognosen steigern. In Minitab können Sie die Modelle reduzieren, die mit jeder Gruppe von Befehlen erstellt wurden, einschließlich der Befehle für Regression, ANOVA, DOE und Zuverlässigkeit.
Ein Kriterium für die Modellreduzierung ist die statistische Signifikanz eines Terms. Durch das Entfernen von statistisch nicht signifikanten Termen steigt die Genauigkeit der Prognosen, die mit dem Modell erstellt werden können. Um das Kriterium der statistischen Signifikanz zu verwenden, wählen Sie zuerst ein Signifikanzniveau aus, z. B. 0,05 oder 0,15. Probieren Sie dann verschiedene Terme aus, um ein Modell mit möglichst vielen statistisch signifikanten, jedoch ohne statistisch nicht signifikante Terme zu erarbeiten. Um das Kriterium der statistischen Signifikanz verwenden zu können, müssen die Daten ausreichend Freiheitsgrade zum Schätzen der statistischen Signifikanz nach dem Anpassen des Modells aufweisen. Das Kriterium der statistischen Signifikanz lässt sich manuell oder automatisch mit einem algorithmischen Verfahren anwenden, z. B. mit der schrittweisen Regression. Das Kriterium der statistischen Signifikanz dient dazu, ein Modell zu finden, das Ihren Zielen entspricht. Mit dem Kriterium der statistischen Signifikanz lässt sich jedoch nicht immer das eindeutig beste Modell finden.
Neben dem Kriterium der statistischen Signifikanz berechnet Minitab weitere statistische Kriterien für Modelle, darunter S, angepasstes R2, prognostiziertes R2, PRESS, Mallows-Cp und AIC (Akaike Information Criterion). Beim Reduzieren eines Modells können Sie eines oder mehrere dieser Kriterien berücksichtigen.
Ähnlich wie die schrittweise Regression stellt die Regression der besten Teilmengen ein algorithmisches Verfahren dar, mit dem Sie ein Modell finden können, das Ihren Zielen entspricht. Bei der Regression der besten Teilmengen werden alle Modelle untersucht und diejenigen identifiziert, die die höchsten Werte von R2 aufweisen. In Minitab werden mit der Regression der besten Teilmengen außerdem weitere Statistiken angezeigt, z. B. das angepasste R2 und das prognostizierte R2. Sie können diese Statistiken beim Vergleichen von Modellen heranziehen. Da bei der Regression der besten Teilmengen das R2 verwendet wird, weisen die Modelle, die als die besten identifiziert werden, nicht zwangsläufig nur statistisch signifikante Terme auf. Beim Reduzieren eines Modells sollten sie außerdem andere statistische Kriterien wie Multikollinearität und Hierarchie berücksichtigen. Diese beiden Konzepte werden im Folgenden genauer erläutert.
Statistiken, mit denen gemessen wird, wie gut ein Modell an die Daten angepasst ist, können bei der Auswahl eines geeigneten Modells hilfreich sein. Bei der Entscheidung, welche Terme Sie entfernen, sollten Sie jedoch auch Prozesskenntnisse und Ihr eigenes Urteilsvermögen einsetzen. Einige Terme können unverzichtbar sein, während andere möglicherweise zu aufwändig oder zu schwierig zu erfassen sind.
Techniker messen den Gesamtwärmefluss im Rahmen eines Tests in Bezug auf solarthermische Energie. Ein Energieingenieur möchte bestimmen, wie der Gesamtwärmefluss anhand von anderen Variablen prognostiziert wird: Isolierung, Position der Fokuspunkte in östlicher, südlicher und nördlicher Richtung sowie Tageszeit. Unter Verwendung des vollständigen Regressionsmodells ermittelt der Ingenieur die folgende Beziehung zwischen dem Wärmefluss und den Variablen.
Der Ingenieur möchte so viele nicht signifikante Terme wie möglich entfernen, um die Genauigkeit der Prognosen zu maximieren. Er entscheidet sich, 0,05 als Schwellenwert für die statistische Signifikanz zu verwenden. Der p-Wert für die Tageszeit (0,194) ist der höchste p-Wert, der größer als 0,05 ist, und daher entfernt der Ingenieur diesen Term zuerst. Der Ingenieur wiederholt die Regression und entfernt jedes Mal einen nicht signifikanten Term, bis nur statistisch signifikante Terme verbleiben. Das endgültige reduzierte Modell sieht folgendermaßen aus:
Multikollinearität bei der Regression ist eine Bedingung, die eintritt, wenn Prädiktorvariablen im Modell mit anderen Prädiktorvariablen korrelieren. Eine stark ausgeprägte Multikollinearität ist problematisch, da sie zu einer erhöhten Varianz der Regressionskoeffizienten führen kann, die dadurch instabil werden. Wenn Sie einen Term mit hoher Multikollinearität entfernen, können sich die statistische Signifikanz und die Werte der Koeffizienten von hochgradig korrelierten Termen beträchtlich ändern. Daher ist es bei vorliegender Multikollinearität umso wichtiger, mehrere statistische Maße zu betrachten und das Modell jeweils nur um einen Term zu verändern. In der Regel reduzieren Sie soviel Multikollinearität wie möglich, bevor Sie ein Modell reduzieren. Weitere Informationen zum Reduzieren von Multikollinearität finden Sie unter Multikollinearität bei der Regression.
Ein Team an einer medizinischen Einrichtung entwickelt ein Modell, um die Werte der Patientenzufriedenheit zu prognostizieren. Das Modell enthält verschiedene Variablen, einschließlich der Zeit, die Patienten bei einem Arzt verbringen, und der Zeit, während der medizinische Tests an den Patienten vorgenommen werden. Wenn beide Variablen im Modell enthalten sind, ist die Multikollinearität hoch, mit einem Varianzinflationsfaktor (VIF) von 8,91. Werte, die größer als 5 sind, weisen in der Regel auf starke Multikollinearität hin. Der p-Wert für die Zeit, die Patienten bei einem Arzt verbringen, liegt bei 0,105, ist also bei einem Signifikanzniveau von 0,05 nicht signifikant. Das prognostizierte R2 für dieses Modell beträgt 22,9 %.
Das prognostizierte R2 für das Modell, das nur die Zeit für Tests enthält, sinkt von 22,9 % auf 10,6 %. Obwohl die Zeit, die Patienten bei einem Arzt verbringen, auf einem Signifikanzniveau von 0,05 nicht signifikant ist, führt das Einbinden dieser Variablen zu einem mehr als doppelt so hohem R2. Die hohe Multikollinearität könnte die Bedeutung des Prädiktors maskieren.
Ein hierarchisches Modell ist ein Modell, bei dem für jeden Term im Modell alle Terme niedrigerer Ordnung ebenfalls im Modell enthalten sind. Angenommen, ein Modell weist vier Faktoren auf: A, B, C und D. Wenn der Term A*B*C im Modell enthalten ist, müssen die Terme A, B, C, A*B, A*C und B*C ebenfalls im Modell enthalten sein. Terme mit D müssen nicht im Modell enthalten sein, weil D nicht im Term A*B*C enthalten ist. Die hierarchische Struktur gilt auch für die Schachtelung. Wenn B(A) im Modell enthalten ist, muss A ebenfalls im Modell enthalten sein, damit das Modell hierarchisch ist.
Eine Hierarchie ist empfehlenswert, da hierarchische Modelle von standardisierten in nicht standardisierte Einheiten übertragen werden können. Standardisierte Einheiten sind gebräuchlich, wenn das Modell Terme höherer Ordnung wie Wechselwirkungen enthält, weil mit der Standardisierung die Multikollinearität reduziert wird, die diese Terme verursachen.
Da eine Hierarchie empfehlenswert ist, ist die Reduzierung des hierarchischen Modells üblich. Eine Strategie besteht z. B. darin, dass Kriterium des p-Werts in Kombination mit der Hierarchie zur Reduzierung des Modells zu verwenden. Zuerst entfernen Sie die komplexesten Terme, die statistisch nicht signifikant sind. Wenn ein statistisch nicht signifikanter Term Teil eines Wechselwirkungsterms oder eines Terms höherer Ordnung ist, dann verbleibt der Term im Modell. Bei der schrittweisen Modellauswahl in Minitab können das Kriterium der Hierarchie sowie das Kriterium der statistischen Signifikanz verwendet werden.
Ein Materialtechniker eines Baumaterialherstellers entwickelt ein neues Dämmstoffprodukt. Der Techniker entwirft ein zweistufiges vollfaktorielles Experiment, um die verschiedenen Faktoren zu untersuchen, die den Dämmwert des Dämmstoffs beeinflussen könnten. Der Techniker bezieht Wechselwirkungen in das Modell ein, um zu ermitteln, ob die Effekte der Faktoren voneinander abhängig sind. Da Wechselwirkungen zu Multikollinearität führen, kodiert der Techniker die Prädiktoren, um die Multikollinearität zu reduzieren.
Der höchste p-Wert für das erste Modell, das der Techniker untersucht, beträgt 0,985 für die Wechselwirkung zwischen Einspritztemperatur und Material. Unter der Tabelle der kodierten Koeffizienten kann der Techniker die Regressionsgleichung in nicht kodierten Einheiten untersuchen. Mit Hilfe der Regressionsgleichung kann der Techniker die Größe der Effekte in denselben Einheiten wie die Daten auswerten.
Wenn der Techniker zum Reduzieren des Modells nur das Kriterium des p-Werts verwendet, ist das nächste Modell nicht hierarchisch, da eine Zwei-Faktor-Wechselwirkung entfernt wird, die Bestandteil einer Drei-Faktor-Wechselwirkung ist. Da das Modell nicht hierarchisch ist, sind die nicht kodierten Koeffizienten nicht vorhanden. Die Regressionsgleichung für das nicht hierarchische Modell ist also in kodierten Einheiten angegeben. Die kodierte Regressionsgleichung liefert keine Informationen über die Effekte in denselben Einheiten wie die Daten.
Anstatt das Kriterium des p-Werts zu verwenden, entscheidet sich der Techniker, zuerst die komplexesten Terme mit hohen p-Werten zu entfernen. In diesem Modell entfernt der Ingenieur anstelle des Terms mit dem höchsten p-Wert die Drei-Faktor-Wechselwirkung mit dem höchsten p-Wert. Der höchste p-Wert für eine Drei-Faktor-Wechselwirkung beträgt 0,466 für die Wechselwirkung zwischen Einspritzdruck, Einspritztemperatur und Material.