Eine Regressionsanalyse generiert eine Gleichung, mit der die statistische Beziehung zwischen einem bzw. mehreren Prädiktoren und der Antwortvariablen beschrieben und neue Beobachtungen prognostiziert werden. Bei der linearen Regression wird im Allgemeinen die Schätzmethode der kleinsten Quadrate verwendet, mit der die Gleichung durch Minimieren der Summe der quadrierten Residuen abgeleitet wird.
Angenommen, Sie sind für einen Hersteller von Kartoffelchips tätig, der die Faktoren analysiert, die den Prozentsatz an zerkrümelten Kartoffelchips pro Behälter (Antwortvariable) vor der Auslieferung beeinflussen. Sie führen eine Regressionsanalyse durch und nehmen den Prozentsatz an Kartoffeln relativ zu den anderen Zutaten und die Frittiertemperatur (Grad Celsius) als die zwei Prädiktoren in das Modell auf. Die Ergebnisse werden in der folgenden Tabelle dargestellt.
Modelle mit einem Prädiktor werden als einfache Regression bezeichnet. Modelle mit mehreren Prädiktoren werden als multiple lineare Regression bezeichnet.
Mit einer einfachen linearen Regression wird die lineare Beziehung zwischen zwei stetigen Variablen untersucht: einer Antwortvariablen (y) und einem Prädiktor (x). Wenn zwischen den beiden Variablen eine Beziehung besteht, kann anhand eines Prädiktorwerts ein Wert der Antwortvariablen prognostiziert werden. Dabei wird eine nicht zufällige Genauigkeit erreicht.
Bei der multiplen linearen Regression werden die linearen Beziehungen zwischen einer stetigen Antwortvariablen und mindestens zwei Prädiktoren untersucht.
Bei einer großen Anzahl von Prädiktoren sollten Sie vor dem Anpassen eines Regressionsmodells mit allen Prädiktoren die Prädiktoren ausschließen, die nicht signifikant in Beziehung zu den Werten der Antwortvariablen stehen. Diese können Sie über eine schrittweise Regression oder eine Regression der besten Teilmengen herausfiltern.
Bei der normalen Regression der kleinsten Quadrate (OLS) wird die geschätzte Gleichung berechnet, indem die Gleichung ermittelt wird, die die Summe der quadrierten Distanzen zwischen den Datenpunkten der Stichprobe und den von der Gleichung prognostizierten Werten minimiert.
Da bei der OLS-Regression die besten Schätzwerte nur dann berechnet werden, wenn alle Annahmen erfüllt sind, ist es äußerst wichtig, diese zu testen. Zu den häufig verwendeten Methoden zählen die Untersuchung der Residuendiagramme, Tests auf fehlende Anpassung sowie das Betrachten der Korrelation zwischen den Prädiktoren mit Hilfe des Varianzinflationsfaktors (VIF).