Was ist die Regression der partiellen kleinsten Quadrate?

Die Regression der partiellen kleinsten Quadrate (PLS) ist ein Verfahren, bei dem Prädiktoren auf eine kleinere Gruppe von unkorrelierten Komponenten reduziert und eine Regression der kleinsten Quadrate für diese Komponenten anstelle der ursprünglichen Daten durchgeführt wird. Die Regression der partiellen kleinsten Quadrate ist besonders nützlich, wenn die Prädiktoren hochgradig kollinear sind oder wenn mehr Prädiktoren als Beobachtungen vorhanden sind und die normale Regression nach der Methode der kleinsten Quadrate entweder komplett fehlschlägt oder Koeffizienten mit hohen Standardfehlern ergibt. Bei der Regression der partiellen kleinsten Quadrate wird, anders als bei der multiplen Regression, nicht davon ausgegangen, dass die Prädiktoren fest sind. Das bedeutet, dass die Prädiktoren Messfehler enthalten können, wodurch die PLS robuster gegenüber Messunsicherheiten ist.

Die PLS-Regression wird hauptsächlich in der chemischen, pharmazeutischen, Lebensmittel- und Kunststoffindustrie verwendet. Eine gängige Anwendung ist die Modellierung der Beziehung zwischen Spektralmessungen (NIR, IR, UV), die viele, häufig miteinander korrelierte Variablen aufweisen, und der chemischen Zusammensetzung oder anderen physikalisch-chemischen Eigenschaften. Bei der PLS-Regression liegt der Schwerpunkt auf der Entwicklung von Prognosemodellen. Deshalb wird sie normalerweise nicht dazu verwendet, Variablen auszuschließen, die bei der Erklärung der Antwortvariablen nicht nützlich sind.

Um die PLS-Regression durchzuführen, verwendet Minitab den von Herman Wold entwickelten nichtlinearen iterativen Algorithmus der partiellen kleinsten Quadrate (Nonlinear Iterative Partial Least Squares, NIPALS). Der Algorithmus reduziert die Anzahl von Prädiktoren unter Verwendung einer der Hauptkomponentenanalyse ähnlichen Methode, mit der eine Gruppe von Komponenten extrahiert wird, die die maximale Korrelation zwischen den Prädiktoren und den Antwortvariablen beschreibt. Die PLS-Regression kann so viele Komponenten berechnen wie Prädiktoren vorliegen. Häufig wird eine Kreuzvalidierung verwendet, um kleinere Gruppen von Komponenten zu identifizieren, die über die größte Prognosefähigkeit verfügen. Wenn Sie alle möglichen Komponenten berechnen, entspricht das sich daraus ergebende Modell dem Modell, das Sie mit der Regression der kleinsten Quadrate erhalten würden. Bei der PLS-Regression werden die Komponenten auf der Basis ausgewählt, wie viel Varianz sie in den Prädiktoren und zwischen den Prädiktoren und den Antwortvariablen erklären. Wenn die Prädiktoren hochgradig korreliert sind, oder wenn eine kleine Anzahl von Komponenten die Antwortvariable perfekt modelliert, kann die Anzahl der Komponenten im PLS-Modell wesentlich kleiner als die Anzahl der Prädiktoren sein. In diesem Fall führt Minitab die Regression der kleinsten Quadrate für diese unkorrelierten Komponenten durch.

Im Gegensatz zur Regression der kleinsten Quadrate kann die PLS-Regression mehrere Antwortvariablen in einem einzelnen Modell behandeln. Die PLS-Regression passt mehrere Antwortvariablen in einem einzigen Modell an. Da die PLS-Regression die Antwortvariablen auf multivariate Weise modelliert, können die Ergebnisse signifikant von denen abweichen, die für die einzelnen Antwortvariablen berechnet wurden. Modellieren Sie mehrere Antwortvariablen nur dann separat voneinander, wenn diese nicht korreliert sind.