Die Komponenten stellen die Anzahl der Komponenten dar, die in den einzelnen Modellen enthalten sind. Minitab zeigt das Modell mit einer Komponente, mit zwei Komponenten usw. an, bis die Anzahl der Komponenten enthalten ist, die Sie angegeben haben. Wenn Sie nicht angegeben haben, wie viele Komponenten in das Modell eingebunden werden sollen, zeigt Minitab die Modellauswahlstatistik für zehn oder, falls kleiner, die der Anzahl von Prädiktoren entsprechende Anzahl von Komponenten an.
Die x-Varianz gibt den Streuungsgrad in den Termen an, der vom Modell erklärt wird. Der Wert der x-Varianz liegt zwischen 0 und 1.
Je näher die x-Varianz bei 1 liegt, desto besser wird die ursprüngliche Menge der Terme von den Komponenten dargestellt. Wenn mehrere Antwortvariablen vorhanden sind, ist der Wert der x-Varianz für alle Antwortvariablen gleich.
Der Fehler ist die Summe der quadrierten Fehler, wobei es sich um die Summe der quadrierten Residuen handelt. Sie gibt die Streuung in den Daten an, die durch das Modell nicht erklärt wird. Beim endgültigen Modell entspricht der Fehler dem SS für Residuenfehler in der ANOVA-Tabelle für das endgültige Modell.
R2 gibt den Prozentsatz der Streuung der Antwortvariablen an, der durch das Modell erklärt wird. Der Wert wird wie folgt berechnet: 1 minus das Verhältnis zwischen der Summe der quadrierten Fehler (Streuung, die durch das Modell nicht erklärt wird) zur Gesamtsumme der Quadrate (Gesamtstreuung im Modell).
Verwenden Sie das R2, um zu ermitteln, wie gut das Modell an die Daten angepasst ist. Je höher das R2, desto besser ist das Modell an die Daten angepasst. Das R2 liegt immer zwischen 0 % und 100 %.
Der Wert von R2 nimmt beim Einbinden zusätzlicher Prädiktoren in das Modell stets zu. Das beste Modell mit fünf Prädiktoren weist beispielsweise immer ein R2 auf, das mindestens so hoch wie das des besten Modells mit vier Prädiktoren ist. Daher ist R2 am nützlichsten, wenn Sie Modelle derselben Größe vergleichen.
Kleine Stichproben ermöglichen keinen genauen Schätzwert für die Stärke der Beziehung zwischen der Antwortvariablen und den Prädiktoren. Wenn z. B. das R2 genauer sein muss, sollten Sie einen größeren Stichprobenumfang (im Allgemeinen 40 oder mehr) wählen.
Statistiken für die Güte der Anpassung sind nur eines der Maße für die Güte der Anpassung des Modells an die Daten. Selbst wenn ein Modell einen erwünschten Wert aufweist, sollten Sie die Residuendiagramme untersuchen, um sich zu vergewissern, dass das Modell die Modellannahmen erfüllt.
Das prognostizierte R2 gibt an, wie präzise das jeweilige berechnete Modell die Antwortvariable prognostiziert, und wird nur berechnet, wenn Sie die Kreuzvalidierung ausführen. Wenn die Daten eine Antwortvariable enthalten, wählt Minitab das PLS-Modell mit dem höchsten prognostizierten R2 aus. Wenn die Daten mehrere Antwortvariablen enthalten, wählt Minitab das PLS-Modell mit dem höchsten mittleren prognostizierten R2 für alle Antwortvariablen aus. Das prognostizierte R2 wird berechnet, indem systematisch jede einzelne Beobachtung aus dem Datensatz entfernt wird, die Regressionsgleichung geschätzt und bestimmt wird, wie genau das Modell die jeweils entfernte Beobachtung prognostiziert. Der Wert des prognostizierten R2 liegt im Bereich von 0 % bis 100 %. (Obwohl die Berechnungen für das prognostizierte R2 negative Werte ergeben können, zeigt Minitab in derartigen Fällen null an.)
Verwenden Sie das prognostizierte R2, um zu ermitteln, wie genau das Modell Werte der Antwortvariablen für neue Beobachtungen prognostiziert. Modelle mit einem höheren prognostizierten R2 zeichnen sich durch eine bessere Prognosefähigkeit aus.
Ein prognostiziertes R2, das wesentlich kleiner als R2 ist, kann auf eine übermäßige Anpassung des Modells hinweisen. Ein übermäßig angepasstes Modell liegt vor, wenn Sie Terme für Effekte hinzufügen, die in der Grundgesamtheit unbedeutend sind. Das Modell wird somit an die Stichprobendaten angepasst und ist daher möglicherweise beim Aufstellen von Prognosen für die Grundgesamtheit nicht nützlich.
Um festzustellen, ob das mit Hilfe der Kreuzvalidierung ausgewählte Modell das am besten geeignete ist, untersuchen Sie das R2 und das prognostizierte R2. In einigen Fällen entscheiden Sie sich u. U. für ein anderes als das mit der Kreuzvalidierung ausgewählte Modell. Betrachten Sie ein Beispiel, bei dem dem von Minitab ausgewählten Modell zwei Komponenten hinzugefügt werden, wodurch das R2 signifikant zunimmt und das prognostizierte R2 nur unwesentlich abnimmt. Da sich das prognostizierte R2 nur leicht verringert hat, ist das Modell nicht übermäßig angepasst, und möglicherweise entspricht es Ihren Daten besser.
Die Summe der quadrierten Prognosefehler (PRESS) ist ein Maß der Abweichung zwischen den angepassten Werten und den beobachteten Werten. PRESS ähnelt der Summe der Quadrate der Residuenfehler (SSE), d. h. der Summe der quadrierten Residuen. Die Berechnung der Residuen für PRESS erfolgt jedoch nach einem anderen Verfahren. PRESS wird mit einer Formel berechnet, die diesem Verfahren entspricht: Jede einzelne Beobachtung wird systematisch aus dem Datensatz entfernt, die Regressionsgleichung wird geschätzt, und es wird ermittelt, wie genau das Modell die entfernte Beobachtung prognostiziert.
Verwenden Sie PRESS, um die Prognosefähigkeit des Modells zu beurteilen. Im Allgemeinen gilt: Je kleiner der PRESS-Wert, desto besser ist die Prognosefähigkeit des Modells. Minitab verwendet PRESS, um das prognostizierte R2 zu berechnen, das im Allgemeinen intuitiver zu interpretieren ist. Kombiniert können diese Statistiken eine übermäßige Anpassung des Modells verhindern. Ein übermäßig angepasstes Modell liegt vor, wenn Sie Terme für Effekte hinzufügen, die in der Grundgesamtheit unbedeutend sind, obwohl sie in den Stichprobendaten als wichtig erscheinen. Das Modell wird somit an die Stichprobendaten angepasst und ist daher möglicherweise beim Aufstellen von Prognosen für die Grundgesamtheit nicht nützlich.