Beispiel für Regression der partiellen kleinsten Quadrate mit einem Testdatensatz

Ein Wissenschaftler in einem Labor für Lebensmittelchemie analysiert 60 Stichproben von Sojabohnenmehl. Für jede Stichprobe bestimmt der Wissenschaftler die Feuchtigkeit und den Fettgehalt, und er zeichnet Daten für 88 Wellenlängen aus dem NIR-Spektrum (nahe Infrarot) auf. Er wählt nach dem Zufallsprinzip 54 der 60 Stichproben aus und schätzt mit der PLS-Regression die Beziehung zwischen den Antwortvariablen (Feuchtigkeit und Fettgehalt) und den Prädiktoren (die 88 NIR-Wellenlängen). Der Wissenschaftler nutzt die verbleibenden sechs Stichproben als Testdatensatz, um die Prognosefähigkeit des Modells zu beurteilen.

  1. Öffnen Sie die Beispieldaten Sojabohnenmehl.MTW.
  2. Wählen Sie Statistik > Regression > Partielle kleinste Quadrate aus.
  3. Geben Sie im Feld Antworten die Spalten Feuchtigkeit Fett ein.
  4. Geben Sie im Feld Modell die Spalten '1'-'88' ein.
  5. Klicken Sie auf Prognose.
  6. Geben Sie im Feld Neue Beobachtung für stetige Prädiktoren die Spalten Test1-Test88 ein.
  7. Geben Sie im Feld Neue Beobachtung für Antwortvariablen (optional) die Spalten Feuchtigkeit2 Fett2 ein.
  8. Klicken Sie in den einzelnen Dialogfeldern auf OK.

Interpretieren der Ergebnisse

Die p-Werte für beide Antwortvariablen sind ungefähr 0,000 und somit kleiner als das Signifikanzniveau 0,05. Diese Ergebnisse weisen darauf hin, dass mindestens ein Koeffizient im Modell nicht null ist. Der Wert des Test-R2 für die Feuchtigkeit ist ungefähr 0,9. Der Wert des Test-R2 für den Fettgehalt ist fast 0,8. Die Test-R2 geben an, dass die Modelle gute Prognosen liefern. Eine getrennte Analyse jeder einzelnen Antwortvariablen würde andere Ergebnisse ergeben.

PLS-Regression: Feuchtigkeit; Fett vs. 1; 2; 3; 4; 5; 6; 7; 8; ...

Methode Kreuzvalidierung Keine Zu berechnende Komponenten Fest Anzahl der berechneten Komponenten 10
Varianzanalyse für Feuchtigkeit Quelle DF SS MS F p Regression 10 468,516 46,8516 61,46 0,000 Residuenfehler 43 32,777 0,7623 Gesamt 53 501,293
Varianzanalyse für Fett Quelle DF SS MS F p Regression 10 266,378 26,6378 36,89 0,000 Residuenfehler 43 31,050 0,7221 Gesamt 53 297,428
Modellauswahl und Validierung für Feuchtigkeit Komponenten X-Varianz Fehler R-Qd 1 0,984976 96,9288 0,806643 2 0,996400 88,9900 0,822479 3 0,997757 71,9304 0,856510 4 0,999427 58,3174 0,883666 5 0,999722 58,1261 0,884048 6 0,999853 48,5236 0,903203 7 0,999963 45,9824 0,908272 8 0,999976 33,1545 0,933862 9 0,999982 32,8074 0,934554 10 0,999986 32,7773 0,934615
Modellauswahl und Validierung für Fett Komponenten X-Varianz Fehler R-Qd 1 0,984976 282,519 0,050127 2 0,996400 229,964 0,226824 3 0,997757 115,951 0,610155 4 0,999427 98,285 0,669550 5 0,999722 57,994 0,805015 6 0,999853 53,097 0,821480 7 0,999963 52,010 0,825133 8 0,999976 48,842 0,835784 9 0,999982 34,344 0,884529 10 0,999986 31,050 0,895604
Prognostizierte Antwort für neue Beobachtungen unter Verwendung des Modells für Feuchtigkeit Zeile Anpassung SE Anpassung 95%-KI 95%-PI 1 14,5184 0,388841 (13,7343; 15,3026) (12,5910; 16,4459) 2 9,3049 0,372712 ( 8,5532; 10,0565) ( 7,3904; 11,2193) 3 14,1790 0,504606 (13,1614; 15,1966) (12,1454; 16,2127) 4 16,4477 0,559704 (15,3189; 17,5764) (14,3562; 18,5391) 5 15,1872 0,358044 (14,4652; 15,9093) (13,2842; 17,0903) 6 9,4639 0,485613 ( 8,4846; 10,4433) ( 7,4492; 11,4787) Test-R-Qd: 0,906451
Prognostizierte Antwort für neue Beobachtungen unter Verwendung des Modells für Fett Zeile Anpassung SE Anpassung 95%-KI 95%-PI 1 18,7372 0,378459 (17,9740; 19,5004) (16,8612; 20,6132) 2 15,3782 0,362762 (14,6466; 16,1098) (13,5149; 17,2415) 3 20,7838 0,491134 (19,7933; 21,7743) (18,8044; 22,7632) 4 14,3684 0,544761 (13,2698; 15,4670) (12,3328; 16,4040) 5 16,6016 0,348485 (15,8988; 17,3044) (14,7494; 18,4538) 6 20,7471 0,472648 (19,7939; 21,7003) (18,7861; 22,7080) Test-R-Qd: 0,762701