Beispiel für Regression der partiellen kleinsten Quadrate mit einem Testdatensatz

Ein Wissenschaftler in einem Labor für Lebensmittelchemie analysiert 60 Stichproben von Sojabohnenmehl. Für jede Stichprobe bestimmt der Wissenschaftler die Feuchtigkeit und den Fettgehalt, und er zeichnet Daten für 88 Wellenlängen aus dem NIR-Spektrum (nahe Infrarot) auf. Er wählt nach dem Zufallsprinzip 54 der 60 Stichproben aus und schätzt mit der PLS-Regression die Beziehung zwischen den Antwortvariablen (Feuchtigkeit und Fettgehalt) und den Prädiktoren (die 88 NIR-Wellenlängen). Der Wissenschaftler nutzt die verbleibenden sechs Stichproben als Testdatensatz, um die Prognosefähigkeit des Modells zu beurteilen.

  1. Öffnen Sie die Beispieldaten Sojabohnenmehl.MTW.
  2. Wählen Sie Statistik > Regression > Partielle kleinste Quadrate aus.
  3. Geben Sie im Feld Antworten die Spalten Feuchtigkeit Fett ein.
  4. Geben Sie im Feld Modell die Spalten '1'-'88' ein.
  5. Klicken Sie auf Prognose.
  6. Geben Sie im Feld Neue Beobachtung für stetige Prädiktoren die Spalten Test1-Test88 ein.
  7. Geben Sie im Feld Neue Beobachtung für Antwortvariablen (optional) die Spalten Feuchtigkeit2 Fett2 ein.
  8. Klicken Sie in den einzelnen Dialogfeldern auf OK.

Interpretieren der Ergebnisse

Die p-Werte für beide Antwortvariablen sind ungefähr 0,000 und somit kleiner als das Signifikanzniveau 0,05. Diese Ergebnisse weisen darauf hin, dass mindestens ein Koeffizient im Modell nicht null ist. Der Wert des Test-R2 für die Feuchtigkeit ist ungefähr 0,9. Der Wert des Test-R2 für den Fettgehalt ist fast 0,8. Die Test-R2 geben an, dass die Modelle gute Prognosen liefern. Eine getrennte Analyse jeder einzelnen Antwortvariablen würde andere Ergebnisse ergeben.

Methode

KreuzvalidierungKeine
Zu berechnende KomponentenFest
Anzahl der berechneten Komponenten10

Varianzanalyse für Feuchtigkeit

QuelleDFSSMSFp
Regression10468,51646,851661,460,000
Residuenfehler4332,7770,7623   
Gesamt53501,293     

Varianzanalyse für Fett

QuelleDFSSMSFp
Regression10266,37826,637836,890,000
Residuenfehler4331,0500,7221   
Gesamt53297,428     

Modellauswahl und Validierung für Feuchtigkeit

KomponentenX-VarianzFehlerR-Qd
10,98497696,92880,806643
20,99640088,99000,822479
30,99775771,93040,856510
40,99942758,31740,883666
50,99972258,12610,884048
60,99985348,52360,903203
70,99996345,98240,908272
80,99997633,15450,933862
90,99998232,80740,934554
100,99998632,77730,934615

Modellauswahl und Validierung für Fett

KomponentenX-VarianzFehlerR-Qd
10,984976282,5190,050127
20,996400229,9640,226824
30,997757115,9510,610155
40,99942798,2850,669550
50,99972257,9940,805015
60,99985353,0970,821480
70,99996352,0100,825133
80,99997648,8420,835784
90,99998234,3440,884529
100,99998631,0500,895604

Prognostizierte Antwort für neue Beobachtungen unter Verwendung des Modells für Feuchtigkeit

ZeileAnpassungSE Anpassung95%-KI95%-PI
114,51840,388841(13,7343; 15,3026)(12,5910; 16,4459)
29,30490,372712(8,5532; 10,0565)(7,3904; 11,2193)
314,17900,504606(13,1614; 15,1966)(12,1454; 16,2127)
416,44770,559704(15,3189; 17,5764)(14,3562; 18,5391)
515,18720,358044(14,4652; 15,9093)(13,2842; 17,0903)
69,46390,485613(8,4846; 10,4433)(7,4492; 11,4787)
Test-R-Qd: 0,906451

Prognostizierte Antwort für neue Beobachtungen unter Verwendung des Modells für Fett

ZeileAnpassungSE Anpassung95%-KI95%-PI
118,73720,378459(17,9740; 19,5004)(16,8612; 20,6132)
215,37820,362762(14,6466; 16,1098)(13,5149; 17,2415)
320,78380,491134(19,7933; 21,7743)(18,8044; 22,7632)
414,36840,544761(13,2698; 15,4670)(12,3328; 16,4040)
516,60160,348485(15,8988; 17,3044)(14,7494; 18,4538)
620,74710,472648(19,7939; 21,7003)(18,7861; 22,7080)
Test-R-Qd: 0,762701