Beispiel für Regression der partiellen kleinsten Quadrate mit Kreuzvalidierung

Ein Weinproduzent möchte feststellen, welche Beziehung zwischen der chemischen Zusammensetzung der von ihm erzeugten Weine und ihrer sensorischen Bewertung besteht. Es sind 37 Stichproben von Pinot-Noir-Weinen verfügbar, von denen jede durch 17 Konzentrationswerte von Elementen (Cd, Mo, Mn, Ni, Cu, Al, Ba, Cr, Sr, Pb, B, Mg, Si, Na, Ca, P, K) sowie durch eine Bewertung des Weinaromas durch eine Jury beschrieben wird. Der Produzent möchte die Aromabewertung anhand der 17 Elemente prognostizieren. Die Daten stammen aus: I.E. Frank und B.R. Kowalski (1984). „Prediction of Wine Quality and Geographic Origin from Chemical Measurements by Partial Least-Squares Regression Modeling“, Analytica Chimica Acta , 162, 241–251.

Der Produzent möchte alle Konzentrationswerte und sämtliche Zwei-Faktor-Wechselwirkungen mit Cadmium (Cd) in das Modell aufnehmen. Da das Verhältnis von Stichproben zu Prädiktoren niedrig ist, entscheidet sich der Produzent, eine Regression der partiellen kleinsten Quadrate zu verwenden.

  1. Öffnen Sie die Beispieldaten Weinaroma.MTW.
  2. Wählen Sie Statistik > Regression > Partielle kleinste Quadrate aus.
  3. Geben Sie im Feld Antworten die Spalte Aroma ein.
  4. Geben Sie im Feld Modell die Spalten Cd-K Cd*Mo Cd*Mn Cd*Ni Cd*Cu Cd*Al Cd*Ba Cd*Cr Cd*Sr Cd*Pb Cd*B Cd*Mg Cd*Si Cd*Na Cd*Ca Cd*P Cd*K ein.
  5. Klicken Sie auf Optionen.
  6. Wählen Sie unter Kreuzvalidierung die Option Eins auslassen aus. Klicken Sie auf OK.
  7. Klicken Sie auf Grafiken. Wählen Sie Modellauswahldiagramm aus. Deaktivieren Sie Antwortdiagramm und Koeffizientendiagramm.
  8. Klicken Sie in den einzelnen Dialogfeldern auf OK.

Interpretieren der Ergebnisse

Das Modellauswahldiagramm gibt das Modell mit vier Komponenten als optimales Modell an, da dieses das höchste prognostizierte R2 aufweist. Die Werte des prognostizierten R2 im Diagramm werden mit der Kreuzvalidierung berechnet. Die Modellauswahl- und Validierungstabelle zeigt, dass das prognostizierte R2 für das optimale Modell ungefähr 0,56 beträgt. Minitab verwendet das optimale Modell für die Berechnungen der Varianzanalyse. Das optimale Modell ist auf dem Signifikanzniveau 0,05 statistisch signifikant, da der p-Wert ungefähr 0,000 beträgt.

PLS-Regression: Aroma vs. Cd; Mo; Mn; Ni; Cu; Al; Ba; Cr; ...

Methode Kreuzvalidierung Eine auslassen Auszuwertende Komponenten Fest Anzahl der ausgewerteten Komponenten 10 Anzahl der ausgewählten Komponenten 4
Varianzanalyse für Aroma Quelle DF SS MS F p Regression 4 34,5514 8,63784 41,55 0,000 Residuenfehler 32 6,6519 0,20787 Gesamt 36 41,2032
Modellauswahl und Validierung für Aroma Komponenten X-Varianz Fehler R-Qd PRESS R-Qd(prog) 1 0,158849 14,9389 0,637435 23,3439 0,433444 2 0,442267 12,2966 0,701564 21,0936 0,488060 3 0,522977 7,9761 0,806420 19,6136 0,523978 4 0,594546 6,6519 0,838559 18,1683 0,559056 5 5,8530 0,857948 19,2675 0,532379 6 5,0123 0,878352 22,3739 0,456988 7 4,3109 0,895374 24,0041 0,417421 8 4,0866 0,900818 24,7736 0,398747 9 3,5886 0,912904 24,9090 0,395460 10 3,2750 0,920516 24,8293 0,397395
Durch Ihre Nutzung dieser Website stimmen Sie zu, dass Cookies verwendet werden. Cookies dienen zu Analysezwecken und zum Bereitstellen personalisierter Inhalte.  Lesen Sie unsere Richtlinien