Beispiel für Regression der partiellen kleinsten Quadrate mit Kreuzvalidierung

Ein Weinproduzent möchte feststellen, welche Beziehung zwischen der chemischen Zusammensetzung der von ihm erzeugten Weine und ihrer sensorischen Bewertung besteht. Es sind 37 Stichproben von Pinot-Noir-Weinen verfügbar, von denen jede durch 17 Konzentrationswerte von Elementen (Cd, Mo, Mn, Ni, Cu, Al, Ba, Cr, Sr, Pb, B, Mg, Si, Na, Ca, P, K) sowie durch eine Bewertung des Weinaromas durch eine Jury beschrieben wird. Der Produzent möchte die Aromabewertung anhand der 17 Elemente prognostizieren. Die Daten stammen aus: I. E. Frank und B. R. Kowalski (1984). „Prediction of Wine Quality and Geographic Origin from Chemical Measurements by Partial Least-Squares Regression Modeling“, Analytica Chimica Acta , 162, 241–251.

Der Produzent möchte alle Konzentrationswerte und sämtliche Zwei-Faktor-Wechselwirkungen mit Cadmium (Cd) in das Modell aufnehmen. Da das Verhältnis von Stichproben zu Prädiktoren niedrig ist, entscheidet sich der Produzent, eine Regression der partiellen kleinsten Quadrate zu verwenden.

  1. Öffnen Sie die Beispieldaten Weinaroma.MTW.
  2. Wählen Sie Statistik > Regression > Partielle kleinste Quadrate aus.
  3. Geben Sie im Feld Antworten die Spalte Aroma ein.
  4. Geben Sie im Feld Modell die Spalten Cd-K Cd*Mo Cd*Mn Cd*Ni Cd*Cu Cd*Al Cd*Ba Cd*Cr Cd*Sr Cd*Pb Cd*B Cd*Mg Cd*Si Cd*Na Cd*Ca Cd*P Cd*K ein.
  5. Klicken Sie auf Optionen.
  6. Wählen Sie unter Kreuzvalidierung die Option Eins auslassen aus. Klicken Sie auf OK.
  7. Klicken Sie auf Grafiken. Wählen Sie Modellauswahldiagramm aus. Deaktivieren Sie Antwortdiagramm und Koeffizientendiagramm.
  8. Klicken Sie in den einzelnen Dialogfeldern auf OK.

Interpretieren der Ergebnisse

Das Modellauswahldiagramm gibt das Modell mit vier Komponenten als optimales Modell an, da dieses das höchste prognostizierte R2 aufweist. Die Werte des prognostizierten R2 im Diagramm werden mit der Kreuzvalidierung berechnet. Die Modellauswahl- und Validierungstabelle zeigt, dass das prognostizierte R2 für das optimale Modell ungefähr 0,56 beträgt. Minitab verwendet das optimale Modell für die Berechnungen der Varianzanalyse. Das optimale Modell ist auf dem Signifikanzniveau 0,05 statistisch signifikant, da der p-Wert ungefähr 0,000 beträgt.

Methode

KreuzvalidierungEine auslassen
Auszuwertende KomponentenFest
Anzahl der ausgewerteten Komponenten10
Anzahl der ausgewählten Komponenten4

Varianzanalyse für Aroma

QuelleDFSSMSFp
Regression434,55148,6378441,550,000
Residuenfehler326,65190,20787   
Gesamt3641,2032     

Modellauswahl und Validierung für Aroma

KomponentenX-VarianzFehlerR-QdPRESSR-Qd(prog)
10,15884914,93890,63743523,34390,433444
20,44226712,29660,70156421,09360,488060
30,5229777,97610,80642019,61360,523978
40,5945466,65190,83855918,16830,559056
5  5,85300,85794819,26750,532379
6  5,01230,87835222,37390,456988
7  4,31090,89537424,00410,417421
8  4,08660,90081824,77360,398747
9  3,58860,91290424,90900,395460
10  3,27500,92051624,82930,397395