交差検証性を持つ偏最小二乗回帰の例

あるワインの生産者が、ワインに含まれる化学成分と感覚に与える影響の関係を調査したいと考えています。37種類のピノ・ノワール種ワインのサンプルについて、それぞれのワインに含まれる17種類の元素(カドミニウム(Cd)、モリブデン(Mo)、マンガン(Mn)、ニッケル(Ni)、銅(Cu)、アルミニウム(Al)、バリウム(Ba)、クロム(Cr)、ストロンチウム(Sr)、鉛(Pb)、ホウ素(B)、マグネシウム(Mg)、ケイ素(Si)、ナトリウム(Na)、カルシウム(Ca)、リン(P)、カリウム(K))の濃度と審査員団によるワインの芳香の得点が記録されています。ワインの生産者は17元素から芳香の得点を予測したいと考えています。データ元は次の通りです。I.E. Frank、B.R. Kowalski (1984). "Prediction of Wine Quality and Geographic Origin from Chemical Measurements by Partial Least-Squares Regression Modeling," Analytica Chimica Acta, 162, 241 − 251.

ワイン生産者は、すべての濃度と、カドミニウム(Cd)が含まれる二元交互作用のすべてをモデル内に含めたいと考えています。サンプルと予測変数の比率が低いので、生産者は偏最小二乗回帰を使用することを決めます。

  1. サンプルデータを開く ワイン芳香.MTW.
  2. 統計 > 回帰 > PLS を選択します。
  3. 応答芳香を入力します。
  4. モデルに、Cd-KCd*MoCd*MnCd*NiCd*CuCd*AlCd*BaCd*CrCd*SrCd*PbCd*BCd*MgCd*SiCd*NaCd*CaCd*PCd*Kを入力します。
  5. オプションをクリックします。
  6. 交差検証で、観測値を1つずつ省略を選択します。OKをクリックします。
  7. グラフをクリックします。モデル選択プロットを選択します。応答プロットおよび係数プロットを選択解除します。
  8. 各ダイアログボックスでOKをクリックします。

結果を解釈する

モデル選択プロットでは、4つの成分を持つモデルが予測R2の値が最も大きいため、このモデルを最適モデルとみなします。プロット上の予測R2の値は交差検証を使用して計算されます。モデル選択および検証表により、最適モデルの予測R2の値はおよそ0.56であることがわかります。Minitabでは、分散分析計算の最適モデルを使用します。p値はほぼ0.000であるので、0.05の有意水準にある最適モデルは統計的に有意です。

方法

交差検証観測値を1つずつ省略
評価する成分設定
評価された成分数10
選択された成分数4

芳香の分散分析

要因自由度平方和平均平方F値p値
回帰434.55148.6378441.550.000
残差誤差326.65190.20787   
合計3641.2032     

芳香に対するモデル選択および検証

成分X分散誤差R二乗予測残差平方和
(PRESS)
R二乗 (予測)
10.15884914.93890.63743523.34390.433444
20.44226712.29660.70156421.09360.488060
30.5229777.97610.80642019.61360.523978
40.5945466.65190.83855918.16830.559056
5  5.85300.85794819.26750.532379
6  5.01230.87835222.37390.456988
7  4.31090.89537424.00410.417421
8  4.08660.90081824.77360.398747
9  3.58860.91290424.90900.395460
10  3.27500.92051624.82930.397395