Méthodes et formules pour la fonction ANOVA équilibrée

Modèle d'ANOVA équilibrée

Le modèle d'ANOVA équilibrée pour trois facteurs ou plus est l'extension directe d'un modèle d'analyse de la variance à deux facteurs contrôlés.

Modèle d'ANOVA équilibrée à 3 facteurs (A, B et C) :

y_ijkm = μ + α _i + β _j + γ _k + (αβ)_ij + (αγ)_ik + (βγ)_jk + (αβγ)_ijk + ε_ijkm

Si les facteurs sont fixes, Σα_i = 0, Σβ_j = 0, Σγ_k = 0, Σ(αβ)_ij = 0, Σ(αγ)_ik = 0, Σ(βγ)_jk = 0, Σ(αβγ)_ijk = 0 et ε_ijkm sont des variables indépendantes suivant une loi normale N(0, σ²).

Si les facteurs sont aléatoires, α_i, β_j, γ_k, (αβ)_ij, (αγ)_ik, (βγ)_jk, (αβγ)_ijk et ε_ijkm sont des variables aléatoires indépendantes. Les variables sont distribuées normalement avec une moyenne de zéro et des variances données par V(α_i) = σ²_α,V(β _j) = σ²_β,V(γ_k) = σ²_γ, V[(αβ)_ij] = σ²_αβ, V[(αγ)_jk] = σ²_αγ, V[(βγ)_jk] = σ²_βγ, V(ε_ijkm) = σ².

Le modèle à trois facteurs peut être étendu à des modèles en contenant plus.

Moyennes des facteurs

Formule

Moyenne des observations pour un facteur à un niveau donné. Voici les formules :

Moyenne du facteur A :

Moyenne du facteur B :

Moyenne du facteur C :

Moyenne globale :

Notation

Terme	Description
y_i...	somme de toutes les observations pour l'i^e niveau du facteur A
y_.j..	somme de toutes les observations pour le j^e niveau du facteur B
y_..k.	somme de toutes les observations pour le k^e niveau du facteur C
y_....	somme de toutes les observations dans l'échantillon
a	nombre de niveaux du facteur A
b	nombre de niveaux du facteur B
c	nombre de niveaux du facteur C
n	nombre d'observations dans chaque combinaison de niveaux de facteurs

Somme des carrés (SomCar)

Somme des carrés des distances. SC totale représente la variation totale des données. SC (A) et SC (B) représentent la variation de la moyenne de niveau de facteur estimée autour de la moyenne globale. Ces valeurs sont également appelées sommes des carrés entre les traitements. SC(AB), SS(AC), SS(BC) et SS(ABC) représentent la part de variation expliquée par leurs termes d'interactions respectifs. SC Erreur correspond à la part de variation entre la valeur ajustée et l'observation réelle. Cette valeur est également appelée erreur entre les traitements. Ces formules supposent l'ajustement d'un modèle complet. Les calculs sont les suivants :

SC Erreur = SC totale - SC (pour tous les termes du modèle)

Notation

Terme	Description
a	nombre de niveaux dans le facteur A§
b	nombre de niveaux dans le facteur B
c	nombre de niveaux dans le facteur C
n	nombre total d'essais
	moyenne de l'i^e niveau du facteur A
	moyenne globale de toutes les observations
	moyenne du j^e niveau du facteur B
	moyenne du k^e niveau du facteur C
	moyenne de traitement estimée

Degrés de liberté (DL)

Les degrés de liberté pour chaque composant du modèle sont les suivants :

Sources de variation	DL
Facteur	k_i – 1
Covariables et interactions entre covariables	1
Interactions impliquant des facteurs
Régression	p
Erreur	n – p – 1
Total	n – 1

Notation

Terme	Description
k_i	nombre de niveaux dans le i^e facteur
m	nombre de facteurs
n	nombre d'observations
p	nombre de coefficients dans le modèle, constante non incluse

Carré moyen (CM)

Formules

F

Pour une ANOVA à 3 facteurs, tous fixes, les formules suivantes permettent de calculer les statistiques F lorsque le modèle est complet.

Formules

Pour F(A), les degrés de liberté du numérateur sont de a – 1. Les degrés de liberté du dénominateur sont de (n - 1)abc.
Pour F(B), les degrés de liberté du numérateur sont de b – 1. Les degrés de liberté du dénominateur sont de (n - 1)abc.
Pour F(C), les degrés de liberté du numérateur sont de c – 1. Les degrés de liberté du dénominateur sont de (n - 1)abc.
Pour F(AB), les degrés de liberté du numérateur sont de (a - 1)(b - 1). Les degrés de liberté du dénominateur sont de (n - 1)abc.
Pour F(AC), les degrés de liberté du numérateur sont de (a - 1)(c - 1). Les degrés de liberté du dénominateur sont de (n - 1)abc.
Pour F(BC), les degrés de liberté du numérateur sont (b - 1)(c - 1).
Pour F(ABC), les degrés de liberté du numérateur sont de (a - 1)(b - 1)(c - 1). Les degrés de liberté du dénominateur sont de (n - 1)abc.

Si le modèle comporte des facteurs aléatoires, le rapport F de chaque terme est déterminé par l'espérance mathématique du carré moyen pour chaque terme.

Des valeurs F élevées indiquent que l'hypothèse nulle peut être rejetée. Vous pouvez en conclure que l'effet est statistiquement significatif.

Valeur de p - Tableau d'analyse de la variance

La valeur de p est une probabilité calculée à partir d'une loi F avec les degrés de liberté (DL) suivants :

DL en numérateur: somme des degrés de liberté pour le ou les termes du test
DL en dénominateur: degrés de liberté pour l'erreur

Formule

1 − P(F ≤ f_j)

Notation

Terme	Description
P(F ≤ f)	fonction de répartition de la loi F
f	statistique f pour le test

S

Notation

Terme	Description
CA MOY ERR	carré moyen de l'erreur

R carré

Le R² est également appelé coefficient de détermination.

Formule

Notation

Terme	Description
y_i	i^e valeur de réponse observée
	réponse moyenne
	i^e réponse ajustée

R carré (ajusté)

Minitab affiche zéro lorsque les calculs de R² ajusté génèrent des valeurs négatives.

Notation

Terme	Description
	i^e valeur de réponse observée
	i^ème réponse ajustée
	réponse moyenne
n	nombre d'observations
p	nombre de termes dans le modèle

Composantes de la variance

Minitab calcule les composantes de variance uniquement pour les facteurs aléatoires. Nous avons utilisé un modèle avec deux facteurs aléatoires pour présenter les formules.

où α_i, β_j, (αβ)_ij et ε_ijk sont des variables aléatoires indépendantes. Ces variables sont distribuées normalement, avec une moyenne de zéro et des variances fournies par les formules suivantes :

Ces variances sont les composantes de la variance. Dans ce cas, testez l'hypothèse selon laquelle les composantes de la variance sont égales à zéro.

Pour un modèle restreint mixte à deux facteurs, le modèle est le suivant :

où α_i est un effet fixe et β_j est un effet aléatoire, (αβ)_ij est un effet aléatoire et ε_ijk est l'erreur aléatoire. Σα _i = 0 et Σ(αβ)_ij = 0 pour chaque j. Les variances sont V(β_j) = σ²_β, V[(αβ)_ij] =[(a - 1)/a]σ²_αβ et V(ε_ijk) = σ². σ²_β, σ²_αβ et σ² sont des composantes de la variance. La somme de la composante d'interaction et du facteur fixe est égale à zéro, ce qui indique qu'il s'agit du modèle restreint mixte.

La formule suivante décrit un modèle mixte non restreint avec un facteur fixe A et un facteur aléatoire B :

où α_i sont des effets fixes et β_j, (αβ)_ij et ε_ijk sont des variables aléatoires non corrélées qui ont des moyennes de zéro et dont les variances sont déterminées comme suit :

Ces variances sont les composantes de la variance. Σα _i = 0 et Σ(αβ)_ij = 0 pour chaque j.

Ces informations concernent les modèles équilibrés. Pour obtenir des informations sur des modèles non équilibrés ou plus complexes, reportez-vous à Montgomery¹ et Neter².

D.C. Montgomery (1991), Design and Analysis of Experiments, troisième édition, John Wiley & Sons.
J. Neter, W. Wasserman et M.H. Kutner (1985), Applied Linear Statistical Models,deuxième édition, Irwin, Inc.

Espérance mathématique des carrés moyens

Les formules permettant de calculer l'espérance des carrés moyens pour un modèle à effets aléatoires avec deux facteurs A et B sont les suivantes :  

Les formules permettant de calculer l'espérance des carrés moyens pour un modèle restreint mixte à deux facteurs, A (fixe) et B (aléatoire) sont les suivantes :

Les formules permettant de calculer l'espérance des carrés moyens pour un modèle mixte non restreint avec un facteur fixe A et un facteur aléatoire B sont les suivantes :

Pour connaître les règles générales pour le calcul de l'espérance mathématique des carrés moyens et obtenir des informations sur des modèles non équilibrés ou plus complexes, reportez-vous à Montgomery¹ et Neter².

D.C. Montgomery (1991), Design and Analysis of Experiments, troisième édition, John Wiley & Sons.
J. Neter, W. Wasserman et M.H. Kutner (1985), Applied Linear Statistical Models, deuxième édition, Irwin, Inc.

Notation

Terme	Description
b	nombre de niveaux dans le facteur B
a	nombre de niveaux dans le facteur A§
n	nombre d'observations
σ²	variance estimée du modèle
	variance estimée de A
	variance estimée de B
	variance estimée de AB
	effets fixes de A

Statistique F pour les modèles avec facteurs aléatoires

Méthode de calcul des statistiques F dans les résultats de l'ANOVA

Chaque statistique F est un rapport de carrés moyens. Le numérateur est le carré moyen associé au terme. Le dénominateur est également un carré moyen, choisi de façon à ce que la différence entre le numérateur et le dénominateur corresponde à l'effet qui vous intéresse. L'effet d'un terme aléatoire est représenté par la composante de variance de ce terme. L'effet d'un terme fixe est représenté par la somme des carrés des composantes du modèle associées à ce terme, divisée par ses degrés de liberté. Par conséquent, une statistique F élevée indique que l'effet est significatif.

Lorsque tous les termes du modèle sont fixes, le dénominateur de chaque statistique F est le carré moyen de l'erreur. En revanche, pour les modèles comprenant des termes aléatoires, le carré moyen de l'erreur n'est pas toujours le dénominateur approprié. Vous pouvez utiliser l'espérance mathématique des carrés moyens pour déterminer la valeur appropriée pour le dénominateur.

Exemple

Supposons que vous effectuiez une ANOVA avec le facteur fixe Filtre et le facteur aléatoire Tech, et que vous obteniez le résultat suivant pour l'espérance mathématique des carrés moyens : 

Source	Espérance mathématique des carrés moyens pour chaque terme
(1) Filtre	(4) + 2,0000(3) + Q[1]
(2) Tech	(4) + 2,0000(3) + 4,0000(2)
(3) Filtre*Tech	(4) + 2,0000(3)
(4) Erreur	(4)

Les nombres entre parenthèses désignent l'effet aléatoire du terme qui leur est associé dans la colonne Source. (2) représente l'effet aléatoire de Tech, (3) représente l'effet aléatoire de l'interaction Filtre*Tech et (4) représente l'effet aléatoire de l'erreur. L'espérance mathématique des carrés moyens pour Erreur est l'effet du terme d'erreur. En outre, l'espérance mathématique des carrés moyens pour Filtre*Tech est l'effet du terme d'erreur plus deux fois l'effet de l'interaction Filtre*Tech.

Pour calculer la statistique F pour Filtre*Tech, le carré moyen de Filtre*Tech est divisé par celui de l'erreur ; ainsi la valeur attendue du numérateur (espérance mathématique des carrés moyens pour Filtre*Tech = (4) + 2,0000(3)) ne diffère de la valeur attendue du dénominateur (espérance mathématique des carrés moyens pour Erreur = (4)) que par l'effet de l'interaction (2,0000(3)). Par conséquent, une statistique F élevée indique que l'interaction Filtre*Tech est significative.

Les nombres avec Q[ ] désignent l'effet fixe du terme qui leur est associé dans la colonne Source. Par exemple, Q[1] représente l'effet fixe de Filtre. L'espérance mathématique des carrés moyens pour Filtre correspond à l'effet du terme d'erreur plus deux fois l'effet de l'interaction Filtre*Tech, plus l'effet de Filtre multiplié par une valeur constante. Q[1] est égal à (b*n*somme((coefficients des niveaux de Filtre)**2)) divisé par (a - 1), où a et b représentent respectivement le nombre de niveaux de Filtre et Tech, et n représente le nombre de répétitions.

Pour calculer la statistique F pour Filtre, le carré moyen de Filtre est divisé par celui de Filtre*Tech ; ainsi la valeur attendue du numérateur (espérance mathématique des carrés moyens pour Filtre = (4) + 2,0000(3) + Q[1]) ne diffère de la valeur attendue du dénominateur (espérance mathématique des carrés moyens pour Filtre*Tech = (4) + 2,0000(3)) que par l'effet de Filtre (Q[1]). Par conséquent, une statistique F élevée indique que l'effet de Filtre est significatif.

Pourquoi le résultat de mon analyse ANOVA comporte-t-elle un "x" à côté d'une valeur de p dans le tableau ANOVA, ainsi que la mention "n'est pas un test F exact" ?

Pour un terme donné, le test F est dit exact lorsque la différence entre le numérateur (carré moyen attendu pour le terme) et le dénominateur est uniquement constituée par la composante de variance ou le facteur fixe qui vous intéresse.

Toutefois, il peut arriver que le carré moyen à utiliser comme dénominateur ne puisse pas être calculé. Dans ce cas, Minitab utilise un carré moyen permettant d'obtenir un test F approximatif et affiche un "x" à côté de la valeur de p pour indiquer que le test F n'est pas exact.

Par exemple, supposons que vous effectuiez une ANOVA avec le facteur fixe Complément et le facteur aléatoire Laque, et que vous obteniez le résultat suivant pour l'espérance mathématique des carrés moyens :

Source	Espérance mathématique des carrés moyens pour chaque terme
(1) Complément	(4) + 1,7500(3) + Q[1]
(2) Laque	(4) + 1,7143(3) + 5,1429(2)
(3) Complément*Laque	(4) + 1,7500(3)
(4) Erreur	(4)

La statistique F pour Complément est le carré moyen de celui-ci divisé par le carré moyen de l'interaction Complément*Laque. Si l'effet pour Complément est très faible, la valeur attendue du numérateur est égale à la valeur attendue du dénominateur. Ceci est un exemple d'un test F exact.

Remarquez en revanche que pour un effet Laque très faible, il n'y a aucun carré moyen qui fasse que la valeur attendue du numérateur soit égale à la valeur attendue du dénominateur. Par conséquent, Minitab utilise un test F approximatif. Dans cet exemple, le carré moyen de Laque est divisé par celui de l'interaction Complément*Laque. Cette opération donne une valeur attendue du numérateur approximativement égale à celle du dénominateur si l'effet Laque est très faible.

A propos du message "Le dénominateur du test F est nul ou non défini"

Dans Minitab, une erreur indiquant que le dénominateur du test F est nul ou non défini peut apparaître pour les raisons suivantes :

L'erreur ne dispose d'aucun degré de liberté.
Les valeurs du CM ajusté sont très faibles, d'où un manque de précision empêchant d'afficher les valeurs F et de p. Pour contourner ce problème, vous pouvez multiplier la colonne de réponse par 10. Ensuite, appliquez le même modèle de régression, mais en utilissant cette nouvelle colonne pour la réponse.

Remarque
Le fait de multiplier les valeurs de réponse par 10 n'aura pas d'incidence sur les valeurs de F et de p affichées dans les résultats par Minitab. En revanche, la position des décimales dans le reste des résultats sera modifiée, en particulier dans les colonnes SomCar ajust, CM ajust et Ajus, ainsi que dans celles des sommes des carrés séquentielles, de l'erreur type des valeurs ajustées et des valeurs résiduelles.

Méthode de calcul des statistiques F dans les résultats de l'ANOVA

Chaque statistique F est un rapport de carrés moyens. Le numérateur est le carré moyen associé au terme. Le dénominateur est également un carré moyen, choisi de façon à ce que la différence entre le numérateur et le dénominateur corresponde à l'effet qui vous intéresse. L'effet d'un terme aléatoire est représenté par la composante de variance de ce terme. L'effet d'un terme fixe est représenté par la somme des carrés des composantes du modèle associées à ce terme, divisée par ses degrés de liberté. Par conséquent, une statistique F élevée indique que l'effet est significatif.

Lorsque tous les termes du modèle sont fixes, le dénominateur de chaque statistique F est le carré moyen de l'erreur. En revanche, pour les modèles comprenant des termes aléatoires, le carré moyen de l'erreur n'est pas toujours le dénominateur approprié. Vous pouvez utiliser l'espérance mathématique des carrés moyens pour déterminer la valeur appropriée pour le dénominateur.

Exemple

Supposons que vous effectuiez une ANOVA avec le facteur fixe Filtre et le facteur aléatoire Tech, et que vous obteniez le résultat suivant pour l'espérance mathématique des carrés moyens : 

Source	Espérance mathématique des carrés moyens pour chaque terme
(1) Filtre	(4) + 2,0000(3) + Q[1]
(2) Tech	(4) + 2,0000(3) + 4,0000(2)
(3) Filtre*Tech	(4) + 2,0000(3)
(4) Erreur	(4)

Les nombres entre parenthèses désignent l'effet aléatoire du terme qui leur est associé dans la colonne Source. (2) représente l'effet aléatoire de Tech, (3) représente l'effet aléatoire de l'interaction Filtre*Tech et (4) représente l'effet aléatoire de l'erreur. L'espérance mathématique des carrés moyens pour Erreur est l'effet du terme d'erreur. En outre, l'espérance mathématique des carrés moyens pour Filtre*Tech est l'effet du terme d'erreur plus deux fois l'effet de l'interaction Filtre*Tech.

Pour calculer la statistique F pour Filtre*Tech, le carré moyen de Filtre*Tech est divisé par celui de l'erreur ; ainsi la valeur attendue du numérateur (espérance mathématique des carrés moyens pour Filtre*Tech = (4) + 2,0000(3)) ne diffère de la valeur attendue du dénominateur (espérance mathématique des carrés moyens pour Erreur = (4)) que par l'effet de l'interaction (2,0000(3)). Par conséquent, une statistique F élevée indique que l'interaction Filtre*Tech est significative.

Les nombres avec Q[ ] désignent l'effet fixe du terme qui leur est associé dans la colonne Source. Par exemple, Q[1] représente l'effet fixe de Filtre. L'espérance mathématique des carrés moyens pour Filtre correspond à l'effet du terme d'erreur plus deux fois l'effet de l'interaction Filtre*Tech, plus l'effet de Filtre multiplié par une valeur constante. Q[1] est égal à (b*n*somme((coefficients des niveaux de Filtre)**2)) divisé par (a - 1), où a et b représentent respectivement le nombre de niveaux de Filtre et Tech, et n représente le nombre de répétitions.

Pour calculer la statistique F pour Filtre, le carré moyen de Filtre est divisé par celui de Filtre*Tech ; ainsi la valeur attendue du numérateur (espérance mathématique des carrés moyens pour Filtre = (4) + 2,0000(3) + Q[1]) ne diffère de la valeur attendue du dénominateur (espérance mathématique des carrés moyens pour Filtre*Tech = (4) + 2,0000(3)) que par l'effet de Filtre (Q[1]). Par conséquent, une statistique F élevée indique que l'effet de Filtre est significatif.

Pourquoi le résultat de mon analyse ANOVA comporte-t-elle un "x" à côté d'une valeur de p dans le tableau ANOVA, ainsi que la mention "n'est pas un test F exact" ?

Pour un terme donné, le test F est dit exact lorsque la différence entre le numérateur (carré moyen attendu pour le terme) et le dénominateur est uniquement constituée par la composante de variance ou le facteur fixe qui vous intéresse.

Toutefois, il peut arriver que le carré moyen à utiliser comme dénominateur ne puisse pas être calculé. Dans ce cas, Minitab utilise un carré moyen permettant d'obtenir un test F approximatif et affiche un "x" à côté de la valeur de p pour indiquer que le test F n'est pas exact.

Par exemple, supposons que vous effectuiez une ANOVA avec le facteur fixe Complément et le facteur aléatoire Laque, et que vous obteniez le résultat suivant pour l'espérance mathématique des carrés moyens :

Source	Espérance mathématique des carrés moyens pour chaque terme
(1) Complément	(4) + 1,7500(3) + Q[1]
(2) Laque	(4) + 1,7143(3) + 5,1429(2)
(3) Complément*Laque	(4) + 1,7500(3)
(4) Erreur	(4)

La statistique F pour Complément est le carré moyen de celui-ci divisé par le carré moyen de l'interaction Complément*Laque. Si l'effet pour Complément est très faible, la valeur attendue du numérateur est égale à la valeur attendue du dénominateur. Ceci est un exemple d'un test F exact.

Remarquez en revanche que pour un effet Laque très faible, il n'y a aucun carré moyen qui fasse que la valeur attendue du numérateur soit égale à la valeur attendue du dénominateur. Par conséquent, Minitab utilise un test F approximatif. Dans cet exemple, le carré moyen de Laque est divisé par celui de l'interaction Complément*Laque. Cette opération donne une valeur attendue du numérateur approximativement égale à celle du dénominateur si l'effet Laque est très faible.

A propos du message "Le dénominateur du test F est nul ou non défini"

Dans Minitab, une erreur indiquant que le dénominateur du test F est nul ou non défini peut apparaître pour les raisons suivantes :

L'erreur ne dispose d'aucun degré de liberté.
Les valeurs du CM ajusté sont très faibles, d'où un manque de précision empêchant d'afficher les valeurs F et de p. Pour contourner ce problème, vous pouvez multiplier la colonne de réponse par 10. Ensuite, appliquez le même modèle de régression, mais en utilissant cette nouvelle colonne pour la réponse.

Remarque
Le fait de multiplier les valeurs de réponse par 10 n'aura pas d'incidence sur les valeurs de F et de p affichées dans les résultats par Minitab. En revanche, la position des décimales dans le reste des résultats sera modifiée, en particulier dans les colonnes SomCar ajust, CM ajust et Ajus, ainsi que dans celles des sommes des carrés séquentielles, de l'erreur type des valeurs ajustées et des valeurs résiduelles.

Valeur ajustée

Notation

Pour un modèle à 3 facteurs :

Terme	Description
	valeur ajustée de l'observation à l'i^e niveau du facteur A, au j^e niveau du facteur B, au k^e niveau du facteur C
	valeur moyenne de l'observation à l'i^e niveau du facteur A, au j^e niveau du facteur b, au k^e niveau du facteur C
n	nombre d'observations à l'i^e niveau du facteur A, au j^e niveau du facteur B, au k^e niveau du facteur C

Valeur résiduelle (Val rés)

Notation

Terme	Description
e_i	i^e valeur résiduelle
	i^e valeur de réponse observée
	i^e réponse ajustée

Méthodes et formules pour la fonction ANOVA équilibrée

Sur ce thème

Modèle d'ANOVA équilibrée

Moyennes des facteurs

Formule

Notation

Somme des carrés (SomCar)

Notation

Degrés de liberté (DL)

Notation

Carré moyen (CM)

Formules

F

Formules

Valeur de p - Tableau d'analyse de la variance

Formule

Notation

S

Notation

R carré

Formule

Notation

R carré (ajusté)

Notation

Composantes de la variance

Espérance mathématique des carrés moyens

Notation

Statistique F pour les modèles avec facteurs aléatoires

Méthode de calcul des statistiques F dans les résultats de l'ANOVA

Exemple

Pourquoi le résultat de mon analyse ANOVA comporte-t-elle un "x" à côté d'une valeur de p dans le tableau ANOVA, ainsi que la mention "n'est pas un test F exact" ?

A propos du message "Le dénominateur du test F est nul ou non défini"

Remarque

Méthode de calcul des statistiques F dans les résultats de l'ANOVA

Exemple

Pourquoi le résultat de mon analyse ANOVA comporte-t-elle un "x" à côté d'une valeur de p dans le tableau ANOVA, ainsi que la mention "n'est pas un test F exact" ?

A propos du message "Le dénominateur du test F est nul ou non défini"

Remarque

Valeur ajustée

Notation

Valeur résiduelle (Val rés)

Notation