Réduction du modèle

La réduction d'un modèle est le fait d'en éliminer des termes, par exemple le terme associé à une variable de prédicteur ou l'interaction entre des variables de prédicteur. La réduction de modèle vous permet de simplifier un modèle et d'augmenter la précision des prévisions. Vous pouvez réduire des modèles dans tous les groupes de commandes de Minitab, y compris la régression, l'ANOVA, les plans d'expériences (DOE) et les tests de fiabilité.

La signification statistique d'un terme est l'un des critères de réduction de modèle. L'élimination des termes qui ne sont pas statistiquement significatifs augmente la précision des prévisions du modèle. Pour utiliser le critère de signification statistique, choisissez d'abord un seuil de signification, comme 0,05 ou 0,15. Ensuite, testez différents termes pour trouver un modèle comptant autant de termes statistiquement significatifs que possible, mais sans termes n'étant pas statistiquement significatifs. Pour utiliser le critère de signification statistique, les données doivent fournir suffisamment de degrés de liberté pour vous permettre d'estimer la signification statistique des termes après l'ajustement du modèle. Vous pouvez appliquer le critère de signification statistique de façon manuelle ou bien automatiquement à l'aide d'une procédure algorithmique, comme la régression pas à pas. Le critère de signification statistique vous sert à déterminer un modèle correspondant à vos objectifs. Cependant, il ne produit pas toujours le meilleur modèle.

Outre le critère de signification statistique, Minitab permet de calculer d'autres critères statistiques pour les modèles, comme la valeur S, le R2 ajusté, le R2 prévu, la valeur SomCar-ErrPrév, le Cp de Mallows et l'AIC. Vous pouvez utiliser un ou plusieurs de ces critères lorsque vous réduisez un modèle.

A l'instar de la régression pas à pas, la régression sur les meilleurs sous-ensembles est une procédure algorithmique que vous pouvez utiliser pour trouver un modèle correspondant à vos objectifs. La régression sur les meilleurs sous-ensembles examine tous les modèles et détermine ceux qui ont les meilleures valeurs de R2. Dans Minitab, la régression sur les meilleurs sous-ensembles affiche également d'autres statistiques, comme le R2 ajusté et le R2 prévu. Vous pouvez utiliser ces statistiques lorsque vous comparez des modèles. Etant donné que cette méthode utilise le R2, les modèles qu'elle considère comme les meilleurs peuvent très bien ne pas comporter exclusivement des termes statistiquement significatifs. D'autres critères statistiques peuvent également être pris en compte pour réduire un modèle, comme la multicolinéarité et la hiérarchie. Ces deux concepts sont plus détaillés ci-après.

Les statistiques mesurant l'ajustement d'un modèle aux données peuvent vous aider à déterminer un modèle utile. Cependant, vous devez également utiliser votre connaissance du processus et votre bon sens pour décider des termes à éliminer. Certains termes peuvent être essentiels, tandis que d'autres peuvent être trop onéreux ou trop difficiles à mesurer.

Exemple de réduction d'un modèle dans un cas simple

Au cours d'une série de mesures sur l'énergie héliothermique, des techniciens mesurent le flux thermique total. Un énergéticien souhaite déterminer l'influence de plusieurs variables sur le flux thermique total : l'ensoleillement, la position des points focaux à l'est, au sud et au nord, et l'heure de la journée. A l'aide du modèle de régression complet, il établit la relation suivante entre le flux thermique et les variables.

Equation de régression Flux thermique = 325,4 + 2,55 Est + 3,80 Sud - 22,95 Nord + 0,0675 Isolation + 2,42 Heure journée
Coefficients Valeur Valeur Terme Coeff Coef ErT de T de p FIV Constante 325,4 96,1 3,39 0,003 Est 2,55 1,25 2,04 0,053 1,36 Sud 3,80 1,46 2,60 0,016 3,18 Nord -22,95 2,70 -8,49 0,000 2,61 Isolation 0,0675 0,0290 2,33 0,029 2,32 Heure journée 2,42 1,81 1,34 0,194 5,37

L'ingénieur souhaite éliminer autant de termes non significatifs que possible pour maximiser la précision des prévisions. Il décide d'utiliser un seuil de signification statistique de 0,05. La valeur de p pour l'heure de la journée (0,194) étant la valeur de p la plus élevée au dessus de 0,05, l'ingénieur retire ce terme en premier. Il répète ensuite la régression, en supprimant un terme non significatif à chaque fois, jusqu'à ce qu'il ne reste que des termes statistiquement significatifs. Le modèle réduit final est le suivant :

Equation de régression Flux thermique = 483,7 + 4,796 Sud - 24,22 Nord
Coefficients Valeur Valeur Terme Coeff Coef ErT de T de p FIV Constante 483,7 39,6 12,22 0,000 Sud 4,796 0,951 5,04 0,000 1,09 Nord -24,22 1,94 -12,48 0,000 1,09

Multicolinéarité

Dans une régression, la multicolinéarité est un problème qui survient lorsque certaines variables de prévision du modèle sont corrélées avec d'autres. Une multicolinéarité prononcée s'avère problématique, car elle peut augmenter la variance des coefficients de régression et les rendre instables et difficiles à interpréter. Lorsque l'on retire un terme ayant une multicolinéarité élevée, la signification statistique et les valeurs des coefficients des termes fortement corrélés peuvent considérablement changer. Ainsi, en présence d'une multicolinéarité, il est d'autant plus important d'examiner plusieurs statistiques et de modifier les termes du modèle un par un. Généralement, vous devez limiter la multicolinéarité autant que possible avant de réduire un modèle. Pour plus d'informations sur les façons de réduire la multicolinéarité, reportez-vous à la rubrique Multicolinéarité dans la régression..

Exemple d'interférence de la multicolinéarité avec le critère de signification statistique

Une équipe d'un centre médical développe un modèle pour prévoir le degré de satisfaction des patients. Le modèle comporte plusieurs variables, le temps passé par les patients auprès d'un médecin et le temps passé en examens médicaux. Lorsque ces deux variables sont dans le modèle, la multicolinéarité est élevée, avec des valeurs de FIV (facteur d'inflation de la variance) de 8,91. Les valeurs supérieures à 5 indiquent généralement une multicolinéarité prononcée. La valeur de p associée à la durée pendant laquelle les patients sont avec un médecin est de 0,105, ce qui n'est pas significatif au niveau de 0,05. La valeur du R2 prévu pour ce modèle est 22,9 %.

Analyse de régression : Satisfaction en fonction de Heure du pro; Heure du tes

Récapitulatif du modèle R carré R carré S R carré (ajust) (prév) 0,951953 28,68% 25,64% 22,91%
Coefficients Valeur Valeur Terme Coeff Coef ErT de T de p FIV Constante -0,078 0,156 -0,50 0,618 Heure du professionnel 0,1071 0,0648 1,65 0,105 8,91 Heure du test -0,516 0,178 -2,90 0,006 8,91

La valeur du R2 prévu pour le modèle incluant uniquement le temps passé en examens tombe de 22,9 % à 10,6 %. Bien que le temps passé par les patients avec un médecin ne soit pas statistiquement significatif au niveau de 0,05, l'inclusion de cette variable fait plus que doubler la valeur du R2 prévu. La multicolinéarité élevée cache peut-être l'importance du prédicteur.

Analyse de régression : Satisfaction en fonction de Heure du test

Récapitulatif du modèle R carré R carré S R carré (ajust) (prév) 0,968936 24,54% 22,96% 10,61%
Coefficients Valeur Valeur Terme Coeff Coef ErT de T de p FIV Constante -0,162 0,150 -1,08 0,285 Heure du test -0,2395 0,0606 -3,95 0,000 1,00

Hiérarchie

Un modèle hiérarchique est un modèle dans lequel, pour tout terme que vous incluez, tous les termes d'ordre inférieur qu'il contient sont également inclus. Supposons par exemple un modèle à quatre facteurs : A, B, C et D. Si le terme A*B*C est dans le modèle, les termes A, B, C, A*B, A*C et B*C doivent aussi y être. Tous les termes avec D n'ont pas à être inclus dans le modèle, car D ne fait pas partie du terme A*B*C. La structure hiérarchique s'applique également à l'emboîtage. Si le terme B(A) se trouve dans le modèle, A doit également être inclus dans le modèle pour que celui-ci soit hiérarchique.

La hiérarchie est souhaitable dans un modèle, car elle permet de traduire des unités normalisées en unités non normalisées. Les unités normalisées sont courantes lorsque le modèle comprend des termes d'ordre élevé, comme des interactions, car la normalisation réduit la multicolinéarité causée par ces termes.

Etant donné que la hiérarchie est souhaitable, la réduction de modèles hiérarchiques est courante. Par exemple, une stratégie consiste à utiliser le critère de la valeur de p pour réduire le modèle en combinaison avec la hiérarchie. Vous devez d'abord retirer les termes les plus complexes qui ne sont pas statistiquement significatifs. Si un terme qui n'est pas statistiquement significatif fait partie d'un terme d'interaction ou d'un terme d'ordre supérieur, le terme reste dans le modèle. La sélection de modèle pas à pas de Minitab peut utiliser le critère de hiérarchie et le critère de signification statistique.

Exemple de réduction de modèle hiérarchique

Un ingénieur en matériaux travaillant pour un fabricant de matériaux de construction développe un nouveau produit d'isolation. Il conçoit un plan d'expériences factoriel complet à 2 niveaux, afin d'évaluer plusieurs facteurs pouvant influer sur la qualité de l'isolation. L'ingénieur inclut les interactions dans le modèle afin de déterminer si les effets des facteurs dépendent les uns des autres. Comme les interactions créent une multicolinéarité, l'ingénieur code les prédicteurs pour la réduire.

La valeur de p la plus élevée pour le premier modèle examiné par l'ingénieur est de 0,985 pour l'interaction entre la température d'injection et le matériau. Sous le tableau des coefficients codés, l'ingénieur peut examiner l'équation de régression en unités non codées. L'équation de régression aide l'ingénieur à évaluer l'importance des effets avec les mêmes unités que les données.

Analyse de régression : Isolation en fonction de PressInj; TempInj; ...

Equation de régression en unités non codées Matériau Formule1 Isolation = 26,6 + 0,154 PressInj - 0,213 TempInj - 0,906 TempRafr - 0,00138 PressInj*TempInj - 0,00267 PressInj*TempRafr + 0,01137 TempInj*TempRafr + 0,000036 PressInj*TempInj*TempRafr Formule2 Isolation = 28,3 + 0,125 PressInj - 0,179 TempInj - 0,597 TempRafr - 0,00073 PressInj*TempInj - 0,00369 PressInj*TempRafr + 0,00831 TempInj*TempRafr + 0,000036 PressInj*TempInj*TempRafr
Coefficients codés Valeur Valeur Terme Coeff Coef ErT de T de p FIV Constante 17,463 0,203 86,13 0,007 PressInj 1,835 0,203 9,05 0,070 2,00 TempInj 1,276 0,203 6,29 0,100 2,00 TempRafr 2,173 0,203 10,72 0,059 2,00 Matériau Formule2 5,192 0,287 18,11 0,035 1,00 PressInj*TempInj -0,036 0,203 -0,18 0,887 2,00 PressInj*TempRafr 0,238 0,203 1,17 0,449 2,00 TempInj*TempRafr 1,154 0,203 5,69 0,111 2,00 PressInj*Matériau Formule2 -0,198 0,287 -0,69 0,615 2,00 TempInj*Matériau Formule2 -0,007 0,287 -0,02 0,985 2,00 TempRafr*Matériau Formule2 -0,898 0,287 -3,13 0,197 2,00 PressInj*TempInj*TempRafr 0,100 0,143 0,70 0,611 1,00 PressInj*TempInj*Matériau Formule2 0,181 0,287 0,63 0,642 2,00 PressInj*TempRafr*Matériau Formule2 -0,385 0,287 -1,34 0,408 2,00 TempInj*TempRafr*Matériau Formule2 -0,229 0,287 -0,80 0,570 2,00

Si l'ingénieur utilise uniquement le critère de la valeur de p pour réduire le modèle, le modèle suivant n'est pas hiérarchique, car vous retirez une interaction à deux facteurs faisant partie d'une interaction à trois facteurs. Le modèle étant non hiérarchique, les coefficients non codés n'existent pas. Ainsi, l'équation de régression pour le modèle non hiérarchique est en unités codées. L'équation de régression codée ne fournit aucune information sur les effets dans les mêmes unités que les données.

Analyse de régression : Isolation en fonction de PressInj; TempInj; ...

Equation de régression en unités codées Matériau Formule1 Isolation = 17,463 + 1,835 PressInj + 1,272 TempInj + 2,173 TempRafr - 0,036 PressInj*TempInj + 0,238 PressInj*TempRafr + 1,154 TempInj*TempRafr + 0,100 PressInj*TempInj*TempRafr Formule2 Isolation = 22,655 + 1,637 PressInj + 1,272 TempInj + 1,275 TempRafr + 0,145 PressInj*TempInj - 0,147 PressInj*TempRafr + 0,924 TempInj*TempRafr + 0,100 PressInj*TempInj*TempRafr
Coefficients codés Valeur Valeur Terme Coeff Coef ErT de T de p FIV Constante 17,463 0,143 121,77 0,000 PressInj 1,835 0,143 12,80 0,006 2,00 TempInj 1,272 0,101 12,55 0,006 1,00 TempRafr 2,173 0,143 15,15 0,004 2,00 Matériau Formule2 5,192 0,203 25,60 0,002 1,00 PressInj*TempInj -0,036 0,143 -0,25 0,824 2,00 PressInj*TempRafr 0,238 0,143 1,66 0,239 2,00 TempInj*TempRafr 1,154 0,143 8,04 0,015 2,00 PressInj*Matériau Formule2 -0,198 0,203 -0,98 0,431 2,00 TempRafr*Matériau Formule2 -0,898 0,203 -4,43 0,047 2,00 PressInj*TempInj*TempRafr 0,100 0,101 0,99 0,427 1,00 PressInj*TempInj*Matériau Formule2 0,181 0,203 0,89 0,466 2,00 PressInj*TempRafr*Matériau Formule2 -0,385 0,203 -1,90 0,198 2,00 TempInj*TempRafr*Matériau Formule2 -0,229 0,203 -1,13 0,375 2,00

Au lieu de n'utiliser que le critère de la valeur de p, l'ingénieur décide de retirer d'abord les termes les plus complexes ayant des valeurs de p élevées. Dans ce modèle, au lieu de retirer le terme ayant la valeur de p la plus élevée, l'ingénieur retire l'interaction à 3 facteurs ayant la valeur de p la plus élevée. La valeur de p la plus élevée pour une interaction à 3 facteurs est de 0,466 pour l'interaction entre la pression d'injection, la température d'injection et le matériau.