La réduction d'un modèle est le fait d'en éliminer des termes, par exemple le terme associé à une variable de prédicteur ou l'interaction entre des variables de prédicteur. La réduction de modèle vous permet de simplifier un modèle et d'augmenter la précision des prévisions. Vous pouvez réduire des modèles dans tous les groupes de commandes de Minitab, y compris la régression, l'ANOVA, les plans d'expériences (DOE) et les tests de fiabilité.
La signification statistique d'un terme est l'un des critères de réduction de modèle. L'élimination des termes qui ne sont pas statistiquement significatifs augmente la précision des prévisions du modèle. Pour utiliser le critère de signification statistique, choisissez d'abord un seuil de signification, comme 0,05 ou 0,15. Ensuite, testez différents termes pour trouver un modèle comptant autant de termes statistiquement significatifs que possible, mais sans termes n'étant pas statistiquement significatifs. Pour utiliser le critère de signification statistique, les données doivent fournir suffisamment de degrés de liberté pour vous permettre d'estimer la signification statistique des termes après l'ajustement du modèle. Vous pouvez appliquer le critère de signification statistique de façon manuelle ou bien automatiquement à l'aide d'une procédure algorithmique, comme la régression pas à pas. Le critère de signification statistique vous sert à déterminer un modèle correspondant à vos objectifs. Cependant, il ne produit pas toujours le meilleur modèle.
Outre le critère de signification statistique, Minitab permet de calculer d'autres critères statistiques pour les modèles, comme la valeur S, le R2 ajusté, le R2 prévu, la valeur SomCar-ErrPrév, le Cp de Mallows et l'AIC. Vous pouvez utiliser un ou plusieurs de ces critères lorsque vous réduisez un modèle.
A l'instar de la régression pas à pas, la régression sur les meilleurs sous-ensembles est une procédure algorithmique que vous pouvez utiliser pour trouver un modèle correspondant à vos objectifs. La régression sur les meilleurs sous-ensembles examine tous les modèles et détermine ceux qui ont les meilleures valeurs de R2. Dans Minitab, la régression sur les meilleurs sous-ensembles affiche également d'autres statistiques, comme le R2 ajusté et le R2 prévu. Vous pouvez utiliser ces statistiques lorsque vous comparez des modèles. Etant donné que cette méthode utilise le R2, les modèles qu'elle considère comme les meilleurs peuvent très bien ne pas comporter exclusivement des termes statistiquement significatifs. D'autres critères statistiques peuvent également être pris en compte pour réduire un modèle, comme la multicolinéarité et la hiérarchie. Ces deux concepts sont plus détaillés ci-après.
Les statistiques mesurant l'ajustement d'un modèle aux données peuvent vous aider à déterminer un modèle utile. Cependant, vous devez également utiliser votre connaissance du processus et votre bon sens pour décider des termes à éliminer. Certains termes peuvent être essentiels, tandis que d'autres peuvent être trop onéreux ou trop difficiles à mesurer.
Au cours d'une série de mesures sur l'énergie héliothermique, des techniciens mesurent le flux thermique total. Un énergéticien souhaite déterminer l'influence de plusieurs variables sur le flux thermique total : l'ensoleillement, la position des points focaux à l'est, au sud et au nord, et l'heure de la journée. A l'aide du modèle de régression complet, il établit la relation suivante entre le flux thermique et les variables.
L'ingénieur souhaite éliminer autant de termes non significatifs que possible pour maximiser la précision des prévisions. Il décide d'utiliser un seuil de signification statistique de 0,05. La valeur de p pour l'heure de la journée (0,194) étant la valeur de p la plus élevée au dessus de 0,05, l'ingénieur retire ce terme en premier. Il répète ensuite la régression, en supprimant un terme non significatif à chaque fois, jusqu'à ce qu'il ne reste que des termes statistiquement significatifs. Le modèle réduit final est le suivant :
Dans une régression, la multicolinéarité est un problème qui survient lorsque certaines variables de prévision du modèle sont corrélées avec d'autres. Une multicolinéarité prononcée s'avère problématique, car elle peut augmenter la variance des coefficients de régression et les rendre instables et difficiles à interpréter. Lorsque l'on retire un terme ayant une multicolinéarité élevée, la signification statistique et les valeurs des coefficients des termes fortement corrélés peuvent considérablement changer. Ainsi, en présence d'une multicolinéarité, il est d'autant plus important d'examiner plusieurs statistiques et de modifier les termes du modèle un par un. Généralement, vous devez limiter la multicolinéarité autant que possible avant de réduire un modèle. Pour plus d'informations sur les façons de réduire la multicolinéarité, reportez-vous à la rubrique Multicolinéarité dans la régression..
Une équipe d'un centre médical développe un modèle pour prévoir le degré de satisfaction des patients. Le modèle comporte plusieurs variables, le temps passé par les patients auprès d'un médecin et le temps passé en examens médicaux. Lorsque ces deux variables sont dans le modèle, la multicolinéarité est élevée, avec des valeurs de FIV (facteur d'inflation de la variance) de 8,91. Les valeurs supérieures à 5 indiquent généralement une multicolinéarité prononcée. La valeur de p associée à la durée pendant laquelle les patients sont avec un médecin est de 0,105, ce qui n'est pas significatif au niveau de 0,05. La valeur du R2 prévu pour ce modèle est 22,9 %.
La valeur du R2 prévu pour le modèle incluant uniquement le temps passé en examens tombe de 22,9 % à 10,6 %. Bien que le temps passé par les patients avec un médecin ne soit pas statistiquement significatif au niveau de 0,05, l'inclusion de cette variable fait plus que doubler la valeur du R2 prévu. La multicolinéarité élevée cache peut-être l'importance du prédicteur.
Un modèle hiérarchique est un modèle dans lequel, pour tout terme que vous incluez, tous les termes d'ordre inférieur qu'il contient sont également inclus. Supposons par exemple un modèle à quatre facteurs : A, B, C et D. Si le terme A*B*C est dans le modèle, les termes A, B, C, A*B, A*C et B*C doivent aussi y être. Tous les termes avec D n'ont pas à être inclus dans le modèle, car D ne fait pas partie du terme A*B*C. La structure hiérarchique s'applique également à l'emboîtage. Si le terme B(A) se trouve dans le modèle, A doit également être inclus dans le modèle pour que celui-ci soit hiérarchique.
La hiérarchie est souhaitable dans un modèle, car elle permet de traduire des unités normalisées en unités non normalisées. Les unités normalisées sont courantes lorsque le modèle comprend des termes d'ordre élevé, comme des interactions, car la normalisation réduit la multicolinéarité causée par ces termes.
Etant donné que la hiérarchie est souhaitable, la réduction de modèles hiérarchiques est courante. Par exemple, une stratégie consiste à utiliser le critère de la valeur de p pour réduire le modèle en combinaison avec la hiérarchie. Vous devez d'abord retirer les termes les plus complexes qui ne sont pas statistiquement significatifs. Si un terme qui n'est pas statistiquement significatif fait partie d'un terme d'interaction ou d'un terme d'ordre supérieur, le terme reste dans le modèle. La sélection de modèle pas à pas de Minitab peut utiliser le critère de hiérarchie et le critère de signification statistique.
Un ingénieur en matériaux travaillant pour un fabricant de matériaux de construction développe un nouveau produit d'isolation. Il conçoit un plan d'expériences factoriel complet à 2 niveaux, afin d'évaluer plusieurs facteurs pouvant influer sur la qualité de l'isolation. L'ingénieur inclut les interactions dans le modèle afin de déterminer si les effets des facteurs dépendent les uns des autres. Comme les interactions créent une multicolinéarité, l'ingénieur code les prédicteurs pour la réduire.
La valeur de p la plus élevée pour le premier modèle examiné par l'ingénieur est de 0,985 pour l'interaction entre la température d'injection et le matériau. Sous le tableau des coefficients codés, l'ingénieur peut examiner l'équation de régression en unités non codées. L'équation de régression aide l'ingénieur à évaluer l'importance des effets avec les mêmes unités que les données.
Si l'ingénieur utilise uniquement le critère de la valeur de p pour réduire le modèle, le modèle suivant n'est pas hiérarchique, car vous retirez une interaction à deux facteurs faisant partie d'une interaction à trois facteurs. Le modèle étant non hiérarchique, les coefficients non codés n'existent pas. Ainsi, l'équation de régression pour le modèle non hiérarchique est en unités codées. L'équation de régression codée ne fournit aucune information sur les effets dans les mêmes unités que les données.
Au lieu de n'utiliser que le critère de la valeur de p, l'ingénieur décide de retirer d'abord les termes les plus complexes ayant des valeurs de p élevées. Dans ce modèle, au lieu de retirer le terme ayant la valeur de p la plus élevée, l'ingénieur retire l'interaction à 3 facteurs ayant la valeur de p la plus élevée. La valeur de p la plus élevée pour une interaction à 3 facteurs est de 0,466 pour l'interaction entre la pression d'injection, la température d'injection et le matériau.