L'extension des modèles linéaires classiques aux modèles linaires généralisés se compose de deux parties : une loi issue de la famille exponentielle et une fonction de liaison.
La première partie étend le modèle linéaire aux variables de réponse membres d'une grande famille de lois appelée famille exponentielle. Le format général des fonctions de répartition de probabilités pour les membres de la famille exponentielle de lois est le suivant :
où a(∙), b(∙) et c(∙) dépendent de la loi de la variable de réponse. Le paramètre θ est un paramètre d'emplacement souvent appelé paramètre canonique et ϕ est un paramètre de dispersion. La fonction a(ϕ) a habituellement la forme a(ϕ) = ϕ/ω, où ω représente une constante ou une pondération connue susceptible de varier d'une observation à l'autre. (Dans Minitab, lorsque les pondérations sont indiquées, la fonction a(ϕ) est ajustée en conséquence.)
Les membres de la famille exponentielle peuvent être des lois de probabilité discrète ou des lois de distribution continue. Les lois de distribution continue membres de la famille exponentielle comprennent entre autres la loi normale et la distribution gamma. Les lois de probabilité discrète membres de la famille exponentielle incluent la loi binomiale et la loi de Poisson. Le tableau suivant présente les caractéristiques de certaines de ces lois.
Loi de distribution | ϕ | b(θ) | a(φ) | c(y, ϕ) |
Normale | σ2 | θ2/2 | φω | |
Binomiale | 1 | φ/ω | -ln(y!) | |
Poisson | 1 | exp(θ) | φ/ω |
La seconde partie est la fonction de liaison. Elle associe la moyenne de la réponse dans la ie observation à un prédicteur linéaire de cette manière :
Le modèle linéaire classique est un cas particulier de cette formulation générale dans laquelle la fonction de liaison est la fonction d'identité.
Le choix de la fonction de liaison dans la seconde partie dépend de la loi de la famille exponentielle dans la première partie. Chaque loi de la famille exponentielle dispose d'une fonction de liaison particulière appelée fonction de liaison canonique. Cette dernière vérifie l'équation g (μi) = Xi'β = θ, où θ est le paramètre canonique. La fonction de liaison canonique engendre des propriétés statistiques voulues du modèle. Les statistiques d'adéquation de l'ajustement peuvent servir à comparer les ajustements obtenus par différentes fonctions de liaison. Le choix de certaines fonctions de liaison peut dépendre de raisons historiques ou de leur signification particulière dans une discipline. Par exemple, la fonction logit a pour avantage de fournir une estimation des rapports de probabilités de succès. Nous pouvons également prendre comme exemple la fonction de liaison normit, qui suppose qu'il existe une variable sous-jacente suivant une loi de distribution normale et classée en catégories binaires.
Minitab offre trois fonctions de liaison. Les différentes fonctions de liaison permettent de trouver des modèles bien ajustés à une grande variété de données. Les fonctions de liaison sont logit, normit (également appelée probit) et gompit (appelée également log-log complémentaire). Ces fonctions sont l'inverse de la loi de distribution logistique standard cumulée (logit), l'inverse de la loi de distribution normale standard cumulée (normit) et l'inverse de la loi de distribution de Gompertz (gompit). Logit représente la fonction de liaison canonique pour les modèles binoniaux, ce qui en fait la fonction de liaison par défaut.
Modèle | Nom | Fonction de liaison, g(μi) |
Binomiale | logit | |
Binomiale | normit (probit) | |
Binomiale | gompit (log-log complémentaire) |
Terme | Description |
---|---|
μi | réponse moyenne de la ie ligne |
g(μi) | fonction de liaison |
X | vecteur de variables de prédiction |
β | vecteur des coefficients associés aux prédicteurs |
inverse de la fonction de répartition cumulée pour la loi normale |
Décrit un ensemble unique de valeurs de facteurs/covariables dans un fichier de données. Minitab calcule les probabilités d'événements, les valeurs résiduelles et d'autres mesures de diagnostic pour chaque combinaison de facteurs/covariables.
Par exemple, si un fichier de données inclut des facteurs relatifs au sexe et à l'origine ethnique et la covariable relative à l'âge, la combinaison de ces prédicteurs peut contenir autant de combinaisons de covariables que de sujets. Si un fichier de données inclut uniquement les facteurs relatifs au sexe et à l'origine ethnique, les deux étant codés à deux niveaux, il existe seulement quatre combinaisons de facteurs/covariables possibles. Si vous saisissez les données comme des effectifs (ou des réussites, des essais ou des échecs), chaque ligne contient une combinaison de facteurs/covariables.
Minitab utilise la même approche de la matrice du plan que pour le modèle linéaire général, qui utilise la régression pour ajuster le modèle spécifié. Minitab crée d'abord une matrice du plan d'expériences à partir des facteurs et du modèle que vous spécifiez. Les colonnes de cette matrice, appelée X, représentent les termes du modèle.
Pour les blocs, le nombre de colonnes est égal au nombre de blocs moins un.
Dans un plan à 2 niveaux, le terme associé à un facteur de catégorie a une colonne. Chaque terme d'interaction a également une colonne.
Niveau de A | A1 | A2 | A3 |
---|---|---|---|
1 | 1 | 0 | 0 |
2 | 0 | 1 | 0 |
3 | 0 | 0 | 1 |
4 | -1 | -1 | -1 |
Pour calculer le nombre de colonnes correspondant à un terme d'interaction, multipliez les colonnes correspondantes associées aux facteurs de l'interaction. Par exemple, supposons que A comporte 6 niveaux, C 3 niveaux et D 4 niveaux. Le terme A*C*D aura 5 x 2 x 3 = 30 colonnes. Pour obtenir les niveaux, multipliez chaque colonne associée à A par chaque colonne associée à C, puis par chaque colonne associée à D.
Minitab n'analyse pas les plans en parcelles divisées avec une réponse binaire.
Pour un plan en parcelles divisées, Minitab utilise deux versions de la matrice de plan. L'une est la même que celle utilisée pour n'importe quel plan factoriel à 2 niveaux. L'autre inclut un bloc de colonnes qui représente les sous-blocs. Le calcul du terme d'erreur des sous-blocs, par exemple, utilise cette seconde version de la matrice de plan. Les colonnes correspondant aux sous-blocs suivent celles des facteurs difficiles à changer et des interactions impliquant des facteurs difficiles à changer.