Dans la fonction régression logistique binaire , vous pouvez entrer les données sous deux formats : au format réponse binaire/effectif ou au format événement/essai. Le format des données pour l'analyse doit généralement correspondre à la façon dont les données ont été collectées.

Pourquoi utiliser des données au format événement/essai ?

Vous allez généralement collecter et analyser des données au format événement/essai si vous pouvez collecter les données de plusieurs essais en une fois. Par exemple, un ingénieur produit un lot de 200 circuits intégrés. Les paramètres du procédé de fabrication doivent être les mêmes pour tous les circuits du lot. Ces 200 circuits représentent 200 essais. Si l'ingénieur collecte des données dans un autre lot obtenu avec les mêmes paramètres de production, les données sont stockées dans une autre ligne.

Exemple de format événement/essai

Avec le format événement/essai, la variable de réponse utilise deux colonnes. Une colonne contient le nombre de succès ou d'événements étudiés. L'autre colonne contient le nombre d'essais.

Dans cette feuille de travail, Succès contient le nombre d'événements, soit le nombre de circuits ayant réussi un test de fonctionnement électrique. Essais contient le nombre d'essais, soit le nombre total de puces produites pour cette combinaison de variables de prédicteurs. Température est un prédicteur continu. Matière première est un prédicteur de catégorie. La première ligne de la feuille de calcul affiche un lot de 200 puces fabriquées à une température de 1500 degrés avec la matière première issue du fournisseur B. 180 de ces circuits ont réussi le test de fonctionnement électrique.
C1 C2 C3 C4
Succès Essais Température Matière première
180 200 1500 Fournisseur B
200 200 1400 Fournisseur A
196 200 1500 Fournisseur A
197 200 1400 Fournisseur B
190 200 1400 Fournisseur A
193 200 1400 Fournisseur B
198 200 1500 Fournisseur A
185 200 1500 Fournisseur B

Remarque

Si les données sont au format événement/essai dans la feuille de travail, mais que le nombre d'essais par ligne est faible, la fiabilité et l'interprétation des statistiques change. Par exemple, si chaque ligne compte un essai, le nombre d'événements par ligne est 0 ou 1. L'analyse de ces données est la même que pour des données au format réponse binaire/effectif, sans la colonne d'effectif.

Pourquoi utiliser des données au format réponse binaire/effectif ?

Vous allez généralement collecter et analyser des données au format réponse binaire/effectif si vous pouvez noter le résultat de chaque essai au moment où vous l'obtenez. Par exemple, un consultant en marketing interroge des clients à la sortie d'un supermarché pour savoir s'ils ont acheté une nouvelle marque de céréales. Lorsque chaque client répond, le consultant consigne leurs données individuelles.

Exemple de données au format réponse binaire/effectif

Avec le format réponse binaire/effectif, la variable de réponse utilise une colonne. La colonne de réponse n'a que deux valeurs : une indiquant un événement et l'autre un non-événement.

Dans cette feuille de travail, Achat est la réponse et indique si un client a acheté une nouvelle marque de céréales. L'événement de réponse est Oui. Revenu est un prédicteur continu et Enfants est un prédicteur de catégorie. La première ligne de la feuille de travail montre que le premier client interrogé par le consultant avait des enfants, un revenu de 37 000 $, et avait acheté la nouvelle marque de céréales.
C1 C2 C3
Achat Revenu Enfants
Oui 37 Oui
Non 47 Oui
Oui 34 Non
Oui 58 Non

Vous pouvez inclure une colonne d'effectif pour les données au format réponse binaire/effectif. Pour une interprétation plus claire du graphique des valeurs résiduelles en fonction de l'ordre, combinez seulement des observations consécutives. La combinaison d'observations non consécutives peut créer ou masquer des schémas sur le graphique des valeurs résiduelles en fonction de l'ordre.

Dans cette feuille de travail, les variables de réponse et de prédiction sont les mêmes que pour l'exemple précédent, mais les données comprennent également une variable d'effectif. Effectif contient le nombre de clients correspondant à la combinaison des valeurs de réponse et de prédicteur de chaque ligne. La première ligne de la feuille de travail montre que 2 clients ayant des enfants et un revenu de 40 000 $ ont acheté la nouvelle marque de céréales. S'ils ne sont pas les deux premiers clients interrogés, l'ordre des données de la feuille de travail diffère de l'ordre de collecte. Des schémas peuvent être masqués dans le graphique des valeurs résiduelles en fonction de l'ordre, ou bien être insignifiants pour les données réordonnées.
C1 C2 C3 C4
Achat Revenu Enfants Effectifs
Oui 40 Oui 2
Non 40 Non 12
Oui 45 Oui 1
Non 45 Non 6