ポアソンモデルの当てはめのデータに関する考慮事項

確実に有効な結果が得られるようにするため、データを収集し、分析を行い、結果を解釈する際には、次のガイドラインを考慮してください。

この予測変数は連続またはカテゴリにすることができる

連続変数は測定および順序付けが可能で、2値間の間の数は無限です。たとえば、タイヤのサンプルの直径は連続変数です。

カテゴリ変数には、有限可算数のカテゴリまたは知覚グループが含まれます。カテゴリデータには、論理的順序がない場合があります。たとえば、カテゴリ予測変数には、性別、材料種、支払い方法が含まれます。

離散変数の場合、それを連続予測変数として扱うかカテゴリ予測変数として扱うかを決めることができます。離散変数は測定と順序付けが可能ですが、計数値をとります。たとえば、一世帯の人数は離散変数です。離散変数を連続として扱うかカテゴリとして扱うかは、水準数および分析の目的によって異なります。詳細については、カテゴリ変数、離散変数、連続変数とはを参照してください。

枝分かれしているまたは無作為のカテゴリ予測変数がある場合、固定因子すべてがあるならば一般線形モデルの適合を使用し、無作為因子があるならば混合効果モデルの当てはめを使用します。一般線形モデルの適合の場合、応答は連続します。

応答変数により、有限観測空間で事象が発生した回数が示される
ポワソン応答により、項目で検出された欠陥数などの事象が数えられます。
  • 応答変数に、合格と不合格などの、2つのカテゴリが含まれている場合は、2値ロジスティックモデルの当てはめを使用します。
  • 応答変数に、まったくそう思わない、そう思わない、どちらともいえない、そう思う、とてもそう思うなど、自然な順序のカテゴリが3つ以上含まれている場合は、順位ロジスティック回帰を使用します。
  • 応答変数に、キズ、打痕、摩耗など、自然な順序ではないカテゴリが3つ以上含まれている場合は、名義ロジスティック回帰を使用します。
モデル検証手法の使用を検討します
検定データセットまたは交差検証を使用してモデルを検証できます。モデル適合プロセスのデータに対する逸脱R2などのモデル要約統計量は、楽観的になる傾向があります。テストデータセットまたは交差検証を使用すると、新しいデータに対するモデルのパフォーマンスをより正確に表現できます。
ベストプラクティスを使用してデータを収集する
結果が確実に有効になるようにするため、次のガイドラインについて考慮します。
  • データが対象の母集団を表すことを確認します。
  • 必要な精度を達成するために十分なデータを収集します。
  • 可能な限り正確かつ的確に変数を測定します。
  • データを収集した順序で記録します。
多重共線性としても知られる予測変数間の相関は重度ではない

多重共線性が極端である場合、どの予測変数をモデルに含むべきか判断できないことがあります。多重共線性の大きさを判断するには、出力に含まれる係数表の分散拡大係数(VIF)を使用します。

モデルがデータに良好に適合している

モデルがデータに適合しない場合、結果は、誤った認識を与える可能性があります。出力において、残差プロット、異常観測値の診断統計量、モデル要約統計量を使用して、モデルのデータへの適合度を判断します。