非線形回帰のデータに関する考慮事項

有効な結果が確実に得られるようにするため、データの収集、分析の実行、結果の解釈時には、次のガイドラインを考慮してください。

この予測変数は連続またはカテゴリにすることができる

連続変数は測定および順序付けが可能で、2値間の間の数は無限です。たとえば、タイヤのサンプルの直径は連続変数です。

カテゴリ変数には、有限可算数のカテゴリまたは知覚グループが含まれます。カテゴリデータには、論理的順序がない場合があります。たとえば、カテゴリ予測変数には、性別、材料種、支払い方法が含まれます。

離散変数の場合、それを連続予測変数として扱うかカテゴリ予測変数として扱うかを決めることができます。離散変数は測定と順序付けが可能ですが、計数値をとります。たとえば、一世帯の人数は離散変数です。離散変数を連続として扱うかカテゴリとして扱うかは、水準数および分析の目的によって異なります。

カテゴリ予測変数がある場合は、この分析を行う前に、カテゴリ予測変数を指標変数に変換します。カテゴリ予測変数を変換するには、指標変数を作成を使用します。

応答変数は連続量である

応答変数がカテゴリである場合、モデルは、データを正確に示すのにまたは有利な予測を行うのに、分析の仮説を満たしにくくなります。

非線形関数を必要としない場合は、代わりとなる以下の方法を検討できます。

  • 応答変数に、合格と不合格などの、2つのカテゴリが含まれている場合は、2値ロジスティックモデルの当てはめを使用します。
  • 応答変数に、まったくそう思わない、そう思わない、どちらともいえない、そう思う、とてもそう思うなど、自然な順序のカテゴリが3つ以上含まれている場合は、順位ロジスティック回帰を使用します。
  • 応答変数に、キズ、打痕、摩耗など、自然な順序ではないカテゴリが3つ以上含まれている場合は、名義ロジスティック回帰を使用します。
  • 応答変数で、欠陥数などの発生件数が数えられている場合は、ポアソンモデルの当てはめを使用します。
予想関数により、応答変数と予測変数の間の関係を正確に表す必要がある
予想関数の選択は、応答曲線の形状またはシステムにおける物理特性および化学特性の挙動に関する事前の知識によって左右されることが多いです。潜在的な非線形には、凹、凸、指数関数的増大または指数関数的減衰、シグモイド(S)曲線および漸近曲線が含まれます。事前の知識と残差プロットの要求の両方を満たす関数を指定する必要があります。
許容範囲の開始値を指定する必要がある
反復アルゴリズムは、誤差の平方和(SSE)が低減するようにパラメータ推定値を系統だてて調整することでパラメータを推定します。予想関数とデータセットによっては、開始値が結果に大きく影響する場合があります。
ベストプラクティスを使用してデータを収集する
結果が確実に有効になるようにするため、次のガイドラインについて考慮します。
  • データが対象の母集団を表すことを確認します。
  • 必要な精度を達成するために十分なデータを収集します。
  • 可能な限り正確かつ的確に変数を測定します。
  • データを収集した順序で記録します。
モデルがデータに良好に適合している

モデルがデータに適合しない場合、結果は、誤った認識を与える可能性があります。出力において、残差プロットおよびモデル要約統計量を使用して、モデルのデータへの適合度を判断します。