データに最も適したモデル関係を判定し、関係の強さを評価します。
この例では、データを長方形のビンにグループ化しています。ビン内の観測値の数に基づいて、ビンに明るい灰色から暗い青色が使用されます。経済学者は、年齢に関係なく債務比率が0に近い人が多く、1に近い債務比率を持つ人はほとんどいないと考えています。プロットの途中の暗い領域は、年齢が増加するにつれて債務比率が増加することを示しています。しかし、年齢が50前後になると、暗い領域は下がり、年齢とともに減少し始めます。年齢と負債の比率は2次的な関係を持っているように見えます。経済学者は、債務比率の回帰モデルに、年齢に関する2つ目の項を含める必要があると判断します。
3番目の変数を含める場合は、その変数とx-とy-変数の間の関係を探します。Minitabでは、ビン内のすべての観測値の3番目の変数の平均値に基づいてビンが色分けされます。関係がない場合、ビンの色はビン分割散布図全体にランダムに散在します。色のパターンは、関係が存在する可能性があることを示します。
この例では、調査チームが、カラットとカラーがダイヤモンドの価格にどのように影響するかを判断します。Minitabでは、ダイヤモンドの色に基づいてビンにダークブルーからダークレッドが使用されます。赤の濃い色合いは、カラー変数の高い値に対応します。青の濃い色合いは、カラー変数の低い値に対応します。カラットの数が増えると価格が上昇します。しかし、同じ数のカラットを持つダイヤモンドの価格には依然として大きなばらつきがあります。ダイヤモンドの色は、この変動の一部を説明します。カラット数が近いダイヤモンドの場合、番号が高いほど価格が高くなります。
ダイヤモンドの色は文字で表されます。すべての変数は数値でなければならないため、研究者たちはダイヤモンドの色を0~6の数値スケールにコード化します。事業主は無色のダイヤモンドに高い数値を与え、明るい黄色のダイヤモンドに低い数字を与えます。
外れ値は、他の大部分のデータから離れているデータ値のことで、データの異常な条件を示していることがあり、分析の結果に大きな影響を及ぼします。
外れ値がある場合は、その原因を特定してください。データ入力や測定の誤差はすべて修正します。異常な1回きりの事象(特殊原因)に関連付けられたデータ値は除外することを検討します。その後で、分析を繰り返します。