クラスター分析 - 変数のデータを入力する

統計 > 多変量 > クラスター分析 - 変数

データを入力する

変数または距離行列に、測定データが含まれる列、またはすべての変数ペア間の距離が含まれる保存距離行列のいずれかを入力します。

保存距離行列を入力する場合、最終分割の統計量は計算できません。

測定データでは、2つ以上の数値列があり、各列が異なる測定値になるようにする必要があります。この分析を実行する前に、欠損しているデータのある行をワークシートから除外してください。データの行が多い場合、欠損値を持つ行を除外するワークシートをサブセット化したくなるかもしれません。詳細はワークシートのサブセット化の概要を参照してください。

この分析にはカテゴリ変数を入力することはできません。カテゴリ変数がある場合には、テキスト値を数値の尺度にまず変換するか、カテゴリ変数の各水準にそれぞれの分析を実行する必要があります。詳細は、クラスター分析 - 変数のデータに関する考慮事項を参照してください。

保存距離行列では、距離行列Dの行iと列jのエントリは、変数iとjの距離です。保存された行列の作成および使用に関する詳細は行列の概要を参照してください。

このワークシートでは、列ごとに、世界中の各都市で測定された個々の変数の測定値が含まれます。これには、大学への入学率が関連付けられています。この変数には、都市ごとの新聞、ラジオ、テレビの数(1,000人当たり)、識字率、大学の有無が含まれています。調査者は、類似した特性に基づいて変数を合成することで、変数の個数を減らそうと考えています。
C1 C2 C3 C4 C5
新聞 ラジオ テレビ 識字率 大学
279 267 227 0.98 1
143 112 332 0.94 1
9 113 7 0.25 0
391 314 566 0.99 1
112 48 423 0.82 1
67 66 134 0.45 0

連結法を指定する

結合手法から、2つのクラスターの距離を定義する方法を選択します。データに対する結果を有用にする方法を確認するため、複数の連結法を試したいと思うかもしれません。

クラスター分析 - 観測値では、距離は観測値間の距離のことであり、連結は観測値のクラスター間の距離のことです。クラスター分析 - 変数では、距離は変数間の距離のことであり、連結は変数のクラスター間の距離のことです。

群平均
2つのクラスター間の距離は、一方のクラスター内の観測値(または変数)と他方のクラスター内の観測値(または変数)間の平均距離です。最短距離結合法(最近隣法)または最長距離結合法(最遠隣法)は、1つの距離ペアに基づきますが、平均結合法では、より中心にある位置の尺度を使用します。
重心
2つのクラスター間の距離は、クラスター重心間の距離、つまり平均値です。平均結合法と同様、この方法は平均化の手法でもあります。
すべて
2つのクラスター間の距離は、一方のクラスター内の観測値(または変数)間と他方のクラスター内の観測値(または変数)間の最大値距離です。最遠隣法とも呼ばれるこの方法では、クラスター内のすべての観測値(または変数)が最大距離以内に含まれ、直径が同じクラスターが生成される傾向にあります。ただし、結果は外れ値に大きく左右されます。
類似度分析 (McQuitty)
新しいクラスターと他方のクラスターとの距離は、結合前のクラスターと他方のクラスターとの距離の平均として計算されます。たとえば、クラスター1と3が結合されて新しいクラスターになる場合は1*と呼び、1*とクラスター4との距離は、1と4の距離と3と4の距離の平均になります。この方法では、距離は、クラスター内の個々の観測値(または変数)ではなく、クラスターの組み合わせによって変化します。
中央値
2つのクラスター間の距離は、一方のクラスター内の観測値(または変数)と他方のクラスター内の観測値(または変数)の中央値距離です。こうした平均化の技術では、平均ではなく中央値を使用するので、外れ値の影響は小さくなります。
単一
2つのクラスター間の距離は、一方のクラスター内の観測値(または変数)と他方のクラスター内の観測値(または変数)間の最小距離です。最近隣法とも呼ばれるこの方法は、クラスターが明らかに異なる場合に適切な選択になります。観測値(または変数)が近接している場合、最短距離連結法は、チェーンの両端の観測値を隔てる比較的大きい距離値を持つ長いチェーン状のクラスターを識別する傾向があります。
ウォード (Ward)
2つのクラスター間の距離は、点から重心までの平方偏差の和です。ウォード(Ward)リンケージ法の目的は、クラスター内平方和を最小にすることです。この方法では、作成されるクラスターの観測値(または変数)の数が同様になる傾向がありますが、外れ値の影響を受けます。また、2つのクラスター間の距離が、dmax(元の距離行列の最大値)より大きくなる可能性があります。この場合、類似度は負になります。

距離測度を指定する

距離スケールから、変数間の距離を計算するための方法を選択します。
  • 相関:この相関法では、正の相関は0~1の間の距離で示され、負の相関は1~2の間の距離で示されます。正の相関データよりも負の相関データの距離が離れていることに意味がある場合は、この相関法を使用します。
  • 絶対相関:絶対相関法では0~1の距離を求めます。距離を考慮するうえで、兆候ではなく、関係の強度が重要な場合は、絶対相関法を使用します。

最終分割(パーティション)を指定する

最終グループ化を判断するために使用する基準を指定します。
  • クラスター数:最終分割のクラスター数を入力するために選択します。
  • 類似度の水準:最終分割のクラスター数の類似度水準を入力するために選択します。

最適な結果を得るには、基準を柔軟に設定する必要があります。たとえば、クラスター数を使用して最終分割を定義する場合、類似度水準を変更することも検討する必要があります。特定のクラスターを追加したときに類似度が急落したら、このグループ化の前に最終分割(パーティション)を指定することを示している可能性があります。逆に、類似度水準を使用して最終分割を定義する場合、クラスターの範囲全体で類似度水準があまり変化しないかどうかを判断することもあり、単純化のために、クラスターが最小のステップに従うことを選択するかもしれません。

最終分割を指定するためにどんな値を入力すればよいかわからない場合、まず、デフォルト設定(最終分析のクラスターは1)を使用して分析を実行します。Minitabでは、可能性のあるすべてのクラスター数の結果を表示します。結果を使用して、最終分割に入力する値を判断します。その後、分析を繰り返して、判断する最終分割を指定します。詳細はクラスターの最終グループ化を判断するを参照してください。

樹形図を表示する

併合手順のステップごとにクラスターが作成される過程を示す枝分かれ図を表示するために選択します。樹形図により、ステップごとのクラスターの類似度(または距離)の値を表示できます。

樹形図のデフォルトの表示を変更するにはカスタマイズするをクリックします。