クラスター分析 - 観測値の主要な結果を解釈する

クラスター観測値分析を解釈するには、次の手順を実行します。主要な結果には、類似度および距離の値、樹形図、最終分割が含まれます。

ステップ1:類似度と距離水準を調べる

併合処理のステップごとに、作成されたクラスターを表示し、類似度と距離水準を調べます。類似度水準が高くなるほど、クラスターごとの観測値は似通ってきます。距離水準が低くなるほど、クラスターごとの観測値の距離が近くなります。

クラスターの類似水準が相対的に高く、距離水準が相対的に低くなるのが理想的です。ただし、目標と、クラスター数を合理的で実用的にすることとのバランスを取る必要があります。

併合ステップ

ステップクラスター数類似度の水準距離水準結合されたクラスター新しいクラスター新しいクラスタ
ー内の観測値数
11996.60050.162751316132
21895.46420.217151720172
31795.26480.226696962
41692.91780.339051718173
51590.52960.453391115112
61490.31240.463781219122
71388.24310.5628521422
81288.24310.562855852
91185.97440.6714661063
101083.06390.8108071373
11983.06390.810801312
12881.40390.8902721725
13779.81850.9661761165
14678.75341.0171641243
15566.21121.617602527
16462.00361.819041617
17341.04742.8222914110
18240.17182.8642127210
1910.00004.7873912120
主要な結果:類似度水準と距離水準

これらの結果では、データには合計20個の観測値が含まれます。ステップ1では、2つのクラスター(ワークシート内の観測値13と16)は結合されて、新しいクラスターになります。このステップにより、データに19個のクラスターが作成され、類似度水準は96.6005、距離水準は0.16275となります。類似度水準は高く、距離水準は低くなるけれども、クラスター数が多すぎて役には立ちません。後続のステップごとに、新しいクラスターが作成されると、類似度水準は減少し、距離水準は増加します。最終ステップでは、すべての観測値が結合されて1つのクラスターになります。

樹形図の類似度水準を表示するには、Minitabの枝分かれ図上の水平線にポインタを置きます。

ステップ2:データの最終グループ化を判断する

ステップごとに結合されたクラスターの類似度の水準を使用して、データの最終グループ化を判断しやすくします。ステップ間の類似度水準に急な変化があるかを確認します。類似度が急に変化する前のステップでは、最終分割に適した終止点が得られる可能性があります。最終分割では、クラスターの類似水準はかなり高くなる必要があります。データに関する実務知識も使用して、用途に最も適した最終グループ化を判断する必要があります。

たとえば、次の併合表は、類似度水準が、ステップ15までにおよそ3以下の単位で減少することを示します。類似度は、ステップ16と17の間で20以上(62.0036から41.0474へ)減少し、クラスター数は4から3に変化します。これらの結果は、最終分割では4つのクラスターが十分である可能性があることを示しています。こうしたグループ化が直観的な意味を持つとすれば、これが適していると考えられます。

併合ステップ

ステップクラスター数類似度の水準距離水準結合されたクラスター新しいクラスター新しいクラスタ
ー内の観測値数
11996.60050.162751316132
21895.46420.217151720172
31795.26480.226696962
41692.91780.339051718173
51590.52960.453391115112
61490.31240.463781219122
71388.24310.5628521422
81288.24310.562855852
91185.97440.6714661063
101083.06390.8108071373
11983.06390.810801312
12881.40390.8902721725
13779.81850.9661761165
14678.75341.0171641243
15566.21121.617602527
16462.00361.819041617
17341.04742.8222914110
18240.17182.8642127210
1910.00004.7873912120
主要な結果:類似度水準とクラスター数

最終グループ化に関する決定は、樹形図のカットとも呼ばれます。樹形図のカットは、樹形図に水平線を引いて、最終グループを指定することと同じです。たとえば、この樹形図を4つのクラスターにカットするにあたって、垂直軸の下側、およそ41の類似度水準の真下あたりに水平線を描くことを想像してみてください。

ステップ3:最終分割を調べる

ステップ2の最終グループ化を決定後、分析を再実行して、最終分割のクラスター数(または類似度水準)を指定します。最終分割表を表示して、最終分割のクラスターごとの特徴を表示します。たとえば、クラスター重心までの平均距離により、各クラスター内の観測値のばらつきの測度が得られます。

最終分割のクラスターを調べて、グループ化が用途に対して論理的に見えるかを判断します。まだ不確実な場合、分析を繰り返して、異なる最終グループ化の樹形図を比較して、データにとって最も論理的な最終グループ化を決定します。

これらの統計量の詳細は最終分割(パーティション)を参照してください。

最終分割 (パーティション)

観測値数クラスター内の平方和内重心からの平均距離重心からの最大距離
クラスター173.257130.6125401.12081
クラスター272.722470.5813900.95186
クラスター330.559770.3989640.54907
クラスター430.371160.3265330.48848

クラスター重心

変数クラスター1クラスター2クラスター3クラスター4全重心
性別0.97468-0.974680.97468-0.97468-0.0000000
身長-1.003521.01283-0.372770.351050.0000000
体重-0.906720.93927-0.867970.79203-0.0000000
利き手0.638080.63808-1.48885-1.488850.0000000

クラスター重心間の距離

クラスター1クラスター2クラスター3クラスター4
クラスター10.000003.357592.218823.61171
クラスター23.357590.000003.675572.23236
クラスター32.218823.675570.000002.66074
クラスター43.611712.232362.660740.00000
主要な結果:最終分割、樹形図

この樹形図は、4つのクラスターの最終分割を使用して作成され、およそ40の類似度水準で発生します。最初のクラスター(いちばん左)は7つの観測値(ワークシートの行1、3、6、9、10、11、15の観測値)から成ります。すぐ右側にある2つ目のクラスターは、3つの観測値(ワークシートの行4、12、19の観測値)から成ります。3つ目のクラスターは7つの観測値(行2、14、17、20、18、5、8の観測値)から成ります。いちばん右にある4つ目のクラスターは、3つの観測値(行7、13、16の観測値)から成ります。樹形図がこれより高い数値でカットされた場合、最終クラスター数は少なくなりますが、類似度水準は下がります。樹形図がこれより低い数値でカットされた場合、類似度水準は大きくなりますが、最終クラスター数は多くなります。