併合ステップ

併合ステップの結果として得られるすべての統計量の定義と解釈について解説します。

このトピックの内容

ステップ
クラスター数
類似度の水準
距離水準
結合されたクラスター
新しいクラスター
新しいクラスターの観測値の数

ステップ

クラスターを結合する併合手順のステップ数。ステップごとに、新しいクラスターは既存のクラスターと結合され、類似水準と距離水準が計算されます。

クラスター数

併合処理の各ステップで形成されるクラスター数。最初のステップの前に、クラスター数は（クラスター観測値の）観測値数の合計またはクラスター変数の個数の合計と等しいです。最初のステップでは、2つのクラスターを結合して、新しいクラスターを形成します。後続の各ステップでは、既存クラスターに別なクラスターを結合して、新しいクラスターを作成していきます。最終ステップでは、すべての観測値または変数が1つのクラスターに結合されます。

メインダイアログボックスにクラスター数を入力して、データの最終分割を指定できます。どの連結手法と距離スケールを選択するかによって、クラスター化の結果は大きく異なります。

類似度の水準

データの観測値間の最大距離を基準に算出される、各併合ステップのクラスター間の最小距離のパーセント。2つのクラスターiとj間の類似度s(ij)は、s(ij) = 100 * [1 - d(ij)) / d(max)]という式で得られます。この式で、d(max)は、iとj間の距離をd(ij)として表す元の距離行列（D）の最大値です。

解釈

ステップごとに結合されたクラスターの類似度の水準を使用して、データの最終グループ化を判断しやすくします。ステップ間の類似度水準に急な変化があるかを確認します。類似度が急に変化する前のステップでは、最終分割に適した終止点が得られる可能性があります。最終分割では、クラスターの類似水準はかなり高くなる必要があります。データに関する実務知識も使用して、用途に最も適した最終グループ化を判断する必要があります。

たとえば、次の併合表は、類似度水準が、ステップ15までにおよそ3以下の単位で減少することを示します。類似度は、ステップ16と17の間で20以上（62.0036から41.0474へ）減少し、クラスター数は4から3に変化します。これらの結果は、最終分割では4つのクラスターが十分である可能性があることを示しています。こうしたグループ化が直観的な意味を持つとすれば、これが適していると考えられます。

併合ステップ

ステップ	クラスター数	類似度の水準	距離水準	結合されたクラスター		新しいクラスター	新しいクラスター内の観測値数
1	19	96.6005	0.16275	13	16	13	2
2	18	95.4642	0.21715	17	20	17	2
3	17	95.2648	0.22669	6	9	6	2
4	16	92.9178	0.33905	17	18	17	3
5	15	90.5296	0.45339	11	15	11	2
6	14	90.3124	0.46378	12	19	12	2
7	13	88.2431	0.56285	2	14	2	2
8	12	88.2431	0.56285	5	8	5	2
9	11	85.9744	0.67146	6	10	6	3
10	10	83.0639	0.81080	7	13	7	3
11	9	83.0639	0.81080	1	3	1	2
12	8	81.4039	0.89027	2	17	2	5
13	7	79.8185	0.96617	6	11	6	5
14	6	78.7534	1.01716	4	12	4	3
15	5	66.2112	1.61760	2	5	2	7
16	4	62.0036	1.81904	1	6	1	7
17	3	41.0474	2.82229	1	4	1	10
18	2	40.1718	2.86421	2	7	2	10
19	1	0.0000	4.78739	1	2	1	20

ヒント

ステップごとの類似度水準を視覚的に評価するには、樹形図を使用します。

距離水準

各ステップで結合されるクラスター（選択したリンケージ法を使用）間または変数間（選択した距離スケールを使用）の距離。Minitabでは、メインダイアログボックスで選択したリンケージ法と距離スケールに基づいて距離水準を計算します。

解釈

ステップごとに結合されたクラスターの距離の水準を使用して、データの最終グループ化を判断しやすくします。ステップ間の距離水準の急な変化を調べます。距離の急な変化の前のステップが、最終分割の終止点になることがあります。最終分割では、クラスターの距離水準はかなり小さくなる必要があります。データの実務知識を使用して、用途に最も適う最終グループ化を判断する必要もあります。

たとえば、次の併合表は、距離水準が最初の15ステップでおよそ0.6以下の単位で上昇することを示しています。ただし、ステップ16と17では、クラスター数が4から3に変化し、距離水準は、1より大きい単位で（1.81904から2.82229へ）上昇します。これらの結果は、4つのクラスターが最終分割で十分になる可能性があることを示しています。このグループ化が直観的な意味を持つとすれば、これが適していると考えられます。

併合ステップ

ステップ	クラスター数	類似度の水準	距離水準	結合されたクラスター		新しいクラスター	新しいクラスター内の観測値数
1	19	96.6005	0.16275	13	16	13	2
2	18	95.4642	0.21715	17	20	17	2
3	17	95.2648	0.22669	6	9	6	2
4	16	92.9178	0.33905	17	18	17	3
5	15	90.5296	0.45339	11	15	11	2
6	14	90.3124	0.46378	12	19	12	2
7	13	88.2431	0.56285	2	14	2	2
8	12	88.2431	0.56285	5	8	5	2
9	11	85.9744	0.67146	6	10	6	3
10	10	83.0639	0.81080	7	13	7	3
11	9	83.0639	0.81080	1	3	1	2
12	8	81.4039	0.89027	2	17	2	5
13	7	79.8185	0.96617	6	11	6	5
14	6	78.7534	1.01716	4	12	4	3
15	5	66.2112	1.61760	2	5	2	7
16	4	62.0036	1.81904	1	6	1	7
17	3	41.0474	2.82229	1	4	1	10
18	2	40.1718	2.86421	2	7	2	10
19	1	0.0000	4.78739	1	2	1	20

結合されたクラスター

併合処理のステップごとに新しいクラスターを形成するために結合された2つのクラスター。

新しいクラスター

併合処理のステップごとに形成される新しいクラスターの識別番号。新しいクラスターの識別番号は、必ず、結合される2つのクラスターの識別番号の小さい方の番号になります。たとえば、クラスター2とクラスター9を結合する場合、新しく形成されるクラスターはクラスター2になります。

新しいクラスターの観測値の数

併合処理のステップごとに形成される新しいクラスターの観測値数。最終ステップでは、すべての観測値は1つのクラスターに結合されます。このため、最後のステップでの新しいクラスターの観測値数はデータの観測値の合計数と等しくなります。

注

クラスター分析 - 変数では、観測値数は、新しいクラスターの変数の数のことです。