クラスター分析 - 観測値の連結法

平均

平均リンケージ法では、2つのクラスター間の距離は、一方のクラスター内の観測値と他方のクラスター内の観測値間の平均距離です。平均距離は、次の距離行列で計算されます。

表記

用語説明
dmjクラスターmとjの距離
mクラスターkとIから成るマージされたクラスター(m = (k,i))
dkjクラスターkとjの距離
dljクラスターlとjの距離
Nkクラスターkの観測値数
Nlクラスターlの観測値数
Nmクラスターmの観測値数

重心

重心リンケージ法では、2つのクラスター間の距離は、クラスター重心間の距離つまり平均値です。距離は、次の距離行列で計算されます。

表記

用語説明
dmjクラスターmとjの距離
mクラスターkとIから成るマージされたクラスター(m = (k,i))
dkjクラスターkとjの距離
dljクラスターlとjの距離
Nkクラスターkの観測値数
Nlクラスターlの観測値数
Nmクラスターmの観測値数

完全分析

最長距離リンケージ法(最遠隣法とも呼ばれます)では、2つのクラスター間の距離は、一方のクラスター内の観測値と他方のクラスター内の観測値間の最大距離です。最大距離は、次の距離行列で計算されます。

dmj = max (dkj, dlj)

表記

用語説明
dmjクラスターmとjの距離
mクラスターkとIから成るマージされたクラスター(m = (k,i))
dkjクラスターkとjの距離
dljクラスターlとjの距離

類似度分析(McQuitty)

類似度連結法を使用する場合、距離は次の距離行列を用いて計算します。

表記

用語説明
dmjクラスターmとjの距離
mクラスターkとIからなるマージされたクラスター(m = (k,i))
dkjクラスターkとjの距離
dljクラスターlとjの距離

中央値

中央値結合法では、2つのクラスター間の距離は、一方のクラスター内の観測値と他方のクラスター内の観測値間の中央値距離です。中央値距離は、次の距離行列で計算されます。

表記

用語説明
dmjクラスターmとjの距離
mクラスターkとIから成るマージされたクラスター(m = (k,i))
dkjクラスターkとjの距離
dljクラスターlとjの距離
dklクラスターkとlの距離

単連結

短連結法(最近隣法とも呼ばれる)では、2つのクラスター間の距離は、一方のクラスター内の観測値と他方のクラスター内の観測値間の最小距離です。観測値が近接している場合、単連結は、チェーンの両端の観測値を隔てる比較的大きい距離値を持つ長いチェーン状のクラスターを識別する傾向があります。

距離は、次の距離行列で計算されます。

dmj = min (dkj, dlj)

表記

用語説明
dmjクラスターmとjの距離
mクラスターkとIから成るマージされたクラスター(m = (k,i))
dkjクラスターkとjの距離
dljクラスターlとjの距離

ウォード(Ward)

ウォードのリンケージ法では、2つのクラスター間の距離は、点から重心までの平方偏差の和です。ウォードのリンケージ法の目的は、クラスター内平方和を最小にすることです。距離は、次の距離行列で計算されます。

ウォードのリンケージ法では、2つのクラスター間の距離が、dmax(元の距離行列Dの最大値)より大きくなる可能性があります。この場合、類似度は負になります。

表記

用語説明
dmjクラスターmとjの距離
mクラスターkとIから成るマージされたクラスター(m = (k,i))
dkjクラスターkとjの距離
dljクラスターlとjの距離
dklクラスターkとlの距離
Njクラスターjの観測値数
Nkクラスターkの観測値数
Nlクラスターlの観測値数
Nmクラスターmの観測値数