クラスター分析 - K-Means法のすべての統計量およびグラフを解釈する

クラスター分析K平均法によって得られるすべての統計量およびグラフの定義と解釈について解説します。

観測値数

最終分割(パーティション)された各クラスター内の観測値数。

解釈

平均距離やクラスター内平方和などのばらつきの測度を解釈する場合、各クラスター内の観測値の数を調べます。クラスターのばらつきは、観測値の数が多いか少ないかに影響を受けることがあります。たとえば、観測値が追加されるほど、クラスター内平方和は大きくなります。

他のクラスターよりも観測値数が著しく少ないクラスターを調べます。ごくわずかな観測値数のクラスターには、外れ値や一意の特徴を持つ異常な観測値が含まれていることがあります。

クラスター内平方和

各観測値やクラスター重心から得られる偏差平方和。

解釈

クラスター内平方和は、各クラスター内の観測値のばらつきの測度です。一般に、平方和が小さなクラスターは、平方和が大きなクラスターよりコンパクトです。値が高いクラスターは、クラスター内の観測値のばらつきが大きくなることを示します。

ただし、分散分析の平方和と平均平方と同様、クラスター内平方和は観測値数の影響を受けます。観測値数が増えるほど、平方和も大きくなります。したがって、クラスター内平方和では、観測値数が異なるクラスターを直接比較できないことが多いです。異なるクラスターのクラスター内のばらつきを比較するには、重心からの平均距離を代わりに使用します。

重心からの平均距離

観測値から各クラスターの重心までの平均距離。

解釈

観測値からクラスター重心までの平均距離は、各クラスター内の観測値のばらつきの測度です。一般に、平均距離が小さいクラスターは、平均距離が大きいクラスターよりコンパクトです。値が高いクラスターは、クラスター内の観測値のばらつきが大きくなることを示します。

重心からの最大距離

観測値から各クラスターの重心までの最大距離。

解釈

観測値からクラスター重心までの最大距離は、各クラスター内の観測値のばらつきの測度です。最大値が高く、とりわけ平均距離と関係がある場合、クラスターの観測値がクラスター重心から離れていることを示します。

クラスター重心

クラスターの中央。重心とは、変数ごとに1つの数値が含まれているベクトルのことで、個々の数値は、そのクラスターに含まれる1つの変数に対する観測値の平均値です。重心は、クラスターの多次元平均と考えられます。

解釈

クラスター重心をクラスターの一般的な測度として使用して、各クラスターを解釈しやすくします。各重心は、分析内にある変数すべてにわたってクラスター内の「平均観測値」を表しているとみなすことができます。

Minitabでは、最終分割に含まれるクラスターの重心間の距離を計算します。クラスターごとに、クラスター重心とクラスター内にある観測値とのさまざまな距離測度も計算します。詳細は、距離測度ごとのトピックを確認してください。

全重心

全重心は、観測値すべてに対する変数の平均値のベクトルです。

クラスター重心間の距離

クラスター重心間の距離は、最終分割のクラスターごとの重心が互いにどの程度離れているかを測定します。

解釈

距離の値自体はあまり情報を含んでいませんが、クラスターの距離を比較することで、クラスター間の違いを確認できます。距離が大きくなるほど、一般的にはクラスター間の差が大きくなることを示します。