クラスタリング結果の評価指標【導入編】 - 初心者データサイエンティストの備忘録

　いくつかの手法を用いてデータをクラスタリングをした際に、各手法を比較したいときがある。データサイエンティストとして働いていると、事業のオペレーションや解釈のしやすさで手法を選ぶことも多い。それはそれで非常に有用で重要な観点ではあるのだが、何か数学的に定義できる指標はないか調査してみた。

　調査していくと、カステラ本の中で、クラスタリング結果を評価する言葉として「郡内分散」「コンパクト性」「近接性」が紹介されていた。郡内分散については、数式での記述が記載されており、下記の通りである。

$\frac{1}{2} \sum _ {k=1} ^ K \sum _ {i \in G} \sum_ {i ^ \prime \in G}d _ {i i^ \prime}$

　ただし、 $d _ {i i^ \prime}$ は観測間の非類似度を表す。

　また、コンパクトなクラスタとは最大半径が小さいクラスタを指す。したがって、クラスタの最大半径 ${\rm max} _ {i \in G, i^ \prime \in G}d _ {i i^ \prime}$ を使ってクラスタがコンパクトであるかどうかを判断する。当然、郡内分散が小さく、コンパクトなクラスタが良いとされる。

　一方で、近接性については数式での記述がない。そこで、近接性を評価する指標を考える。

　近接性についてはカステラ本p603に下記のような記述がある。

（前略）「近接」性に反するクラスタを生成することがある. つまり、あるクラスタに割り当てられた観測が, 同じクラスタの観測よりも, 他のクラスタの観測に近くなることがある。

　この書きぶりを見ると何らかの方法を用いて、ある観測に対して自クラスタとの距離と他クラスタと距離の相対的な関係性を実現できる指標があればよい。

　次回以降、近接性を評価する指標について考察し、実際にいくつかのクラスタリング手法を比較するシミュレーションを行っていく。