近接性の概念

　前回記事で近接性について簡単に説明しましたが、あらためてカステラ本を引用しようと思います。

（前略）「近接」性に反するクラスタを生成することがある. つまり、あるクラスタに割り当てられた観測が, 同じクラスタの観測よりも, 他のクラスタの観測に近くなることがある。

（ちなみにカステラ本とは↓の本のことです）

統計的学習の基礎 ―データマイニング・推論・予測―

Amazon

近接性を理解するため、クラスタリング結果が近接になったパターンと近接ではないパターンを図１に書きました。

f:id:aisinkakura_datascientist:20220403230231j:plain — 図１：近接なクラスタと近接ではないクラスタ

　これを見るとわかるように、クラスタリング結果が近接なとき、自分と同じクラスタに所属する観測が自分の近くに多くいる状態になっています。逆に、クラスタリング結果が近接ではないときは、自分の近くに他のクラスタに所属する観測が多くいる状態になっています。
　このことから、「ある観測の周囲にある観測が、自分と同じクラスタに所属しているのか、それとも他のクラスタに所属しているのか」ということを定量的に評価できれば、近接性を評価できそうです。

近接性を評価する指標の感覚的な定義

　ある観測の周囲に集まっている観測のうち、どれくらいの観測が他のクラスタに所属しているかで近接性を評価しようと思います。つまり、ある観測から近い順に観測を並べたときに、上位に占める他のクラスタに所属する観測の個数の割合で近接性を評価します。これのイメージ図は図２です。この割合のクラスタごとの平均を評価指標とします。このように定義した評価指標が小さければ、近接なクラスタであり、大きければ近接ではないクラスタとします。

f:id:aisinkakura_datascientist:20220403230318j:plain — 図２：近接性指標を検討するための図

近接性を評価する指標の数式的な定義

　ある分割結果に対する近接性を評価する指標を提案します。まず、クラスタリングをした結果現れたクラスの一つを $G$ とします。また、データ $i$ と $i ^ \prime$ 間の距離を $d _ {ii^ \prime}$ とします。このとき、 $d$ を閾値として、

$N_{G(i)} = \#\{i^\prime \in G \ | d_{ii^\prime} \leq d \} \\ N_{\bar{G}(i)} = \#\{i^\prime \notin G \ | d_{ii^\prime} \leq d \}$

とします。また、

$\varepsilon (i) = \frac{N_{\bar{G}(i)}}{N_{G(i)}+N_{\bar{G}(i)}}$

と定義します。このとき、近接性を表す指標を

$\frac{1}{N}\sum _ {i \in G}\varepsilon (i)$

と定義します。
　この指標のイメージとしては、近接ではない、つまり自分の近くに、他のクラスタに所属する観測が多く存在する状態になっているときは、 $N_{\bar{G}(i)}$ の値が大きくなり、定義した指標も大きくなります。一方で、分割結果が近接なときは、自分の近くに、自分と同じクラスタに所属する観測が多くなるため、 $N _ {\bar{G}(i)}$ の値が小さくなり、定義した指標も小さくなります。

まとめ

　今回は近接性の概念を説明し、それを評価するための指標を定義しました。近接性とは、ある観測の近くに自分と同じクラスタに所属する観測が集まっているかどうかを評価する概念です。また、その評価指標として、 $\frac{1}{N}\sum_{i\in G}\varepsilon (i)$ を定義しました。
　次回は、今回の記事で定義した式を実装していきます。