初心者データサイエンティストの備忘録

調べたことは全部ここに書いて自分の辞書を作る

サイエンス

分割型クラスタリングの実装

記事の内容 Macnaughton Smith et al. (1965)が提案した分割型クラスタリングをPythonで実装しました。本記事では、そのスクリプトを公開します。 分割型クラスタリングとは 分割型クラスタリングの定義を例によってカステラ本から引きます。 分割型クラス…

クラスタリング結果の評価指標【実装編】

クラスタリング結果を評価する方法を、過去2回の記事に残してきた。 また、近接性を評価する指標については、過去文献から欲しいものを見つけることができなかったので、自分自身で考えてみた。 今回の記事では、考案した指標で実際のクラスタリング結果を…

クラスタリング結果の評価指標【近接性指標の考察編】

前回の記事に引き続き、クラスタリングを評価する指標について考察していきます。 ↓前回の記事 aisinkakura-datascientist.hatenablog.com 今回はクラスタリングにおける「近接性」の概念について深堀し、近接性を評価する指標を提案します。 近接性の概念 …

クラスタリング結果の評価指標【導入編】

いくつかの手法を用いてデータをクラスタリングをした際に、各手法を比較したいときがある。 データサイエンティストとして働いていると、事業のオペレーションや解釈のしやすさで手法を選ぶことも多い。それはそれで非常に有用で重要な観点ではあるのだが、…