「Normalized Cutの評価基準を用いた階層クラスタリング」を実装してみた

「近いものをくっつけていこう」(最短距離法)という戦略で階層的クラスタリングをすると、ちょっと離れたところにあるやつが取り残されてしまって「ぽつんと1個 v.s. 残り全部」という2つに分類されてしまうことがある。カラーにすればよかったな、ぽつんとひとつ◯があるのがわかるかな。

じゃあ「クラスタの中の一番遠い点同士で距離を測ることにしよう」(最長距離法)という戦略をとったらどうなるか。まあ、1つだけポツンにはなりにくいんだけども…

そこでNormalized Cutの評価基準を使うとこんな感じになります。というのを実装した。いい感じに分かれる。

ところでWard法でも同じようにいい感じにわかれるんだが、この2つの手法の差を見るにはどんなデータに使ってみればいいんだろう。参考文献には「Ward法は球状のクラスタを抽出する傾向が強い」となっているが…。

2つの分散が異なる分布を同じ位置に重ねてみたら、真ん中がくり抜かれた！