Rではじめる機械学習　第3章　クラスタリング分析の3つの手法でデータを分類

前回に引き続きRの勉強を進めていました。

今回は教師なし学習の「クラスタリング」について取り扱いました。クラスタリングとは、与えられたデータを特定のルールに基づいてグループ化していくことです。使用したデータはこちら。

階層化クラスタリングはざっくりいうと、各データ（要素）を類似度をもとにかたまり（クラスタ）にしていき、最後に1つのクラスタに集める分類手法です。

R言語を使えば、コマンド2、3個叩くだけでクラスタリングができるのですが、その裏でやっている処理はこんな感じです。

各要素-要素間の類似度を求めるのに、本書ではユークリッド距離を使用しており、ユークリッド距離が最小のペアを類似度が最大と決めているようでした。

ユークリッド距離とは、下図のような要素間の距離です。

f:id:nogawanogawa:20171129140954j:plain:w350

nが３以下のときは、高校数学レベルで出てくる二点間の距離をご想像いただければ問題無いかと思います。実際にはnが４以上の時も、イメージしにくいですが、上の式に当てはめるだけで値を算出できます。

少し調べてみると類似度を測るためにはユークリッド距離以外にもシティブロック距離や、ミンコフスキー距離があるそうです。どの距離を使うかはケースバイケースですが、ユークリッド距離が最もメジャーに使用されているようでした。

手順の2でクラスタを形成します。そのため、２周目以降のユークリッド距離の算出には、クラスタ-要素、クラスタ-クラスタのユークリッド距離を考慮する必要があります。

f:id:nogawanogawa:20171129141651j:plain

クラスタ距離の計算方法として、以下の６種類が紹介されていました。

どの手法も一長一短なので、用途に応じて使い分ける必要があるようです。

f:id:nogawanogawa:20171129143101p:plain

試しに上で紹介したサンプルデータを使用して、階層化クラスタリングを実際にやってみました。距離はユークリッド距離を使用して、各クラスタ距離に対して求めています。

図の出力方法がいまいちなのは置いておいて、それっぽい傾向は見えてきますね。拾ってきたサンプルデータなので、わかりやすいように加工されていますが、国産車と輸入車がそれぞれグループ化されているように見えます。

階層化クラスタリングとは別に、非階層化クラスタリングという分類手法もあります。一つずつ要素をクラスタに集めずに分類する方法になり、代表例としてk平均方(k-means)があります。

f:id:nogawanogawa:20171123205536j:plain

k-meansの注意点としては、外れ値に弱いという点だそうです。要は中心点が外れ値によってずれていってしまうため、分類に影響を与えてしまうとのことでした。

Re:ゼロから始めるML生活