Rではじめる機械学習　第１章　Rと機会学習の基礎

ずっと気になっていたR言語について、こんな本買ってみました。

しばらくこの本使って使って勉強してみようかと思います。

Rstudioをインストールして環境構築。

ちなみに、日本語化はこちらを参考にしました。

Rのインストールと簡単な使い方の解説

細かいコマンドの使い方は、本を見れば分かるので省略します。

言わなくても分かりますが、分散と標準偏差と密接な関係があるという点で重要かなと思いました。

各データから平均を引いたものを二乗した総和を「データの個数−１」で割ったもの。個人的な解釈としては、「データの集合が平均からどれだけ外れているかを表現したもの」だと理解しました。

注意点としては、「データの個数」ではなく「データの個数−１」で割っていること。どちらも値の表す意味としては大差ないと思われますが、何も知らないで手計算すると数字が変わって引っかかりそうです。

「データの個数」で割った場合：標本分散

「データの個数−１」で割った場合：不偏分散

Rやエクセルで分散を求める関数を使用すると、不偏分散が計算されるため、「分散」=「不偏分散」と考えるのが一般的のようです。

分散は、「平均からの距離の二乗」である一方、平均からの距離を平方根を取ったものを標準偏差と呼ぶらしいです。

計算するのは簡単ですが、中身の意味をきちんと理解するという意味では、勉強になりました。

平均と標準偏差を決めれば、確率分布が求まるもの。データの集合が、正規分布に従うと分かれば、特定の値の出現率は関数に値を代入するだけで求まります。「ナンノコッチャイ」ってなりました。

イメージはこんな感じですね。

f:id:nogawanogawa:20171029215210p:plain

左右対称、総和は100%となるので確かにこれだけで分布は求まります。平均が変わると分布が左右にずれ、標準偏差が変わると上下に伸び縮みするイメージですかね。

正規分布は平均と標準偏差が分かることが前提なのですが、世の中そんなにうまくはいかない。サンプルデータがいくつかしかとれない、、、って状況は往々にしてあるので、サンプルデータから確率分布を推定しましょうってのがt分布。

求め方は本を参照するとして、イメージはサンプルデータが手元にあって、信頼区間をどの範囲するかを決めればそれっぽい分布が算出できて、なんとか使い物になるって代物ですね。

1章はRのインストールと簡単な使い方の解説でした。

Re:ゼロから始めるML生活