【R】時系列分析の覚書(導入) - Re:ゼロから始めるML生活

こんな本を買ってみたので、エンジニアというよりデータサイエンティストっぽい機械学習の勉強もぼちぼち再開します。

基礎からわかる時系列分析 ―Rで実践するカルマンフィルタ・MCMC・粒子フィルター (Data Science Library)

作者: 萩原淳一郎,瓜生真也,牧山幸史,石田基広
出版社/メーカー: 技術評論社
発売日: 2018/03/23
メディア: 大型本
この商品を含むブログ (1件) を見る

この本すごい評判が良いそうで、読んでて構成がわかりやすかったです。全体構成と今回の対象は下図にします。

f:id:nogawanogawa:20180715133805j:plain:w500

ということで、まずは導入をやってみます。

時系列分析とは
確率・統計について
とりあえずやってみる
感想

時系列分析とは

時系列分析とは、時間方向に関して得られる系列的なデータに対する分析のことです。

もうちょっと詳しく言うとこんな感じらしいです。

基本的には関心のある事象における過去・現在・未来の値を適切に把握し（推定し）、関連してその結果を元に、事象の仕組みや影響に関する知見を得たり対策を考えたりする営みである

やることのなんとなくのイメージがこんな感じです。

f:id:nogawanogawa:20180716101546j:plain:w500

時系列分析を通じて、何らかの値を推定することになるのですが、この本では確定的手法と確率的手法の2種類に分けて解説されています。確定的手法は状態空間モデルを用いた分析（基本）、統計的手法は状態空間モデルを用いた分析（応用）で扱うようです。

確率・統計について

この本とんでもなくわかりやすいので、詳しい説明は本を読んでいただければと。用語の定義とかをさわりだけ列挙していきます。

平均やら分散やらは、過去にやっているのでこちらをご参照。

tsunotsuno.hatenablog.com

その他、新しく出てきたとこだけ見ていきます。

複数の確率変数の関係

不安定に揺らぐ変数を確率変数と呼び、大文字のアルファベットで表します。確率変数自体は値ではなく関数に近い意味合いを持ち、確率変数の具体的な値は実現値と言い、小文字のアルファベットで表します。

確率変数 $X$ , $Y$ について、 $X$ , $Y$ が同時に成立する同時確率は

$p(x, y)$

と表されます。また、確率変数 $X$ , $Y$ について、 $Y$ が確定したときの $X$ の条件付き確率は

$p(x | y)$

と表されます。条件付き確率に対して、確率の乗法定理を使用すると以下の関係が導けます。

$p(x | y)p(y) = p(x, y) = p(y, x) = p(y | x)p(x)$

上式から、

$p(x | y) = \frac{p(y | x)p(x)}{p(y)}$

が得られます。上の関係をベイズの定理と呼びます。ちなみに、 $p(x)$ を事前確率、 $p(x | y)$ を事後確率、 $p(y | x)$ を（ $x$ の条件での）尤度（ゆうど）と呼んだりします。事前確率を条件を確定することで事後確率に変換することをベイズ更新と言ったりします。

確率過程

確率変数が時間方向につながった集合を確立過程といいます。表記としては $X_t$ , $Y_t$ のように下付き文字を使用してタイムステップを表現します。

共分散・相関

ある時系列を説明する際に使用される統計量として、共分散・相関が使われます。

共分散（Cov）は、確率変数の $X$ , $Y$ の関連を表していて、それぞれの確率変数の期待値と比較したときの値の大小の関係性を表現します。

$Cov[X, Y] = E[(X - E[X])(Y-E[Y])]$

共分散を規格化したものを相関係数（ $\rho$ ）といいます。

$\rho = \frac{Cov[X, Y]}{\sqrt{Var[X]}\sqrt{Var[Y]}}$

相関係数は-1〜1の値になり、負、０、正に応じて下記のような関係性があることを示しています。

f:id:nogawanogawa:20180716151100j:plain:w500

確率過程 $X_t$ , $Y_t$ に関して、時間軸方向にラグ $k$ だけずれた $X_t$ , $Y_{t-k}$ に関する共分散を表す相関関数は、下記のように表現されます。

$R(t, k) = E[X_t Y_{t-k}]$

異なる確率変数間だけでなく、一つの確率変数の時間方向のラグに関する相関を見る場合は、自己共分散・自己相関係数を使用します。

自己共分散は下記の式で表されます。

$Cov[X_t, X_{t-k}] = E[(X_t - E[X_t]) (X_{t-k} - E[X_{t-k}])]$

自己相関係数は下記の式で表されます。

$\rho_{t,k} = \frac{Cov[X_t, X_{t-k}]}{\sqrt{Var[X_t]}\sqrt{Var[X_{t-k}]}}$

自己相関係数も-1〜1の範囲で値を取りますが、今回は値ではなく $t$ と $k$ の関数になっています。時刻とラグの関数から周期的な変動を確認することができます。

定常過程と非定常過程

強定常・弱定常・非定常に関して、時刻が変動したときに平均・分散・自己共分散・自己相関係数・確率分布そのものが変動するかどうかをまとめると下記の様になるそうです。

分類	平均・分散・自己共分散・自己相関係数（○：変化する、☓：変化しない）	確率分布（○：変化する、☓：変化しない）
強定常	☓	☓
弱定常	☓	○
非定常	○	○

この本では、弱定常のことを定常と呼んでいるそうです。 要するに、周期性があれば定常、なければ非定常といったところでしょう。

最尤推定とベイズ推定

確率分布を特徴づけるパラメータ $\theta$ は一般に未知であり、何らかの方法で特定化します。確率過程 $Y_t (t=1, 2, ..., T)$ 全体の尤度は $p(y_1, y_2, ..., y_T; \theta)$ で表されます。この自然対数である対数尤度

$l(\theta) = log p(y_1, y_2, ..., y_T; \theta)$

で表され、これを用いて尤度が最大にするように $\theta$ を決定する方法を最尤法と呼びます。最尤推定は

$\hat{\theta}= argmax\ l(\theta)$

で表されます。

パラメータ $\theta$ すら確率変数として取り扱うのがベイズ推定と言うそうです。

とりあえずやってみる

数式ばっかりなのは苦手なので、実際にやってみて感じを掴んでみます。基本的な分析の流れはこんな感じらしいです。

目的の確認とデータの収集
データの下調べ
モデルの定義
パラメータ値の特定
フィルタリング・予測・平滑化の実行
結果の確認と吟味
1.へ戻る

1. 目的の確認とデータの収集

データ

今回使用するデータはこちらです。

ナイル川の年間流量
待機中の二酸化炭素濃度
英国の四半期ごとのガス消費量

※本当は4つ目もあったんですが11章に詳しい説明があるらしく、今回は省略。

目的

分析の目的と対象となるデータを以下に示します。

	目的	データ
1	データ取得中に各時点でのノイズをできる限り除去する	1. 2. 3.
2	過去の急激な変化を捉える	1.
3	未来の値を予測する	2.

2. データの下調べ

まずはデータをそのままの形で見てみます。データの眺め方にもいろいろあるみたいで、この本では下のような表示を行っています。

横軸時間のプロット
ヒストグラムと五数要約
自己相関係数
周波数スペクトル

横軸時間のプロット

ナイル川の流量については、あまり規則性が見られません。これは不規則な擾乱を除けば、毎年概ね同じ値に保たれているということを意味します。二酸化炭素濃度については、小刻みに上下を繰り返しながら、全体としては右肩上がりの傾向が見て取れます。イギリスのガスの量は右肩上がりの傾向があるようで、更に年々変動の幅が大きくなっていることがわかります。