Re:ゼロから始めるML生活

ミスよりグズを嫌え

SudachiPyでユーザー辞書を使う

f:id:nogawanogawa:20190718185410p:plain
 

気がついたら、前回のブログからだいぶ空いてしまいました。

これまで、Sudachiを使ってユーザー辞書を使おうとした場合には、Sudachi(Java)を使用する必要がありました。 それが最近何やらSudachiPyのリリースがあったらしく、SudachiPyでユーザー辞書が使えるようになったようです。

github.com

ということで、今回はそれを使ってみます。

続きを読む

livedoor ニュースコーパスで遊んでみる(4回目)

この前はtf-idfとwikipedia仕込みのword2vecを組み合わせる事で、文書ベクトルを3次元空間にマッピングして可視化しました。

tsunotsuno.hatenablog.com

今回は単語の加減算を使用して、概念を使用した検索機能を作ってみたいと思います。

続きを読む

Tensorboardの実装を眺め、弄る

f:id:nogawanogawa:20190407073622p:plain
 

最近何かとお世話になっているTensorboardですが、こちらはGoogleからオープンソースで提供されているので、内容を自由に改変していくことができます。

※ライセンスはApache 2.0です

github.com

ということで、何を血迷ったか、Tensorboard自体の実装を弄ってみたいと思います。

機械学習とは直接関係無いですので、その点ご了承下さい。

続きを読む

自然言語処理で遊んでみる(その3:テキスト分類)

しばらく大幅に脱線していましたが、以前こんな感じのことをやっていました。

tsunotsuno.hatenablog.com

今回も参考にさせていただいたのはこちら。

Pythonで動かして学ぶ 自然言語処理入門

Pythonで動かして学ぶ 自然言語処理入門

初学者かつエンジニア向けの大変良い書籍だと思います。 理屈より動くモノ重視な感じがして、個人的にはこういう本の方が実用的かと思ってます。

続きを読む

livedoor ニュースコーパスで遊んでみる(3回目)

この前はこんな感じにやってました。

tsunotsuno.hatenablog.com

画面にラベルが出てきたものの、中身を見てみると悲惨なことになっていました。 文書分類の本来の趣旨からいえば、全くダメでした。 ということで、今回はちょっとデータサイエンスチックなやり方でやってみます。

続きを読む

機械学習用の自分用Dockerfileをまとめる

f:id:nogawanogawa:20190320190051p:plain

今回は特に新しいことはありません。完全に自分用メモです。

最近ローカルPCで機械学習をやりすぎて環境が汚くなりすぎてしまい、いろいろおかしくなってきました。(バージョンとか)

ということで、前々からやろうとしていた環境のDocker完全移行のためのDockerfile(とその周辺一式)を淡々とメモっていきます。

ただそれだけの記事です。

不定期に勝手に更新するので、その点ご了承ください。

続きを読む

livedoor ニュースコーパスで遊んでみる(2回目)

前回はDoc2Vecを動かしてみました。

tsunotsuno.hatenablog.com

動いてはいたものの、ところどころうまく行かなかったので、今回はそのリベンジです。

続きを読む