形態素解析器をいろいろ試す

NLP Python

日本語自然言語処理を行う際に、形態素解析をどうするかという問題はいつもつきまとってきます。今回記事を書こうと思ったのは、Vaporettoなる形態素解析器を見かけたからです。こちらに興味が湧いたのと、他の形態素解析器と比較してみたくなったので、や…

2021-01-26

nlplotを使ってみた

NLP Python

最近、昨年書かれたこちらの記事を見かけました。 www.takapy.work なんだか非常に良さそうな感じで実際に使ってみたので、今回は使ってみたときのメモです。

2020-08-19

タスク固有に追加学習したBERTのEmbeddingをLightGBMに突っ込んで使用する

NLP Python PyTorch

この前は学習済みのBERTをから取り出したEmbeddigを使ってLightGBMに突っ込んでみるところまでやってみました。その時は特にタスク個別にBERTを学習させていなかったので、今回はタスク向けに転移学習させたBERTをモデルを使用して、そのEmbeddingをLightGB…

2020-08-18

学習済みのBERTからEmbeddingを取得する

NLP Python PyTorch

最近はちょいちょいBERTとかを使って遊んでたりします。今回は、学習済みのBERTのモデルを使って、文書Embedgingを取得してみたいと思います。参考にさせていただいたのはこちらの記事です。 yag-ays.github.io 毎度のことながら、やることは上の記事とほ…

2020-08-15

LightGBMで含意関係認識をしてみる

NLP Python

この前はBERTを使って含意関係認識をやってみました。前回は何も考えずにとにかくBERTに突っ込んで、とりあえずやってみたって感じでした。今回は、もう少し泥臭い方法で含意関係認識をやってみたいと思います。今回参考にさせていただいたのはこちら。 w…

2020-08-14

BERTを用いて含意関係認識をやってみる

NLP Python PyTorch

この前は、BERTを使って文章の空欄を埋めるタスクをやってみました。今回はBERTの勉強がてら含意関係認識(Recognizing Textual Entailment, RTE)というタスクをやってみたいと思います。今回非常に参考にさせていただいたのはこちらの記事です。 hironsan.…

2020-08-08

GiNZAを使って係り受け解析をやってみる

NLP Python

結構前にGiNZAを使った固有表現抽出で遊んでました。 www.nogawanogawa.com GiNZAは固有表現抽出の他にも、自然言語処理の様々な機能を備えており、今回はその中の係り受け解析で遊んでみたいと思います。

2020-07-21

BERTの学習済みモデルを使って穴埋め問題を解く

NLP PyTorch Python

最近ではBERTやその派生が自然言語処理の多くのタスクでSOTAを更新していて、非常に話題になっています。そんなBERTですが、日本語の学習済みモデルも非常に多く公開される様になっており、計算資源が乏しい私でも使用するだけなら不自由なく使えるようにな…

2020-07-19

小さいMLOpsってこんなもんかと思ってやってみる

MLOps NLP

この間はMetaflowを使ってみました。 www.nogawanogawa.com ワークフロー管理+実験管理が可能なように、Metaflow + MLFlowを使ってコードを書いてみたいと思います。多分、これだけでもMLOpsのごくごく一部は対応できていると思うので、今回はそのメモです。

2020-07-18

テキスト生成をやってみる

NLP PyTorch Python

自然言語処理のタスクの一つにテキスト生成があります。質問文に対する応答を生成したり、長文を短く要約したり、和文英訳したりと、テキスト生成は自然言語処理の応用の様々なところで使用されます。今回は、このテキスト生成についてやってみたのでその…

2020-07-14

BERTScoreで文章の類似性を測定してみた

NLP Python

最近こんな記事を見かけました。 ai-scholar.tech 機械翻訳や機械要約のタスクでは、自然文を生成することになりますが、その際に生成された文がどれほど良いかについて評価する必要が出てきます。 ICLRで発表されたBERTScoreはこれを従来の評価指標より正し…

2020-05-30

GiNZAを使って固有表現のマスキングをやってみる

NLP Python

最近GiNZAを使って固有表現抽出するという記事をよく見かける気がします。具体的には、この辺りの記事を見てました。 acro-engineer.hatenablog.com qiita.com www.ai-shift.jp ということで、なんだか面白そうで、自分でもやってみたのでそのメモです。

2020-03-15

gensimでword2vecの学習するときに再現性をとる時のメモ

NLP Python

gensimのword2vecを使ってembeddingを計算するときに再現性が取れなくて悩んでいたんですが、こちらのツイートを拝見しました。 NotebookでgensimのWord2Vecの学習を再現するには、重みの初期化に使われるハッシュ関数を自作して再現するものに変えれば良い…

2020-03-08

gokartを使ってみる

MLOps Python NLP

この前はluigiを使ってみてました。 www.nogawanogawa.com この前参加したの勉強会で登壇者のみなさんがgokart激推しだったので、今回はエムスリーさんで開発されているgokartを使ってみたいと思います。（エムスリーさん主催の勉強会で、登壇者の半分がエ…

2020-02-11

トピックモデルとlivedoor ニュースコーパスで遊ぶ

トピックモデル Python NLP

この前は全然分からないなりに、トピックモデルの雰囲気だけ勉強をしました。 www.nogawanogawa.com 今回は、理論の復習しながら、実装してみます。参考にしたのは今回もこちら。トピックモデル (機械学習プロフェッショナルシリーズ)作者:岩田具治出版社…

2020-01-13

トピックモデルついて勉強する

NLP トピックモデル

推薦システムの勉強をちょっとずつ再開している関連で、トピックモデルを勉強してみようと思い、こちらを購入しました。トピックモデル (機械学習プロフェッショナルシリーズ)作者:岩田具治出版社/メーカー: 講談社発売日: 2015/04/08メディア: 単行本（ソ…

2019-07-30

gensimで学習済みモデルに更に追加学習する

NLP Python

今や単語分散表現に関する学習済みのモデルはたくさん公開されています。ただ、その多くはwikipediaやニュース記事をベースにしたものになっており、より突っ込んだトピックを取り扱おうとすると、そこからモデルを独自にカスタマイズする必要が出てきます。…

2019-07-18

SudachiPyでユーザー辞書を使う

NLP Python

気がついたら、前回のブログからだいぶ空いてしまいました。これまで、Sudachiを使ってユーザー辞書を使おうとした場合には、Sudachi（Java）を使用する必要がありました。それが最近何やらSudachiPyのリリースがあったらしく、SudachiPyでユーザー辞書が…

2019-05-03

livedoor ニュースコーパスで遊んでみる(4回目)

NLP Python

この前はtf-idfとwikipedia仕込みのword2vecを組み合わせる事で、文書ベクトルを３次元空間にマッピングして可視化しました。 tsunotsuno.hatenablog.com 今回は単語の加減算を使用して、概念を使用した検索機能を作ってみたいと思います。

2019-04-02

自然言語処理で遊んでみる(その3：テキスト分類)

NLP

しばらく大幅に脱線していましたが、以前こんな感じのことをやっていました。 tsunotsuno.hatenablog.com 今回も参考にさせていただいたのはこちら。 Pythonで動かして学ぶ自然言語処理入門作者: 柳井孝介,庄司美沙出版社/メーカー: 翔泳社発売日: 2019/01/…

2019-03-24

livedoor ニュースコーパスで遊んでみる(3回目)

NLP Python TensorFlow

この前はこんな感じにやってました。 tsunotsuno.hatenablog.com 画面にラベルが出てきたものの、中身を見てみると悲惨なことになっていました。文書分類の本来の趣旨からいえば、全くダメでした。ということで、今回はちょっとデータサイエンスチックなや…

2019-03-17

livedoor ニュースコーパスで遊んでみる(2回目)

NLP Python TensorFlow

前回はDoc2Vecを動かしてみました。 tsunotsuno.hatenablog.com 動いてはいたものの、ところどころうまく行かなかったので、今回はそのリベンジです。

2019-03-16

livedoor ニュースコーパスで遊んでみる

NLP Python

前回はこんなことやっていました。 tsunotsuno.hatenablog.com すでにベクトル化されていたので、やりやすかったですが、実際はベクトル化されていません。今回はベクトル化されていないデータセットで遊んでみます。日本語系のデータセットはこの辺をご参…

2019-03-02

日本語wikipediaで遊んでみる

NLP Python

最近、自然言語処理を絶賛勉強中なので、その兼ね合いでちょっと遊んでみます。過去にこんなことやってました。 tsunotsuno.hatenablog.com tsunotsuno.hatenablog.com 今回は日本語のwikipediaを使用して単語の相関を確認してみます。 word2vecについては…

2019-02-17

自然言語処理で遊んでみる(その2：テキストデータの解析)

NLP Python ElasticStack

この前はこんなことをやっていました。 tsunotsuno.hatenablog.com 今回は実際に溜め込んだデータを見ていきます。今回も参考にしたのはこちらの本です。 Pythonで動かして学ぶ自然言語処理入門作者: 柳井孝介,庄司美沙出版社/メーカー: 翔泳社発売日: 201…

2019-02-15

自然言語処理で遊んでみる(その1：テキストデータの準備)

Python NLP ElasticStack

この前までは、ディープラーニングという切り口で自然言語処理を勉強していました。 tsunotsuno.hatenablog.com しかし、自然言語処理はもっと多くのタスクをカバーする学問分野で、必ずしもディープラーニングが出てくるとは限りません。そんなわけで、今…

2019-02-12

自然言語処理について勉強してみた(その5：Seq2Seq・Attention)

ニューラルネットワーク PyTorch Python NLP RNN

この前はLSTMについて勉強してみました。 tsunotsuno.hatenablog.com 今回はもうちょっと進んで、seq2seqとAttentionを見ていきます。今回も参考にしたのはこちらの本です。ゼロから作るDeep Learning ? ―自然言語処理編作者: 斎藤康毅出版社/メーカー: オ…

2019-02-11

自然言語処理について勉強してみた(その4：LSTM)

NLP Python PyTorch ニューラルネットワーク RNN

この前は基本的なRNNの仕組みについて勉強していました。 tsunotsuno.hatenablog.com 今回は、現在RNNの中でも代表的なモデルの一つであるLSTMについて勉強します。今回も参考にしたのはこちらの本です。ゼロから作るDeep Learning ? ―自然言語処理編作者:…

2019-02-10

自然言語処理について勉強してみた(その3：RNN)

NLP ニューラルネットワーク RNN PyTorch Python

この前はword2vecの勉強をしていました。 tsunotsuno.hatenablog.com 今回はもうちょっと突っ込んだRNN (Recurrent Neural Networks)について勉強してみます。参考にしたのはこちら。ゼロから作るDeep Learning ? ―自然言語処理編作者: 斎藤康毅出版社/メ…

2019-02-09

word2vecを使って単語の共起性を可視化してみる

NLP Python TensorFlow

最近突然、自然言語処理の勉強を始めたきっかけは、こちらの記事を拝見したからです。 karaage.hatenadiary.jp こういうコンピュータ・サイエンスっぽい絵を作りたくて作りたくて…（泣）というわけで、今回は共起ネットワークを作ってみました。基本的に上…

Re:ゼロから始めるML生活

どちらかといえばエミリア派です

NLP

形態素解析器をいろいろ試す

nlplotを使ってみた

タスク固有に追加学習したBERTのEmbeddingをLightGBMに突っ込んで使用する

学習済みのBERTからEmbeddingを取得する

LightGBMで含意関係認識をしてみる

BERTを用いて含意関係認識をやってみる

GiNZAを使って係り受け解析をやってみる

BERTの学習済みモデルを使って穴埋め問題を解く

小さいMLOpsってこんなもんかと思ってやってみる

テキスト生成をやってみる

BERTScoreで文章の類似性を測定してみた

GiNZAを使って固有表現のマスキングをやってみる

gensimでword2vecの学習するときに再現性をとる時のメモ

gokartを使ってみる

トピックモデルとlivedoor ニュースコーパスで遊ぶ

トピックモデルついて勉強する

gensimで学習済みモデルに更に追加学習する

SudachiPyでユーザー辞書を使う

livedoor ニュースコーパスで遊んでみる(4回目)

自然言語処理で遊んでみる(その3：テキスト分類)

livedoor ニュースコーパスで遊んでみる(3回目)

livedoor ニュースコーパスで遊んでみる(2回目)

livedoor ニュースコーパスで遊んでみる

日本語wikipediaで遊んでみる

自然言語処理で遊んでみる(その2：テキストデータの解析)

自然言語処理で遊んでみる(その1：テキストデータの準備)

自然言語処理について勉強してみた(その5：Seq2Seq・Attention)

自然言語処理について勉強してみた(その4：LSTM)

自然言語処理について勉強してみた(その3：RNN)

word2vecを使って単語の共起性を可視化してみる