先週に引き続きのWord2Vec案件。雑多にコピペで済ませていたものをブラッシュアップ、ペライチのスクリプトだったものをDocker環境に整えてJupyter Notebookで置き換え。
オリジナルで色々やろうかとも思ったけど、モジュール入れる時間なんかを考えるとjupyterのdatascienece-notebookあたりを拡張してった方が良さそう。ベースがUbuntuなんで割と楽にいじれる。これにMecabだの周辺モジュールだのをぶっ込んで使っている。
https://hub.docker.com/r/jupyter/datascience-notebook/
それなりにデータ量が稼げるので物によってはそれっぽい結果が返ってくるものの、やはり雑多にぶっ込んだだけだとノイズも多くて実用には厳しい感じ。流石にそろそろ前処理で表記ゆれを吸収するとか辞書を強化するとかしないとダメそう。まあこのへんは地道にやってくしかない。
↑の復習とかプライベートのコーディング案件とか書きかけの感想なんかもあるけど、今日は睡眠時間足りなくて眠いのでこのへんで。