文章要約に取り掛かるなど

 気が乗らないイベントその1を消化。最悪の事態を想定していたので、それに比べるとかなりマシだったけど、依然として不安の種は残る。


 LexRankを用いた文章の自動要約について調査。僕はそこまで違和感無かったんだけど、どうも周囲に説明した感じだと「要約」という表現が誤解を招く感じ。長文の中から重要度の高い文章を抽出するというのが実態に即しているかもしれない。

 Qiitaの記事とか各所のブログとか色々とあったんだけど、意外と完動する形のサンプルは少なくて苦戦。ただ、理屈そのものは割と単純なので、↓のリポジトリを参考にすることでなんとかそれらしく動きそうなコードは書けた。(なんであればこのモジュールを使うというのも有りだったんだけど、残念ながら2.7系専用っぽいのでそのままというわけにはいかなそう。)

github.com

 文章の重要度の判定に現状は単純に文中の単語の出現頻度を使ってるけど、それこそこの前のWord2VecとかDoc2Vecなんかを用いるともっと良い感じのものができるかもしれない。この辺深めてくと面白そうだし応用も効きそうだし、上手く上を説得して時間作りたいなあ。