青空文庫のデータを形態素解析・感情分析してみた

青空文庫の文書データを形態素解析し、分割された単語ごとにネガティブかポジティブかの判定を行なって、スコアを計算させてみました。

形態素解析にはMecabを、ネガポジの判定には下記の単語感情極性対応表を使わせていただきました。

青空文庫 : http://www.aozora.gr.jp/

MeCab : http://taku910.github.io/mecab/

単語感情極性対応表 : http://www.lr.pi.titech.ac.jp/~takamura/pndic_ja.html

Rubyで青空文庫の解析したい文書のページをスクレイピングして、HTML構造解析で本文のみ抽出し、形態素解析・ネガポジ判定を行なうプログラムを作成します。

ちなみにスクレピングにはRubyには便利なWebクローリング&スクレイピングモジュールとして「Anemone」というものがありますので、こちらを使います。

Anemone : https://github.com/chriskite/anemone

いくつかのページに対して実行してみました。

ネガティブですねー。

単語数や品詞数は上位5番目まで出してみましたが、特に面白いものはなかった感じです。

ネガポジ判定は、MeCabのユーザー辞書を作成して、当てる方が確実だったかと思います。

結構ネガポジの表自体がネガティブ寄りなので、アーサー王物語は英語が多い分、スコアも下がらなかったのでしょうか。

文章量が多ければ多いほどネガティブになりそうなので、量で割るなどの正規化が必要かと思います。

 

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です