自然言語処理

スポンサーリンク
Python

Bi-LSTM学習におけるバッチごとの系列長調整について

深層学習でのBi-LSTMなどの系列学習において、バッチごとに系列長を調整できるようにしてみます。 例えば、Kaggleのカーネルコンペなどで、自然言語の分類をLSTMなどで学習させる場合、バッチごとに系列長を調整する方が、学習精度・実行時間短縮に効果があるようです。
Python

WordCloudとpyLDAvisによるLDAの可視化について

潜在ディリクレ配分法(LDA; Latent Dirichlet Allocation)によるトピックモデルを学習させて、WordCloud・pyLDAvisで可視化までやってみます。 今回は日本語でやってみたかったので、以下のlivedoorニュースコーパスを利用させていただきました。
Python

文書分散表現SCDVと他の分散表現を比較してみた

今回は、以下の論文の文章分散表現、SCDVについて書きます。 SCDVは、文章ベクトルを取得する方法の1つです。 文章ベクトルを取得する手法はDoc2Vecなど色々ありますが、論文において、取得した文章ベクトルを用いたマルチラベル分類では、他の方法よりも高い精度を出せているようです。
Chainer

CNN、RNNで文章分類を実装してみた

深層学習において文脈情報を学習させる方法としては、再帰的ニューラルネットワーク(RNN)を用いる方法と畳み込みニューラルネットワーク(CNN)を用いる方法があります。 今回はそれぞれの方法で、文章を学習させてラベル分類を行うモデルを、Chainerを使って実装しました。
Chainer

Attention Seq2Seqで対話モデルを実装してみた

最近は、深層学習の技術の発展によって、自然言語処理界隈でも深層学習を利用する例で賑わってきている印象です。 今回は上記書籍にも紹介されている、Attention Model + Sequence to Sequence Modelを使った対話モデルをChainerで実装してみました。
自然言語処理

MeCabの新語辞書「MeCab-ipadic-NEologd」について

形態素解析器のMeCabに、「MeCab-ipadic-NEologd」という素晴らしい新語辞書がありますので、その使い方について記します。
Ruby

青空文庫のデータを形態素解析・感情分析してみた

青空文庫の文書データを形態素解析し、分割された単語ごとにネガティブかポジティブかの判定を行なって、スコアを計算させてみました。 形態素解析にはMecabを、ネガポジの判定には下記の単語感情極性対応表を使わせていただきました。
スポンサーリンク