WordCloudとpyLDAvisによるLDAの可視化について

表題の通り、潜在ディリクレ配分法(LDA; Latent Dirichlet Allocation)によるトピックモデルを学習させて、WordCloud・pyLDAvisで可視化までやってみます。 データセットの用意 今…続きを読む続きを読む

因子分析でテニスのサーブ力・リターン力を定量化してみた

先日はKaggleデータセットにあるプロテニスのツアーの勝敗データで、強さのモデリングをしてみました。 その後、同じくKaggleデータセットの中で、別に公開されている男子プロテニスのツアーの勝敗データを見つけました。 …続きを読む続きを読む

文書分散表現SCDVと他の分散表現を比較してみた

今回は、以下の論文の文章分散表現、Sparse Composite Document Vectors; SCDVについて書きます。 https://arxiv.org/abs/1612.06778 実は去年に試しに実装し…続きを読む続きを読む

クレジットカード不正利用予測モデルを作成・評価してみた

表題の通り、Kaggleデータセットに、クレジットカードの利用履歴データを主成分化したカラムが複数と、それが不正利用であったかどうかラベル付けされているデータがあります。 https://www.kaggle.com/m…続きを読む続きを読む

テクニカル分析で買いシグナルからの株価推移を調べてみた

株やります← 株価取引において、最近では「スイングトレード」などというワードを見るようになり、下記のような書籍も書店に並ぶようになりました。 株でゆったり月20万円。「スイングトレード」楽すぎ手順 posted with…続きを読む続きを読む

ベイズモデリングで男子プロテニスの強さを分析してみた

久しぶりにベイズモデルをやります。 今回は、Kaggleのデータセットで公開されている、男子プロテニスの試合結果データがありましたので、これを使って各プレイヤーの強さをモデル化してみます。 Association of …続きを読む続きを読む

Edward、PyStan、PyMC3で状態空間モデルを実装してみた

状態空間モデルの勉強をしていましたので、実装について書きます。 PyStanやPyMC3の実装は、ある程度参考になる例が多いのですが、Edwardの実装例は見当たりませんでしたので、どんな感じになるか試しに実装してみまし…続きを読む続きを読む

ベイジアンニューラルネットワークで毒キノコ分類を実装してみた

最近勉強中のEdwardを使って、ベイジアンニューラルネットワークを実装してみました。 公式ページには、ちょっとした参考程度にしかコードが書いてなくて、自信はありませんが、とりあえず学習はしてくれたようです。 ちなみに今…続きを読む続きを読む

オンライン機械学習(CW、SCW)を実装してみた

今回は、下記の論文で紹介されているオンライン機械学習のモデルをPythonで実装してみました。 Exact Soft Confidence-Weighted Learning 表題の通り、Confidence Weigh…続きを読む続きを読む

Pythonで地理データを階層ベイズモデルで推定・可視化してみた

続き。 まぁ、続きと言いますか、少し前に書籍の『岩波データサイエンスVol.4 -地理空間情報処理-』を読みました。 そういえば、今は『Vol.5 -スパースモデリングと多変量データ解析-』も出ていますね。 岩波データサ…続きを読む続きを読む

性別、職業別、趣味別の行動者数データを対応分析してみた

政府統計データのいろんな地域別のデータを眺めながら、先日のマップ可視化に乗せるだけでも面白いなぁとか考えていました。 今回は、タイトルの通りの集計データから、業種別で趣味の傾向があるのかどうか、見えたりするのかとか思った…続きを読む続きを読む

青空文庫のデータを形態素解析・感情分析してみた

青空文庫の文書データを形態素解析し、分割された単語ごとにネガティブかポジティブかの判定を行なって、スコアを計算させてみました。 形態素解析にはMecabを、ネガポジの判定には下記の単語感情極性対応表を使わせていただきまし…続きを読む続きを読む