WordCloudとpyLDAvisによるLDAの可視化について

表題の通り、潜在ディリクレ配分法(LDA; Latent Dirichlet Allocation)によるトピックモデルを学習させて、WordCloud・pyLDAvisで可視化までやってみます。 データセットの用意 今…続きを読む続きを読む

因子分析でテニスのサーブ力・リターン力を定量化してみた

先日はKaggleデータセットにあるプロテニスのツアーの勝敗データで、強さのモデリングをしてみました。 その後、同じくKaggleデータセットの中で、別に公開されている男子プロテニスのツアーの勝敗データを見つけました。 …続きを読む続きを読む

文書分散表現SCDVと他の分散表現を比較してみた

今回は、以下の論文の文章分散表現、Sparse Composite Document Vectors; SCDVについて書きます。 https://arxiv.org/abs/1612.06778 実は去年に試しに実装し…続きを読む続きを読む

クレジットカード不正利用予測モデルを作成・評価してみた

表題の通り、Kaggleデータセットに、クレジットカードの利用履歴データを主成分化したカラムが複数と、それが不正利用であったかどうかラベル付けされているデータがあります。 https://www.kaggle.com/m…続きを読む続きを読む

分析環境をコンテナ管理するようにしてみた

これまでプライベートの分析環境については、 アドホックな分析は、ローカル端末上のpyenvで仮想環境として管理 深層学習などは、クラウド上で環境構築手順を管理しておいて実行 といったやり方で管理・運用していました。 これ…続きを読む続きを読む

数学ガールシリーズを読んだ

数学ガールは、結城浩氏による数学を題材にしたシリーズ小説であり、今年の4月に発売された「ポアンカレ予想」を含め、現在以下の6作が出ています。 数学ガール 数学ガール -フェルマーの最終定理- 数学ガール -ゲーデルの不完…続きを読む続きを読む

テクニカル分析で買いシグナルからの株価推移を調べてみた

株やります← 株価取引において、最近では「スイングトレード」などというワードを見るようになり、下記のような書籍も書店に並ぶようになりました。 株でゆったり月20万円。「スイングトレード」楽すぎ手順 posted with…続きを読む続きを読む

Dropoutによる近似ベイズ推論について2

以前に、Dropoutによる近似ベイズ推論に関する記事をあげました。 上記では、ソフトマックス関数の出力値の平均を、カテゴリカル分布のパラメータと見て、その不確実性をエントロピーとして算出していました。 これについて、少…続きを読む続きを読む

TensorFlow Eager Executionを試してみた

今年2月頃、TensorFlow 1.5が公開され、TensorFlowをDefine by Runで実行できる「Eager Execution for TensorFlow」が追加されました。 TensorFlowとい…続きを読む続きを読む

ベイズモデリングで男子プロテニスの強さを分析してみた

久しぶりにベイズモデルをやります。 今回は、Kaggleのデータセットで公開されている、男子プロテニスの試合結果データがありましたので、これを使って各プレイヤーの強さをモデル化してみます。 Association of …続きを読む続きを読む

Dropoutによる近似ベイズ推論について

割と今更ですが、深層学習において、汎化性能を保つための工夫の一つであるDropoutを使って推論を行うことが、近似的にベイズ推論になっているという論文がありますので、それについて記します。 また、実際に試験的にMNIST…続きを読む続きを読む

統計検定2級の試験対策について

統計検定2級の受験対策に関して記そうと思います。 準1級の試験対策については、以下を参照してください。 参考書籍 (初級者向け)マンガでわかる統計学 マンガでわかる統計学 posted with ヨメレバ 高橋信/トレン…続きを読む続きを読む

Edward、PyStan、PyMC3で状態空間モデルを実装してみた

状態空間モデルの勉強をしていましたので、実装について書きます。 PyStanやPyMC3の実装は、ある程度参考になる例が多いのですが、Edwardの実装例は見当たりませんでしたので、どんな感じになるか試しに実装してみまし…続きを読む続きを読む

インタラクティブなグラフ生成ライブラリPlotlyについて

Plotlyというマウスでぐりぐりと動かせるようなインタラクティブなグラフを生成するライブラリがあります。 最近これをよくJupyter notebook上で可視化して遊んだりしていますので、これについてまとめます。 P…続きを読む続きを読む

Chainerによる転移学習とファインチューニングについて(VGG16、ResNet、GoogLeNet)

画像系の深層学習では、学習済みモデルの重みを利用する「転移学習」や「ファインチューニング」と呼ばれる手法がよく利用されます。 転移学習: 学習済みのモデルから特徴量を抽出すること ファインチューニング: 学習済みモデルの…続きを読む続きを読む

白線の教師なしセマンティックセグメンテーションを頑張ってみた

セマンティックセグメンテーションは、画像系ディープラーニングの一種で、画素レベルでそれが何かを認識するタスクを行う手法です。 やっていることは割りと簡単で、画像分類のタスクでは、画素情報をクラスの次元に落とし込んでいまし…続きを読む続きを読む

深層強化学習でシステムトレードしてみたかった

不労所得を目指します。← 表題の通りです。 やっては見たものの、結果として、エージェントの設計により、あまり面白くない結果になってしまった感が否めないため、「してみたかった」系タイトルです。 今回は以下のアルゴリズムで、…続きを読む続きを読む

Kaggleの氷山コンペに参加してみた

今更ですが、明けましておめでとうございます。 表題の通り、Kaggleの氷山コンペにソロで参加していましたので、簡単にですが、その時の手法とか結果とか書いてみます。 コンペ自体は、1月末の時点で終了しています。 http…続きを読む続きを読む

ベイジアンニューラルネットワークで毒キノコ分類を実装してみた

最近勉強中のEdwardを使って、ベイジアンニューラルネットワークを実装してみました。 公式ページには、ちょっとした参考程度にしかコードが書いてなくて、自信はありませんが、とりあえず学習はしてくれたようです。 ちなみに今…続きを読む続きを読む

Chainerでファインチューニングして特徴量抽出してみた

さらに続きとしてやってみました。 前回は、花の画像データセットで、VGG16の学習済みモデルを使って特徴量を抽出してみました。 今回は表題の通り、タグ付け情報を用いてファインチューニングを行った後に、特徴量を抽出して様子…続きを読む続きを読む