統計学や機械学習の勉強でおすすめの書籍まとめ



どの書籍を読んで勉強したのかを聞かれることが多いので、まとめてみました。

個々人のバックグラウンドの違いにより、書籍への入りやすさは多少異なると思いますが、読みやすかった本や勉強になった本を紹介します。

自分としても勉強中の身ですので、良いなと思った書籍があれば、随時追加していきます。

数理統計学(講座 数学の考え方)

私が大学・大学院で勉強していた本です。

統計学の書籍の中では、個人的には難しい部類に入ると思います。

測度論の勉強が済んでいる前提で始まりますので、そのあたりの知識が不足している場合は、ルベーグ積分の書籍を読む必要があると思います。

私は数学科で、勉強していた環境としては、どちらかといえば、現場的なデータ分析というよりは、確率論や数理統計学の純粋な理論を専攻する傾向が強かったので、測度論なども授業で学んだ後に、上記書籍に取り組みました。

確率論(講座 数学の考え方)

私が大学・大学院で勉強していた本、その2です。

先ほどにも記したように、理論専攻の環境であったため、確率論や確率過程の知識も身につけておく必要がある場合が多々ありました。

その際に参考にしていて、とても分かりやすかった書籍です。

数理統計学も確率空間の上に成り立ちますので、確率論のところで分からないところがあれば、こちらも参照していました。

数理統計学(数学シリーズ)

私が大学・大学院で勉強していた本、その3です。

こちらの方が、先に紹介した「数理統計学(数学の考え方)」よりも若干レベルが抑えられている印象で、「数理統計学(数学の考え方)」で分からければ、こちらを参照するといった使い方をしていました。

Rによるデータサイエンス データ解析の基礎から最新手法まで

私が大学・大学院で勉強していた本、その4です。

大学・大学院シリーズは一旦これで終わります笑

本当は他にも教科書的に使っていた本がもっとあるのですが、そもそも洋書であったり、今の仕事で必要なものかと言われると、そうでもない部分もありますので、最低限の書籍に絞りました。

純粋な理論を専攻する環境ではありましたが、現場でよく使われるデータ分析手法の勉強も行っており、その時の教科書的な書籍です。

主成分分析、クラスター分析、回帰分析、判別分析、ランダムフォレスト、時系列分析といったような、主要な統計的手法について、理論の解説とRの実装コード例が記されています。

これは今でも会社に置いてあり、辞書的に使っています。

改訂版 日本統計学会公式認定 統計検定2級対応 統計学基礎

統計検定2級対応の公式教科書です。

確率などの話から、区間推定や仮設検定、回帰分析や分散分析までの話を、割と導出もコンパクトにまとめられていて分かりやすいと思います。

上記の「数理統計学(数学の考え方)」「数理統計学(数学シリーズ)」で難しいようであれば、まずはこちらを読んでみるのが良いでしょう。

日本統計学会公式認定 統計検定1級対応 統計学

統計検定1級対応の公式教科書です。

2級よりもカバー範囲が広いため、区間推定や仮説検定などの導出はほとんど省略されています。その代わりに2級では登場しない、さらに進んだ話の範囲の解説が、やはりコンパクトにまとめられています。

データ解析のための統計モデリング入門――一般化線形モデル・階層ベイズモデル・MCMC(確率と情報の科学)

通称「みどりぼん」です。

ベイズ統計モデルへの入門としては定番の書籍です。

線形モデルから階層ベイズモデルまでの発展について解説されています。

問題を設定した上で、どのように解析していくかといった流れで解説が進み、またRの実装コード例も記されていますので、ユーザー目線で分かりやすいと思います。

個人的な見解としては、ベイズ統計モデルは、数式を中心に話を発展させていくため、抽象的な状態のまま話が進むことが多いように思います。

その結果、なんだかよくわからないみたいな状態に陥りやすい部分があるかと思いますので、実際にどのような値が出力されるのかを動かして確認しながら勉強を進める方が理解がしやすいと思います。

岩波データサイエンス Vol.1

統計モデリングにおいて有名なシリーズです。

シリーズの特徴として特集記事のような構成をしています。

研究動向であったり、事例や方法論の紹介に近い書き方で、丁寧に解説する書籍ではないので、気になる内容があれば、自分で調べていくといった読み方をする方が良いと思います。

Vol.1では、階層ベイズモデルに関するソフトウェアのまとめであったり、統計モデリングにおける最先端の研究などが紹介されています。

ベイズ推論による機械学習入門

追加(2018-04-20)

ベイズ的な手法をまとめられた、教科書的な書籍のように思います。

確率分布の話から、統計モデルの組み方、MCMCおよび変分ベイズによる推定まで、解説されています。

ただし、実装などについては言及されていないので、その辺りは別の書籍で補う必要があると思います。

StanとRでベイズ統計モデリング

追加(2018-04-20)

統計モデリングの書籍です。

こちらは、具体的な問題とStanによるその統計モデルの実装例をコード付きで多く紹介されています。

理論中心の書籍ではどうしても抽象的なまま話が進みます。

こちらの書籍では、具体的な問題も提示しながら、実際のコードも動かして学習するので理解しやすく、おすすめの書籍です。