学習ロードマップ
MDP から Q 学習、方策勾配、PPO、深層強化学習まで。理論と Python 実装を往復しながらエージェント学習の全体像を掴む 5 冊。
このロードマップが扱うもの
- 教師あり学習は触ったが、強化学習には未着手の機械学習エンジニア - 報酬・方策・価値関数の用語で会話できるようになりたい研究開発者 - ロボティクスやゲーム AI、制御系への応用を視野に入れているエンジニア
このロードマップの全体像
ロードマップ
第 1 章
強化学習の目的と基本アルゴリズムを図解中心で俯瞰する入口。ここで報酬・方策・価値関数の語彙を揃え、以降の学習路を描く。
Q 学習・SARSA・Policy Gradient・A2C を Python で実装しながら学ぶ定番入門。1 冊目で得た概念を手を動かして定着させる位置。
DQN から方策勾配・Actor-Critic までゼロから実装するシリーズ第 4 弾。ニューラルネットと強化学習の接続を内部から理解する。
第 2 版で発展手法や心理学・神経科学との接点まで加筆された原典。実装で掴んだ直観を、理論の言葉で裏打ちするリファレンス。
AlphaGo 型の探索制御まで扱う応用書。報酬設計・環境構築・学習安定化など、研究から実務へ橋渡しする運用上の観点を得る到達点。