ゼロから作るDeep Learning ❹ ―強化学習編

2025年6月27日 2025年6月27日

toku2navi

▶ Amazonで見る

価格：3960円（ポイント 119pt）

実質価格：3841円

評価：★★★★ (4.6 / 5)

📢 Amazonでの購入者の声を紹介します

【1】

知識0から読んだが、丁寧に理論を説明し、実際に処理を0から書くのでとても面白い。ただ、少しわかりにくいなという説明や、なぜこうするのかの理由が納得できないところは少しあった。個人的にはもう少し難易度の低い入門書などと平行で読むのがおすすめ

【2】

難しい、強化学習についてわかりやすく解説してあるので、読み進められました。

【3】

この本の最大の価値は、強化学習におけるさまざまな手法の関係性に関して、非常に納得性の高い理解が得られるところにあると思う。その全容を下記にまとめたが、概略を述べると、モデルベースとモデルフリー、モデルフリーの中にはモンテカルロ法とTD法、TD法の中にはSARSAとQ(DQN)学習、DQNの中には、価値ベース・方策ベース・価値ベース＋方策ベースの手法が存在する。A）モデルベース（環境モデル（状態遷移確率p(s’|s,a)、報酬関数r(s,a,s’)）を使用する）ⅰ）環境モデルが既知DP法１）方策反復法２）価値反復法ⅱ）環境モデルを環境から得た経験により学習１）World Models２）MBVE (Model-Based Value Estimation)B) モデルフリー（環境モデル（状態遷移確率p(s’|s,a)、報酬関数r(s,a,s’)）を使用しない）Ⅰ）価値ベースの手法１）モンテカルロ法　（図６－１）①方策オン型②方策オフ型２）TD法 (Temporal Difference)　（図６－２）① SARSAa)方策オン型のSARSAb)方策オフ型のSARSA②Q学習３）DQN（DQNは、②Q学習の一種であるが、量が多いので、項目３）として設定する）①経験再生(Experience Replay)②ターゲットネットワーク(Target Network)・DQNの拡張a)Double DQNb)優先度付き経験再生c)Dueling DQN・DQNの発展版（ア）カテゴリカルDQN（イ） Noisy Network（ウ） Rainbow（エ） Ape-X（オ） R2D2（カ） NGU (Never Give Up)（キ） Agent57Ⅱ）方策ベースの手法（価値関数を経由に直接方策を求める）１）方策勾配法２）REINFORCE３）ベースライン付き方策勾配法４）A3C,A2C ((Asynchronous) Advantage Actor-Critic)５）DDPG６）TRPO,PPOⅢ）価値ベース＋方策ベースの手法１）Actor-Critic

【4】

どの本を読んでも理解できなかった理由がこの本でわかりました。ベルマン方程式がそもそもわからない方は、まずはこの本から！(*) udemyの強化学習講座[無料]をまず試聴してからだと、DP法手前までの道筋がたてやすいかも

【5】

ゼロから作るシリーズの４作目で、強化学習についての書籍が出たので購入してみました。この本に限らず、強化学習関連の書籍は難しく感じます。というのも、実際に実務で試してみるという事が難しいという面があるからだと思います。ちょっとした迷路を解く事例（サンプルコード）等は載っていても、ロボットアームを制御させたりするような事例は紹介のみで、動く事例（サンプルコード）が少ないからです。実際のロボットアームの制御や、モータを制御して薬品吐出量を調整したり、センサデータを見て植物への最適な水やりを調整したりするような、身近な事例で、実際にコーディング可能な物が欲しいのですが、往々にしてそういった書籍は未だ見当たりません。そういう意味で、「ゼロから作る」と標榜している割に、理論が多くなってしまっていたので、少し評価を下げざるを得ませんでした。

【6】

本書の前半１〜６章は強化学習の基礎（実装あり）を紹介し、後半の７〜９章でディープラーニングの強化学習問題を解くところまで（実装あり）を紹介。そして１０章で更にその先の新技術（文章のみ）の紹介まで書かれている。強化学習の基礎は、以下の問題を実装を踏まえて解いていく。・複数のスロットから勝率のいいスロットを見つけ出して報酬を最大にする問題・小さなサイズ（縦３、横４ほど）のグリッドワールドにグリッドごとに果物（報酬）と爆弾（ペナルティ）が配置してあり、キャラクターがどのような行動（移動）をすれば報酬を最大にできるかの問題ディープラーニングの強化学習においては、オープンソースで提供されている強化学習用のライブラリに含まれているゲーム「カートポール」を題材に、より報酬が多くなる行動を強化学習させていく。最終的にはAtari（あのゲーム会社）のゲームを解く入り口（実装はなし、アドバイスまで　以降は読者の腕の見せ所）まで紹介してくれている。後半のディープラーニングを利用した強化学習においては、前作part 3で実装したフレームワーク「DeZero」を活用するため、本書のコンセプト(ゼロから作るというコンセプト)的には前作を読破しているのが望ましいと感じた。強化学習の基礎からじっくり中身を紹介してくれており、どうやってディープラーニングの中で強化学習を行なっているのか、適応しているのかその過程や中身を知りたい人に価値が出てくる著作だと感じた。以下、気になった内容メモーーーー●１章　バンディット機械学習の区分：・教師あり学習：入力と出力のペアデータ（画像、正解ラベル）を使って、入力から出力への変換方法を学習・教師なし学習：正解ラベルなしのデータのみでデータに潜む構造を学習グループ分け（クラスタリング）特徴抽出次元削減・強化学習：エージェント（行動する主体）が、ある環境に置かれ、環境の「状態」を観測し、それに基づき「行動」をする。その結果として環境の状態が変化し、エージェントは環境から「報酬」をもらうと同時に、「新しい環境の状態」を観測する。目標は、エージェントが得る報酬の総和を最大にする行動パターンを身に付ける事。＞歩く学習の場合、進んだ距離が報酬。行動は、手足を動かす事。より効率のいい歩行方法を試行錯誤して自分で学習し最適解を求められる。バンディット問題複数のスロットマシーン（コインが出やすいのや、出にくいの色々ある）を使って、より多くのコインを増やす方法を考える問題。環境：スロットマシーンエージェント：プレイヤー報酬の期待値：価値行動に対して得られる報酬の期待値：行動価値スロットマシンのコインの出るランダム性＞離散型の確率分布離散型確率分布：確率の摂る値がそれぞれの確率ごとに飛び飛びの値を持つこともっとも期待値が大きいスロットマシンを選ぶのがベストしかし、プレイヤーはスロットマシンの報酬の期待値をしることができないプレイヤーは、スロットマシンの価値（期待値）を精度よく測定することが求められるより多くプレイして得られた報酬の平均値（標本平均）を求める。活用：短期的視野で良いスロットを選びたいのなら、標本平均が大きいスロットを選ぶ探索：長期的視野で良いスロットを選びたいなら、色々なスロットを探索して試す必要あり活用と探索の良いバランスを取ることが重要：要パラメータ調整アルゴリズム：イプシロン・グリーディ法イプシロン（ε）=0.1で１０％の確率で「探索」を行い、それ以外は「活用」を行う強化学習のアルゴリズム比較は、多くはランダム性があるので、一回の比較では正確性がない。＞同じ実験をたくさん行い、その平均を比較するのが一つの方法バンディット問題は、以下に分かれる定常問題：スロット個体の勝率は固定非定常問題：スロットの個体の勝率が変わる過去に得た報酬ほど指数移動平均的に小さくなるようにすれば、非定常問題にも対応できるようになる。-----●２章　マルコフ決定過程（MDP)エージェントの行動によって状況が変わる問題例：囲碁、将棋などの状況。エージェントの行動で盤上の配置が変わるMDPの具体例：小さなサイズのグリッド状（縦３、横４くらい）のマップに、フルーツ（報酬＋１）や爆弾（報酬ー２）が配置されている。エージェントは、グリッドを移動してフルーツを取り、報酬が高くなる行動を学習する。エージェントの行動によって状態が変わることを、強化学習では「状態（state）」とよぶ。MDPには「時間」という概念が必要。ある時刻にエージェントが行動し、結果として新しい状況に遷移。この時の時間の単位は「タイプステップ」とよぶ。タイムステップ＝エージェントが意思決定を行う間隔のこと。爆弾の向こう側にフルーツの山（報酬＋６）がある場合など、は爆弾をとってフルーツの山を取る。エージェントは目先の報酬だけでなく、将来を見越して報酬の総和を最大化することが求められる。報酬を得るごとに状態が刻一刻と変化する。>例題では２マスのグリッドワールドの問題を解くエージェントの方策・決定論的方策：ある状態では必ず同じ行動をする・確率的方策：どの行動をするか確率で決定する分類・エピソードタスク：終わりのある問題。囲碁、将棋など・連続タスク：終わりのない問題。在庫管理などマルコフ決定過程では、最適方策が「決定論的方策」で必ず一つ存在する-----●３章　ベルマン方程式マルコフ決定過程で成り立つ重要な方程式強化学習の問題を解くための重要な基礎を与えてくれる。無限に枝分かれしていくバックアップ線図のような無限に続く計算を有限の連立方程式に変換できる。ベルマン最適方程式：方策が最適であるという性質のみに特化した方程式ベルマン方程式よりシンプル-----●４章　動的計画法３章までのベルマン方程式で連立方程式を明示して解けるのは小さな問題までより大きな問題を解くためのものが動的計画法環境のモデル（状態遷移確率、報酬関数）が既知の場合に有効状態と行動の数がある程度大きくなっても解くことができる。＞例題では２マスのグリッドワールドから、３＊４マスのグリッドワールドへ進歩方策評価：ある方策が与えられたら、その価値関数などを求めること方策制御：方策を制御して最適方策を調整すること方策反復法：評価と改善の２フェーズを反復する価値反復法：評価と改善を融合させた手法上記二つは共に、グリッド上で報酬の取得をゴールとし、全てのグリッドでペナルティを避けた進行方向（方策）をとる最適方策を導き出せる-----●５章　モンテカルロ法環境モデル（状態遷移確率、報酬関数）が未知でも有効な手法データのサンプリングを繰り返しおこなって、その結果から推定する手法の総称「状態、行動、報酬」の経験により価値関数を推定することができる分布モデル：確率分布として表されるモデルサンプルモデル：サンプリングさえできれば良いというモデルサンプルモデルを使って期待値を計算する場合は、たくさんのサンプリングをとってその平均値を取る。これがモンテカルロ法。サンプル数無限＞大数の法則により平均値は正しい値に収束するモンテカルロ法で３＊４マスのグリッドワールド問題を解く方策評価、方策制御において、動的計画法とほぼ同じの結果を導き出せる。-----●６章　TD法モンテカルロ法は、エピソードタスクが終わりにたどり着いてからでないと、価値関数の更新ができない。エピソードの終わりになって初めて「収益」が確定するため。環境モデルを使わずに、行動ひとつごとに価値関数を更新するのがTD法。「今」と「次」の情報から価値関数を更新する。アルゴリズム・SARSA：方策オン型の手法＞方策オフ型に拡張もできる・Q学習：方策オフ型の手法。重点サンプリングをせずにQ関数を更新でき、効率的に安定して更新できる＞強化学習分野において重要なアルゴリズム-----●７章　ニューラルネットワークとQ学習現実の問題は大きく複雑。チェスでさえ駒の並びパターンは10^123通りある。それらの状態をテーブルとして保持するのは現実的でない。そのテーブルひとつひとつの要素を独立して評価・改善していくのは現実的でないそこで、Q関数をコンパクトな関数で近似する。その有力な方法がディープラーニングゼロから作るDeep Learning 3で実装したフレームワーク DeZeroを使用する。DeZeroの基礎、使い方線形回帰の実装ニューラルネットワークで非線形データの問題を解くニューラルネットワークを使ったQ学習の実装>例として3*4のグリッドワールド問題を解く-----●８章　DQNテレビゲームのような複雑なタスクもプレイできる新たに「経験再生」「ターゲットネットワーク」の技術が使われるOpenAI Gym強化学習のための学習材料（ゲームみたいなもの）の環境が用意されたオープンソースライブラリDQNの経験再生、ターゲットネットワークを実装して、OpenAI Gymのゲームを強化学習するDQNの拡張・Double DQN・優先度付き経験再生・Dueling DQN-----●９章　方策勾配法価値ベースの手法：Q学習、SARSA、モンテカルロ法方策ベースの手法：方策勾配法, REINFORCE(方策勾配法の改良）価値ベースかつ方策ベース：Actor-Critic方策勾配法の実装RAINFORCEの実装、ベースライン技術による改善Actor-Criticの実装-----●１０章　さらに先へ方策勾配法系アルゴリズム・A3C, A2C:分散学習を行うアルゴリズム・DDPG:決定論的な方策を持つアルゴリズム・TRPO, PPO：目的関数に制約を追加するアルゴリズムDQN系列のアルゴリズム・Double DQN・優先度付き経験再生・Dueling DQN・カテゴリカルDQN・Noisy Network・Rainbow深層強化学習の事例の紹介・ボードゲームの学習・ロボット制御・NAS:ディープラーニングのアーキテクチャの自動設計・自動運転・半導体チップの生成-----付録A 方策オフ型のモテんカルロ法付録B nステップのTD法付録C Double DQNの理解付録D 方策勾配法の証明以上

【7】