Q-Learningを試してみる（座学編）

Q-Lerningを試してみる（座学編）

投稿日：2016年8月5日

そういえばQ熱って感染症があったな。不明の(Query)熱という意味だそうな。関係ないがQというパズルゲームがあって名作らしい。

食わず嫌いをしていても仕方がないのでちょっと調べてみた。割と単純な探索アルゴリズムの一種だった。自然界の～とか、脳内の～とか言うから胡散臭くなるだけで、コンピュータ上で動作させる他の探索アルゴリズムの一種だと思います。

結論は、枝コスト選択の難しさの解決を後回しにしたところで避けられない。というより、枝コスト選択を先にやらなくて良い、という事実が唯一にして最大のメリット。

アルゴリズムの概要

探索の際に選ぶ枝のコストを確率として予め求めておくのではなく、探索しながら更新していく。

前提は以下。

s_tは時刻tにおける状態。

a_tは時刻tにおける行動。

Q(s_t,a_t)は状態s_tにおいて行動a_tを選択する価値。

r_t+1は環境の変化によって貰える報酬。

max_aQ(s_t+1,a)は状態s_t+1のもとで最もQ値が高い行動aを選んだ場合のQ値。

γ(0<γ<1)は割引率。
α(0<α<1)は学習係数。

Q(s_t,a_t)を更新しQ(s_t+1,a_t+1)にする式は以下。

Q(s_t+1,a_t+1) := Q(s_t,a_t) + α(r_t+1+γ max_aQ(s_t+1,a)-Q(s_t,a_t))

γ、r_t+1の値によるが、Q(s_t+1,a_t+1)>Q(s_t,a_t)となるためには、Q(s_t,a_t)よりも、次の状態における最良の行動aを選択した価値Q(s_t+1,a)の方が大きい必要がある。
一般的にγ=0.9～0.99のように1に近い値を設定することが多いようなので、概ね最良の行動の選択max_aQ(s_t+1,a)による価値の増加分に報酬r_t+1を加えたものがQ(s_t+1,a_t+1)となる。

アルゴリズムの設計

全ての状態とその時に取りえる行動の組(s,a)についてQ(s,a)の値をランダムに設定する。
t=0、s₀にセットする。
状態s_tから行動a_tを選択し状態s_t+1とする。
状態の更新を一定回数行ったらt=0,s₀に戻す。
グルグル回し、何回か終わったら終了。

状態の更新にはε-greedyアルゴリズムを用いる。状態s_tから状態s_t+1に遷移する際、常に最大のQ値となる行動を取るということは、最初にランダムで与えたQ(s,a)を教師として枝コストに確率を与えているのと同じになるからN.G.。定数ε(0<ε<1)を用い(1-ε)の確率で最大のQ値となる行動を選ぶようにする。

胡散臭くなってきた！結局枝コストの求め方の難しさに帰着する。たぶん確率密度とかの話ではなくエイヤっとεを決めるんだろう。

Q-Lerningを試してみる（座学編）

アルゴリズムの概要

アルゴリズムの設計

AirflowでEnd-To-End Pipeline Testsを行うためにAirflow APIを調べてみた話

CustomOperatorのUnitTestを理解するためGCSToBigQueryOperatorのUnitTestを読んでみた話

GoogleによるAirflow DAG実装のベスプラ集を読んでみた – その1

Snowpark Container Services上でWebアプリ(FastAPI/React/TypeScript)を動かしてみた

Azure Queue StorageとAzure Service Busを比較してみた

Azure Functionsの機能まとめ（座学版）

External Network Accessを使ってSnowflakeとFitbitAPIを繋いでみた話

Deep dive into the internals of Snowflake Virtual Warehousesを読んでみた

GCSとのストレージ統合を設定した話

デプロイメントについて調べてみた話（端折り気味）

AirflowでEnd-To-End P

CustomOperatorのUnitT