reinforement-learning-notes/4.时序差分.md at master · xiaozhejiya/reinforement-learning-notes

时序差分

最经典的TD算法

$$ v_{t+1}(s_t)=v_t(s_t)-\alpha_t(s_t)[v_t(s_t)-[r_{t+1}+\gamma v_t(s_{t+1})]] \v_{t+1}(s)=v_t(s),\forall s\neq s_t \\ \TD算法依赖一组数据(s_o,r_1s_1,\cdots,s_t,r_{t+1},s_{t+1},\cdots)或者{(s_t,r_{t+1},s_{t+1})}_t \这组数据由给定的策略\pi产生 \s是一个\text{state space},v(s)表示任何一个状态都要有v \v(s)是用来近似v_\pi(s),v_t(s)表示在t时刻的估计值 \s_t表示在这组数据中,在t时刻访问的s就是s_t,一个智能体在一个时刻只能访问一个s \v_{t+1}(s)=v_t(s),\forall s\neq s_t表示在t时刻没被访问的状态它的v是不变的 $$

$$ 接下来详细介绍第一个表达式 \\underbrace{v_{t+1}(s_t)}_{\text{new estimate}}=\underbrace{v_t(s_t)}_{\text{current estimate}}-\alpha_t(s_t)[\overbrace{v_t(s_t)-[\underbrace{r_{t+1}+\gamma v_t(s_{t+1})}_{\text{TD targe }\bar{v}_t}}^{\text{TD error }\delta_t}]] \v_{t+1}(s)=v_t(s),\forall s\neq s_t \\\bar{v}_t \overset{\cdot}{=}r_{t+1}+\gamma v(s_{t+1})这个被称为\text{TD target} \\bar{v}_t可以理解为，此时又进来一个数据然后我们可以知道他的激励和v_t(s_{t+1})也就是在s_{t+1}的状态值 \希望v_t能朝\text{TD target}修改 \\delta_t\overset{\cdot}{=}v(s_t)-[r_{t+1}+\gamma v(s_{t+1})]=v(s_t)-\bar{v}_t \表示现在的value和targetzhi'jian存在一个误差\delta_t,称为\text{TD error} \\\在 TD(0) 中，我们用当前策略（例如随机探索策略）与环境交互，每走一步就用即时奖励和下一状态的当前估 \计来更新当前状态价值。随着时间推移，只要行为策略能够充分访问各状态，TD(0) 会收敛到该策略下的真实状态价值。 \\textcolor{red}{(注意:在这个TD算法中是不知道action的)}(如果td算法看不懂请回去看一下贝尔曼方程的V是怎么计算的) $$

TD target 和 TD error

$$ v(s_t)会朝着\bar{v}_t改进,所以称为\text{TD target}.下面来证明 \v_{t+1}(s_t)=v_t(s_t)-\alpha_t(s_t)[v_t(s_t)-\bar{v}_t] \\rightarrow v_{t+1}(s_t)\textcolor{blue}{-\bar{v}_t}=v_t(s_t)\textcolor{blue}{-\bar{v}_t}-\alpha_t(s_t)[v_t(s_t)-\bar{v}_t] \\rightarrow v_{t+1}(s_t)\textcolor{blue}{-\bar{v}_t}=[1-\alpha_t(s_t)][v_t(s_t)\textcolor{blue}{-\bar{v}_t}] \\rightarrow |v_{t+1}(s_t)\textcolor{blue}{-\bar{v}_t}|=|1-\alpha_t(s_t)||v_t(s_t)\textcolor{blue}{-\bar{v}_t}| \\because \alpha_t(s_t)\text{is a small positive number} \\therefore 0 < 1-\alpha_t(s_t) <1 \\therefore |v_{t+1}(s_t)\textcolor{blue}{-\bar{v}_t}|\leq|v_t(s_t)\textcolor{blue}{-\bar{v}_t}| \这就说明了在下一个时刻v_{t+1}(s_t)是最少要比v_t(s_t)要离\text{TD target}近的 $$

$$ 什么是\text{TD error}呢? \\delta_t=v(s_t)-[r_{t+1}+\gamma v(s_{t+1})] \首先他是一个误差,这两个量不在同一个时刻上,所以被称为时序差分 \\text{TD error}不仅仅描述了这两个量的误差,还描述了v_\pi和v_t的误差 \下面进行说明.我们希望v能够收敛到v_\pi,现在来看看当v=v_\pi时会发生什么 \\delta_{\pi,t}\stackrel{\cdot}{=}v_\pi(s_t)-[r_{t+1}+\gamma v_\pi(s_{t+1})] \\mathbb{E}[\delta_{\pi,t}|S_t=s_t]=v_\pi(s_t)-\mathbb{E}[R_{t+1}+\gamma v_\pi(S_{t+1})|S_t=s_t]=0 \根据贝尔曼方程我们可以知道v_\pi(s_t)=\mathbb{E}[R_{t+1}+\gamma v_\pi(S_{t+1})|S_t=s_t] \所以我们能够知道当v_t=v_\pi时,则\delta_t=0 \因此也可以知道当\delta_t不等于0时,v_t不等于v_\pi $$

总结

$$ 我们这个TD算法只是在估计\text{state value }是在做\text{policy evaluation} \不能用来估计\text{action values} \不能用来寻找最优策略 \TD算法就是使用RM来快速迭代状态 $$

TD算法解决的数学问题

$$ \实际上是在求解一个给定策略的贝尔曼公式.TD算法是在没有模型(不知道转移概率)的情况下求解贝尔曼公式 \\ \我们引入一个新的贝尔曼公式 \v_\pi(s)=\mathbb{E}[R+\gamma G_{t+1}|S=s],s\in S \\mathbb{E}[R+\gamma G_{t+1}|S=s]可以拆成\mathbb{E}[R|S=s]+\gamma\mathbb{E}[G_{t+1}|S=s] \\\mathbb{E}[G_{t+1}|S=s]可以写成下式: \\mathbb{E}[G_{t+1}|S=s]=\sum_a\pi(a|s)\sum_{s'}p(s'|s,a)v_\pi(s')=\mathbb{E}[v_\pi(S')|S=s] \推导:根据\text{state value}的定义 \\mathbb{E}[G_{t+1}|S_{t+1}=s']=v_\pi(s') \代入全期望公式: \\mathbb{E}[G_{t+1}|S_t=s]=\sum_{s'}P(s'|s)\cdot v_\pi(s') \其中P(s'|s)是从状态s转移到s'的概率(需要按策略\pi对动作积分): \P(s'|s)=\sum_a\pi(a|s)\cdot P(s'|s,a) \最终等式: \\mathbb{E}[G_{t+1}|S_t=s]=\mathbb{E}[v_\pi(S_{t+1})|S_t=s] \\ \直观解释: \从状态s转移到s'的概率乘上s'的\text{state value} \\ \接着我们定义的v_\pi(s)可以写成下式: \\textcolor{blue}{v_\pi(s)=\mathbb{E}[R+\gamma v_\pi(S')|S=s],s\in S.} \这个公式有时候被称为贝尔曼期望公式 $$

求解

$$ 我们使用RM的方式来进行求解 \g(v(s))=v(s)-\mathbb{E}[R+\gamma v_\pi(S')|s] \求解g(v(s))=0.使得v(s)=\mathbb{E}[R+\gamma v_\pi(S')|s] \\tilde{g}(v(s))=v(s)-[r+\gamma v_\pi(s')] \=\underbrace{v(s)-\mathbb{E}[R+\gamma v_\pi(S')|s]}_{g(v(s))}+\underbrace{\mathbb{E}[R+\gamma v_\pi(S')|s]-[r+\gamma v_\pi(s')]}_{\eta} \r和s'分别是R、S'的采样 \写成RM算法形式 \v_{k+1}(s)=v_k(s)-\alpha_k\tilde{g}(v_k(s)) \=v_k(s)-\alpha_k(v_k(s)-[r_k+\gamma v_\pi(s'_k)]),k=1,2,3,\cdots $$

sarsa

$$ 需要一组数据/经验{(s_t,a_t,r_{t+1},s_{t+1},a_{t+1})}_t,所以写成sarsa,这个算法和我们刚才的TD算法没什么不同 \我们只是把v替换成了q \\textcolor{red}{q_{t+1}(s_t,a_t)=q_t(s_t,a_t)-\alpha_t(s_t,a_t)\bigg[q_t(s_t,a_t)-(r_{t+1}+\gamma q_{t}(s_{t+1},q_{t+1}))\bigg]} \\textcolor{red}{q_{t+1}(s,a)=q_t(s,a),\forall(s,a)\neq(s_t,a_t)}\epsilon $$

解决的数学问题

$$ q_{\pi}(s,a)=\mathbb{E}[R+\gamma q_{\pi}(S',A')|s,a],\forall s,a \其实跟TD算法解决的问题一样，是在求解一个贝尔曼方程 \不过形式有些不同,使用的是q来进行计算的 $$

伪代码

示例

$$ 这和我们之前的案例不同，不是一个寻找最优路径的任务,所以没有遍历每一个状态 \所以实际上是有可能不是最优的路径的 \MC用一个 episode 的总回报来更新回合里所有被访问过的状态或动作值 \SARSA 在每一步利用即时奖励 + 下一状态所选动作的当前 Q 估计来更新当前 Q(S, A)。它只看这一条转移的局部信息，而不是把周围多个 Q 值综合起来。 $$

n-step sarsa

$$ 蒙特卡洛和Sarsa的折中 \q_\pi(s,a)=\mathbb{E}[G_t|S_t=s,A_t=a] \\begin{matrix} Sarsa \leftarrow G_t^{(1)}=R_{t+1}+\gamma q_\pi(S_{t+1},A_{t+1})\\ G_t^{(2)}=R_{t+1}+\gamma R_{t+2}+\gamma^2q_\pi(S_{t+2},A_{t+2}) \\ \vdots \\ \text{n-step Sarsa}\leftarrow G_t^{(n)}=R_{t+1}+\gamma R_{t+2}+\cdots+\gamma^nq_\pi(S_{t+n},A_{t+n})\\ \vdots\\ MC\leftarrow G_t^{(\infty)}=R_{t+1}+\gamma R_{t+2}+\gamma^2R_{t+3}+\cdots \end{matrix} $$

小结

$$ \text{Sarsa}用q来近似\text{"未来尾巴"};这正是自举 \\text{Sarsa (1-step)}:偏差大/方差小/更新快 \\text{n-step Sarsa}: 前n步用真奖励,尾部自举;n越大越接近MC \\text{MC}:无自举、无偏但高方差、收敛慢 $$

解决的数学问题

$$ \text{Sarsa} \q_\pi(s,a)=\mathbb{E}[G_t^{(1)}|s,a]=\mathbb{E}[R_{t+1}+\gamma q_\pi(S_{t+1},A_{t+1})|s,a] \\text{MC} \q_\pi(s,a)=\mathbb{E}[G_t^{(\infty)}|s,a]=\mathbb{E}[R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\cdots|s,a] \\text{s-step Sarsa} \q_\pi(s,a)=\mathbb{E}[G_t^{(n)}|s,a]=\mathbb{E}[R_{t+1}+\gamma R_{t+2}+\cdots+\gamma^n q_\pi(S_{t+n},A_{t+n})|s,a] \求解： \q_{t+1}(s_t,a_t)=q_t(s_t,a_t)-\alpha_t(s_t,a_t)\bigg[q_t(s_t,a_t)-[r_{t+1}+\gamma_{t+2}+\cdots+\gamma^n q_t(s_{t+n},a_{t+n})]\bigg] \当n=1时则为Sarsa,当n=\infty,\alpha_t=1时则是MC $$

具备的性质

$$ \text{n-step Sarsa}需要的数据(s_t,a_t,r_{t+1},s_{t+1},a_{t+1},\cdots,r_{t+n},s_{t+n},a_{t+n}) \所以这个算法还是需要等待episode结束才能进行更新他介于offline和online之间 \当n比较大时，性质接近MC算法。有较大的方差和较小的偏差 \当n比较小时，性质接近Sarsa算法。有较大的偏差和较小的方差 $$

Q-learning

$$ \textcolor{red}{q_{t+1}(s_t,a_t)=q_t(s_t,a_t)-\alpha_t(s_t,a_t)\bigg[q_t(s_t,a_t)-[r_{t+1}+\gamma\max_{a\in A}q_t(s_{t+1},a)]\bigg]} \\textcolor{red}{q_{t+1}(s,a)=q_t(s,a),\forall(s,a)\neq(s_t,a_t)} \和Sarsa算法唯一的区别就是\text{TD target是}r_{t+1}+\gamma\max_{a\in A}q_t(s_{t+1},a) \\\\ \text{Q-learning}解决了这样的一个数学问题 \q(s,a)=\mathbb{E}\bigg[R_{t+1}+\gamma\max_{a}q(S_{t+1},a)\bigg|S_t=s,A_t=a\bigg],\forall s,a \这是一个贝尔曼最优方程 \贝尔曼方程回答的是在当前策略\pi下，状态s的价值是多少。而贝尔曼最优方程回答的是在所有策略中，状态s能达到的最大价值是多少 \前者求期望，后者求最大，使得贝尔曼最优方程的解直接给出了最优策略，而贝尔曼期望方程的解需要配合策略改进才能达到最优 $$

On-policy和off-policy

$$ 判断是\text{On-policy还是off-policy有}(他们其实是两种策略) \第一个是判断\text{behavior policy和target policy}是否相同 \\text{behavior policy}和环境进行交互获得\text{experience} \\text{target policy}就是我们已知在更新，想要达到最优的那个策略 \如果是\text{off-policy}意味着 \\text{behavior policy 和 target policy}不相同,此时\text{behavior policy}可以是探索性比较强的策略 \\text{tartget policy}根据\text{behavior policy}探索得到的经验进行最优策略的更新 $$

Q-learning伪代码

$$ 这个是\text{on-policy}版本,使用\pi_{t}来获取数据，并且在\pi_{t}上进行更新 $$ $$ 使用\pi_b来获取一组数据，通常\pi_b的探索性要比较强 \获取到数据后对\pi_t进行更新 $$

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

时序差分

最经典的TD算法

TD target 和 TD error

总结

TD算法解决的数学问题

求解

sarsa

解决的数学问题

伪代码

示例

n-step sarsa

小结

解决的数学问题

具备的性质

Q-learning

On-policy和off-policy

Q-learning伪代码

总结

FilesExpand file tree

4.时序差分.md

Latest commit

History

4.时序差分.md

File metadata and controls

时序差分

最经典的TD算法

TD target 和 TD error

总结

TD算法解决的数学问题

求解

sarsa

解决的数学问题

伪代码

示例

n-step sarsa

小结

解决的数学问题

具备的性质

Q-learning

On-policy和off-policy

Q-learning伪代码

总结