Skip to content

dyw-vince/Reinforcement-Learning

Repository files navigation

Reinforcement-Learning

大三下强化学习作业集合

小作业1:使用强化学习算法,让机器人从5×5网格世界的左上角移动到左下角,找到最优路径的同时躲避障碍

Learned Path Rewards Curve

小作业2:使用DQN或基于策略方法(PG)解决cartpole问题

2.DQN gif 4.PG gif

小作业3:在 OpenAI Gym 的 CarRacing-v2 离散环境中实现DQN算法(能达到800分左右的结果)

小作业4:使用PG解决cartpole问题,同2

小作业5:在 OpenAI Gym 的 CarRacing-v2 连续环境中实现DDPG算法(能达到880分左右的结果)

3.DQN gif 5.DDPG gif

小作业6:使用基于GYM构建自定义环境“一维导航”,通过自定义环境构建A2C神经网络模型。

Rewards Curve

小作业7:基于PettingZoo中的simple_spread环境实现MAPPO算法(平均能达到-6~-8的收敛效果)

小作业8:基于PettingZoo中的simple_spread环境实现QMIX算法(平均能达到-14~-18的收敛效果)

7.MAPPO gif 8.QMIX gif

小作业9:基于PettingZoo中的simple_adversary环境实现MASAC算法

小作业10:基于PettingZoo中的simple_adversary环境实现MADDPG算法

9.MASAC gif 10.MADDPG gif

中作业1:采用MASAC算法和MADDPG算法,使用GYM环境构建一场经典的森林狩猎合作游戏(simple-tag),至少3个猎手。其中游戏展示过程分别保存在maddpg_videos和masac_videos中

MADDPG gif MASAC gif

中作业2:采用RND算法,学习通关游戏蒙特祖玛的复仇(MontezumaRevenge)(目前能达到3700分的得分)

Montezuma's Revenge gif Montezuma's Revenge reward

大作业:使用pygame库构建Flappy Bird游戏环境,模拟鸟类飞行、碰撞检测和得分机制。采用深度Q网络(DQN)算法,结合Keras深度学习框架,对游戏环境进行训练,使AI能够自主学习并优化游戏策略。我们分别实现了pytorch和tensorflow两种框架下的代码。

在tensorflow框架下的小鸟最高能获得236分

tensorflow flappy_bird gif tensorflow flappy_bird reward curve

在pytorch框架下的小鸟最高能获得611分

pytorch flappy bird gif pytorch flappy bird reward curve

About

大三下强化学习作业集合

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 2

  •  
  •  

Languages