首页 游戏攻略

强化学习:教机器玩转Flappy bird教程

时间:2024-04-19 11:34:14  作者: 你看我独角兽吗 


强化学习

强化学习的来源来自于行为主义理论,即物体或机器如何在环境的刺激和反馈下做出适当的回应,当该回应满足预期时,则说明该物体或机器已经学习到了某种知识。

强化学习本质上是在解决决策上的问题,即学会自动进行决策,且决策较为符合预期的发展。类比于人类,就是人类为什么能够做出决策,且方向是按着最优方向进行。这个过程,就是强化学习所需要学习的过程。

原理

强化学习作为一个序列决策问题,需要做出一系列决策达到最终目的,就像玩九宫格最终目的是要到达终点前要做一系列动作。当然,这和平时的监督学习有着一些区别,因为监督学习有着明确的label,机器去学习用标签属性去辨别不同的label。而强化学习有着类似的label作用的值——reward,该值能够让机器去辨别这次决策的优劣,就像做对了有奖,做错了惩罚,reward就是表明机器做这次决策有奖还是惩罚的值,来判定下次是否做这次决策。

通过不断地迭代和试错,最终结果是机器的“逻辑思维"是在这种环境下,我应该做什么,在接下来的环境下,我又应该做什么的一种思路。所以强化学习更专注于在线规划,需要在Exploration(探索未知的领域)和Exploitation(利用现有知识)之间找到平衡。

一个简单的例子

图中黄点是机器人,目的是走到绿色的方块,reward+1000,黑色方块是墙壁,撞到reward-10,红色方块是陷阱,撞到reward-1000,其他reward+0。那么每次行走一步,黄点会有四个方向的选择,当前走到下图方向时:

往右走会撞到黑色方块reward-100,其他方向reward+0,所以只能往其他方向走,继续走,到下图所示情况。

往右走会撞到黑色方块reward-100,往下走会撞到红色方块reward-1000,左、上方向reward+0,所以只能往左、上方向走。通过不断地迭代,最终即可找到目标绿色方块。

以上就是强化学习的一般流程,每一次决策不断试错,然后记忆经验,最终往目标方向进行。

相关文章

精彩分享
精选推荐