您的位置 首页 > 德语词汇

exploitation是什么意思?强化学习入门

本篇文章给大家谈谈exploitation是什么意思,以及强化学习入门对应的知识点,文章可能有点长,但是希望大家可以阅读完,增长自己的知识,最重要的是希望对各位有所帮助,可以解决了您的问题,不要忘了收藏本站喔。

“生存还是死亡,这是一个问题”,在强化学习中,ExplorationorExploitation?it'saproblem.我觉得这两个英文单词来概括强化学习,非常的贴切。强化学习经常被用于例如自动驾驶或是Alphago这样的场景,因为这种场景需要算法根据行为产生的反馈,做出一连串的判断。

Exploration:当我们对这个世界一无所知的时候,探索是唯一了解它的途径。在强化学习的一系列判断中,最初一定是处于信息空白区的,需要大胆的去Exploration,才能够获取更多信息。

exploitation是什么意思?强化学习入门

Exploitation:经过了一定的Exploration之后,当我们对于这个世界有了一定了解,那么就是开始Exploitation的时候,去根据世界带给我们的反馈,给出最智能的回应。

“Theworldcomewithindetermination,butendwithintelligence”-鲁迅haven'tsay

如果老鼠走到骷髅头就会,想吃到更多的奶酪,它该怎么走。这里利用强化学习的Q-table方法,去预测每一次老鼠移动所能得到的反馈。

每一行代表上图的一个方格,每一列是一旦发生相应移动所能产生的结果,最初我们对这些一无所知,所以只能从“start”处开始探索,这里面涉及一个公式叫bellman公式,可以计算每一次行为产生的期望分,s为现在的状态status,a为action:

*R(start,right)为发生这个移动能得到的好处,会吃一个奶酪,所以R(start,right)=1

*Q‘(s',a')是一旦到了右边这一格,再继续向下、向左、向右得到的最大好处,从图片分析,最多是不死,所以是0

继续移动,直到算出所有行为的一个可能值,填满上面的表格,那么我们每一次做判断都取值做大的action,最终就可以吃最多的奶酪。

好了,文章到此结束,希望可以帮助到大家。

本站涵盖的内容、图片、视频等数据,部分未能与原作者取得联系。若涉及版权问题,请及时通知我们并提供相关证明材料,我们将及时予以删除!谢谢大家的理解与支持!

Copyright © 2023