ADM-201 dump PMP dumps pdf SSCP exam materials CBAP exam sample questions

利用强化学习算法买体彩中大奖 – 译学馆
未登录,请登录后再发表信息
最新评论 (0)
播放视频

利用强化学习算法买体彩中大奖

Sports Betting with Reinforcement Learning

-你是怎么知道Mighty Ducks会赢的
-运气加上强化学习打辅助
大家好 我是西拉杰 这次讲讲体育博彩
体育博彩是很受欢迎的娱乐活动
而且常会用到动态规划这个非常重要的概念
本期就来讲讲体育博彩中的动态规划
我们知道 强化学习是机器学习的一个分支
它着重研究面向目标的算法
比如被称为“奖励”的时间延迟标签
我们还知道用标准的方法表示
AI在基于时间的环境设置中最大化奖励这个问题
用的是马尔可夫决策过程这个数学框架
接下来 我们就用这些概念
来解决一下怎么赌赢曲棍球的问题
假设我们是一群自称JK·洛林·远藤
专职于体育投注的人
我们的职业就是通过
赌某个冰球队是否会获胜来赚钱
一系列的冰球赛每隔一段时间就会举办一次
它们都是冰球锦标赛的一部分
我们的目标就是成功押到获胜队来获利100美元
我还能说什么 我们的目标很大
每场比赛只有两种可能的结果
我们选的冰球队或是输了或是赢了
我们会在比赛的一开始对某一队下注
如果他们赢了我们下注的钱就会翻倍
否则 和刚才相反 我们会输掉所有下注的钱
在这还要提出一个后面会用到的基础假设
即假设主场队有40%的可能获胜
不论谁是主场球队
所以每场比赛我们都要决定下注多少钱
上述情况在强化学习领域
可以被视为一个马尔可夫决策过程
当前状态就是当前时刻我们持有的资金
采取的行为就是赌了多少钱
除了那些能达成目标的选择奖励为+1外
其余奖励都为0
我们需要学习一个最优策略
这个策略是在持有金额与应下注金额之间
建立一个映射
最优策略负责最大化达成目标的可能性
也就是赚到100美元
别忘了我们在这里做了一个假设
主场球队的胜率有40%
因此要将P 也就是主场获胜率设为0.4
既然P已经知道了 整个问题空间就已知并且可解了
也就是已经取得了整个环境的模型
真实情况往往没这么简单
但对于这个入门级例子来说
这样假设会简化问题
此外表示马尔科夫决策过程能找到的
任何其他特征也会是一个很好的实践
比如事实上我们可以认为模型是周期性的
也就是说事件只持续到一场比赛结束
而不是连续性的
至于要怎样找到这个神秘的函 即最优策略
如果我们回顾一下强化学习宝典
萨顿和巴尔托写的《强化学习导论》
在第四章 我们会找到一个很有用的定义
动态规划就是一系列的算法
它们可用于求解最优策略
而这只需要提供作为马尔可夫决策过程的
完美的环境模型
这简直就是为我们量身定做的
因为我们已经知道了转移概率
也就是从状态S转变为下一状态的概率
而且我们还知道奖励函数
动态规划就是一种将复杂问题分解成
一系列子问题的方式
通过解决这些子问题 将解决方案结合起来
就能解决复杂问题
动态规划的种类繁多
它们适用于不同的真实场景
比如生物信息 日程规划以及路由算法等等
用于解决当前示例问题的
动态规划算法
叫做值迭代算法
所有最优策略都可被分解成两个部分
最优的初始动作
加上进入下一状态的最优策略
如果初始动作是最优的
并且在动作后采取了最优策略
就能得出整体行为是最优的这个结论了
这些规则总结起来就是最优化原理
此定理是几十年前由数学家
理查德·贝尔曼总结出来的
定理表明从状态S达到最优解的策略存在
当且仅当S状态所有可能的下一状态
都采用最佳策略时存在
因此最终可以这样解释
最优策略到底是什么意思
那就是通过遍历所有可能的状态来找到最佳的策略
然后我们只需要前进一步
识别出需要采取的最优初始行为是什么就行了
这就是用在策略方面的最优化原理
我们注意到有个违反直觉的中间步骤
在我们找到最优策略之前
我们需要计算一下最优行为值函数Q
这里有一个公式很好地描述了这一过程
你能猜出来这是什么吗?
我们可以用即时的奖励
加上下一状态的值的和来描述任意状态的值
这个公式被大家称为贝尔曼方程
它能帮我们选出最优行为
使用某一状态的值来找出最优策略
因此 如果我们知道子问题的求解方法
比如下一状态的最优值函数
那么当前状态的值函数就能通过
贝尔曼方程用一步预测算法求得
在数值迭代算法中
我们会用不断迭代贝尔曼方程的方式
计算最优值函数
此公式可以这样理解
对于一个给定状态 有很多种可能的行为
我们可以计算每种行为的期望值
然后把这个状态的值赋给期望值最大的行为
我们本质上直接把贝尔曼方程改成了更新规则
算法使用随机数初始化了V(s)
紧接着算法会不断更新状态动作对Q以及V(s)的值直到二者收敛
值迭代算法一定会收敛到最优解
“一定会”听起来很棒对吧
特别是涉及到钱的时候
但我们再来仔细看看
在体育博彩环境中 状态就是我们持有的资金
行为就是押的赌注
而奖励只在那些能够达成目标的选择支上为+1
其余为0
我们可以试试算出最优决策
状态值函数会给出每种状态获胜的概率
策略是建立在所持资金水平及下注金额间的映射
而最优策略会使目标实现的可能性最大化
我们能使用值迭代法是因为P=0.4是已知的
如果我们绘制一个预测值与持有资金的图
就会看到在连续不断的值迭代后值函数的变化
而最终策略正是根据p=0.4制定的
以后就可以使用这个策略
做出最有可能赢钱的选择
但别忘了需要p的值
才能用值迭代法算出最佳策略
一般来说 虽然动态规划很有用
但它仍有不足
比如它需要一个
以马尔可夫决策过程形式存在的完美环境模型
而且它的计算复杂度非常高
解出贝尔曼方程的解是非常费力的
因为我们需要尝试每一种可能的行为
而且每一状态都需如此
若要在棋类游戏上进行这种计算的话
所需的计算能力大概可以让谷歌的超级计算机
看起来像任天堂游戏机一样
但动态规划仍然是个很不错的思维练习
而且在现实不需要太多计算的情况时
也有很多应用
另外 你注意到了吗
我们有一个中间步骤 通过计算最优值函数
来计算出最优策略
但如果跳过该中间步骤
直接计算最优策略会怎样呢?
这时我们需要使用怎样的算法呢?
我们下个视频就来讲讲这个
回顾一下本期视频的三个重点
动态规划是一系列算法
这些算法可在已知完美环境模型的情况下
计算出最优策略
值迭代是动态规划算法中的一个
它会算出最优值函数并最终找到最优策略
另外动态规划很有用但也有其局限性
因为它需要完美的环境模型
而且需要庞大的计算能力
很高兴你们看完了这期视频
订阅一下 你的敌人可能就变成朋友了呢
现在我要去算一算最优人生策略了
感谢观看

发表评论

译制信息
视频概述

利用动态规划寻找最优策略解决如何买体彩能够赚到100元的问题

听录译者

收集自网络

翻译译者

Aimik

审核员

审核员X

视频来源

https://www.youtube.com/watch?v=mEIePvxdbkQ

相关推荐