ADM-201 dump PMP dumps pdf SSCP exam materials CBAP exam sample questions

增强学习算法替苹果优化iPhone XS供应链 – 译学馆
未登陆,请登陆后再发表信息
最新评论 (0)
播放视频

增强学习算法替苹果优化iPhone XS供应链

iPhone XS Supply Chain

Google你们要加把劲了
苹果一直能做出最好的硬件
大家好 我是西拉杰
苹果刚刚发布了它的iPhoneXS系列
不出意外 它将会大卖
我们可以使用一种特殊的强化学习算法
策略迭代
来管理苹果零售店里的商品
从而让需求量和供应量相匹配
且听我仔细道来
假设你是苹果在旧金山零售店的店长
负责管理两家位于不同位置的零售店
两家店每天都有不同的需求量
这通过分析日销售量
和在苹果总部的拿货率数据就能看出来
从苹果总部的发货情况来看
其中一个店面的需求量超过了发货量
我们可以连夜从一家店调货到另一家
从而确保每家店都有足够的iPhone供应
进而使我们的利益最大化
这就是我们苹果市值过万亿美金的理由
我们要解决的问题是:
如果事先已知每个店的手机数量
在两店间该转运多少iPhone呢?
而这两家店又该赚多少呢?
解决这个问题需要实时学习策略
从而及时适应这个多变的市场
我们要用到马尔科夫的”试过才知道”理论
把这个问题转化成数学模型
而等到所有变量都定义好了
就可以设计一个合适的方案了
增强学习智能体需要学习
如何通过已知变量来优化问题
状态变量states是每家店每天打烊后
剩余的iPhone量
动作变量actions可以设为
晚上在两店间调度iPhone的净数量
而它的最大值只会到5
每多卖出一个iPhone 就会多赚10美金
奖励变量rewards就是佣金
哎 生活不易啊
另外假设每晚在两店间调货
会增加2美金的运输成本
这可以用负值的rewards来表示
在案例中 每个时间步代表一个工作日
这里的贴现因子设为0.9
我们不想考虑无穷远的未来
而是一定时间内的未来
它衡量着算法要预测到多久以后的未来
如果变量discount factor接近于0
表明算法只考虑短期收益
而像我们 设置成接近于1
则是为了让奖励最大化
这就是所谓的Markovian变量
我们还要继续定义剩余的部分
假设每家店一次最多有100个iPhone
这个数字很特别
假设店1预计需求量为3台 而店2为4台
apple总部每天给第一家店运送3台
给第二家店运送2台
这意味着店2的需求量超过了运送的数量
而第1个店面供需正好完美匹配
我们预先还知道关键的一个变量
states transition probability状态转换概率函数
它是每个Markov决策过程中的一个关键元素
它定义了每一时间步会跨店运送的可能性
我们可以在矩阵中列出所有这样运送的可能性
把它看作一个运送状态矩阵
可以想象对于某些有数百万个状态变量的问题
如果用人工来计算这些值 计算成本会很高
但也有解决的办法 我们稍会再讲
在统计学中
泊松分布可以用一个近似值来表示真实情况
它会统计按固定间隔发生的离散事件次数
例如按时间 距离 长度间隔等等
我们定义一个随机泊松变量x
来记录在一定时间间隔内事件的发生次数
它可能会是任何一个正数值
本例中 可以用λ来表示泊松分布的均值
让其等于事件数除以时间间隔
这取决于2家零售店
每天苹果手机的数量
这样就可以用数字来表示每个结果的预期概率
也就是每个零售店 可以卖掉x个iphone
由于提前知道Markov理论中的所有元素
现在可以用它来动态规划了
我们已经用数值迭代估算出了最优值函数
接下来可以用它来预测最优供应链策略
另外还有一项技术叫做策略迭代法
它可以直接用来计算最优供应链策略
我们来看看这个
记住 策略是智能体在特定状态采取的动作的映射
举个例子 在一个工作日的结尾
如果店1和店2分别还有13和17个iPhone未售出
那么 智能体该在两店间转运多少iPhone呢?
智能体可选的方案太多了
为了解决这个问题
我们需要知道哪个方案的长期收益最大
那么要怎么才能找到决定最大收益的因素呢?
又如何制定出一系列最优政策呢?
第一步 策略评估
也就是执行策略 然后计算出按照特定的
供应链策略执行后 每个状态的返回值
等找到了策略真正的值函数
就进入了第二步策略改进
不论如何 改进后的会比初始策略更好
策略改进就是查看智能体在给定状态下
根据值函数可以采取的所有动作
并找出奖励最大的动作
系统将反复查看这2个过程
这就是策略迭代 它会计算策略真实的值函数
并根据值函数改进策略 最后对值函数本身
进行改进 从而改进整个策略
该算法会一直运行直到寻得最优策略
并且最终也会给出一个最优值函数
在这个程序中 有一些迭代代码来检查每一个状态
它能查看策略事先定义的动作
也可以查看可能采取的所有方案
并且查看所有方案的结果状态
然后把每一次probabilities值求和
这样就可以得到一个最新的返回值
这个改进就是期望改进
因为它遍历了所有可能状态而不是某个样本
如果把iPhone从一个零售店转移到另一个
我们并不知道每天会卖出多少iPhone
也不知道运来了多少或剩下多少
但是可以通过计算不同结果的可能性
把这些可能性求和
得出一个近似值
并复制当前状态
在最后一次迭代后改进过的近似值
接下来在每一个状态进行上述步骤
在首次开始评估到得到最优值函数的过程中
我们要写很多值函数
这个贝尔曼方程式迭代程序
非常有用
一旦值函数与最初初始化为
不转运iPhone的随机策略完成适配
就为供应链算法的改进做好了准备
改善算法涉及到测试每一个状态变量的动作
并选择出最好的动作
和估值不同 我们重复所有的上述动作
最后列出所有的返回值
等到描绘智能体的运算结果后
就可以看到一个精巧的模型
展示出了已知每家店的iPhone数量后
智能体将采取的的动作
一般来讲不会转移iphone
也就是模型中间的这一大块策略区
但是 有些情况下
假如店1比店2的iPhone多很多
最优策略将会决定转移iPhone到店2
而在另一些情况下
会从店2转移iPhone到店1
但是临界值会更高
回头看看我们问题 这才讲得通
我们已知店2的购买率既超过了自身的发货率
也超过了已知店1的购买率
这个算法很酷
无论从哪里开始 函数或者策略
最终都会得到最优值和最优策略
目前所做的就是动态规划
这是建立在掌握所有全局变量
和转移数据之上的
但如果没有这些 我们可以用什么技术呢?
区块链 不 只是开个玩笑
下一期的话题才是区块链
本期视频的三个要点 在动态规划中
策略迭代算法是价值迭代算法的修改版本
目的是为了直接计算出
已知Markov决策过程的最优策略
策略迭代包含2个步骤
策略评估和策略改进
尽管价值迭代算法比策略迭代算法简单
但其所需的计算量更大
你们会继续学下去的对吧? 我很爱学习
点击订阅就不会错过新视频啦
我现在要去迭代优化我的技能了 感谢收看

发表评论

译制信息
视频概述

该增强学习算法,将解释策略算法和价值算法,如何使用和2者的区别。

听录译者

收集自网络

翻译译者

aitank

审核员

审核员_MZ

视频来源

https://www.youtube.com/watch?v=XiN9Hx3Y6TA

相关推荐