ADM-201 dump PMP dumps pdf SSCP exam materials CBAP exam sample questions

用强化学习优化网络传输 – 译学馆
未登陆,请登陆后再发表信息
最新评论 (0)
播放视频

用强化学习优化网络传输

Sensor Networks

你是什么类型的秘密特工?
What type of secret agent are you?
强化学习特工
Reinforcement learning agent.
大家好 我是西拉杰
Hello World, it’s Suraj and sensor networks.
本期介绍传感器网络
在本视频中
In this video, we’ll learn how to use reinforcement learning
我们将学习如何使用强化学习
来为连接无线设备的网络
to find the most efficient data routing strategy
寻找最高效的数据路由策略
for a network of connected wireless devices.
当数据包在两台计算机之间传输时
Every time packets of data flow from one computer to another,
比如说你在浏览一个网页
like from your laptop to a web address like google.com, and back to your laptop
如google.com
数据包会在你的笔记本和网站之间传输
when you say, view a webpage.
这时一些诸如路由器的中间设备也参与其中
A number of intermediate devices
数据经过路由器时 路由器对其进行处理
Each time that data passes through a router, it processes it,
并将处理结果发送给网络中的下一个设备
then sends it along to the next device in the network.
在互联网常见的多跳网络结构中
In a multi-hop situation which is quite common on the Internet,
多个路由器参与获取您期望的网络请求
several routers are involved in getting the requests where you want them to go,
在设备之间交换数据的过程需要时间
that process of handing off data between devices takes time.
交换数据的过程越多
More and more of that happening,
意味着需要经过更多跳
从而导致更多的时间开销
meaning more and more hops adds up to more and more time.
跳数的增加 可能导致更慢的体验
potentially slowing down our experience as the hop count increases.
决定我们访问某些特定网站的速度
There are lots of different factors that determine the speed
或使用某些网络服务速度的因素有很多
in which we can use certain websites, or web-based services like how our roommates loves piratebay.
例如你的室友有多喜欢“海盗湾”
虽然跳数并不是最重要的因素
And hop count isn’t the most important, but it definitely plays a big role.
但是它无疑发挥了重要作用
我们将尝试使用强化学习
So we’ll try to route data between devices with the fewest number of hops
用最少跳数在设备间路由数据
using reinforcement learning.
强化学习旨在通过反复试验
RL aims to solve the problem of learning in an environment through trial and error.
解决在给定环境中学习的问题
时间是问题的一个维度
where time is a dimension
解决此类问题最常见的方法
And the most common way to frame this problem,
是使用“马尔可夫决策过程”的数学框架
is to use the mathematical framework known as a Markov decision process.
一旦使用“状态、动作和奖励”等术语
Once we formally define our problem Markovian style
以马尔可夫风格的形式定义了问题
in terms of states, actions and rewards,
我们就必须形式化地定义问题的解
we’ll need to formally define our solution.
我们理想的解决方案可以简单理解为是
A simple way of thinking about our ideal solution
智能体为了完成任务
is a series of actions that will need to be learned by the agent in order to complete its goal.
需要学习的一系列操作
例如
一个为公司传输安全信息的无线路由网络
For example, a network of wireless routers that helps a company
需要学习多项任务
transmit secure information needs to learn several tasks.
它需要学习如何最好地路由数据
It needs to learn how to best route data so that it reaches the right server as fast as possible,
以使数据尽可能快地到达正确的服务器
如何在节点之间有效地分配能源使用
how to efficiently allocate energy usage amongst its nodes,
如何应对网络拓扑结构的变化等
how to react to changes in its topology, etc.
前述例子中需要采取的正确操作
The correct actions it will need to take in our example, is routing data a specific way through its nodes,
在节点间路由数据需要采取的特定方式
将取决于当前的状况
will depend on the current situation.
例如 当网络流量很大时
If the network traffic is really high for example,
路由数据所需执行的操作
it will need to perform a different set of actions to route data than if it was low.
与网络流量小时不同
奖励通常取决于当前情景的状态
The reward is always decided in the context of the state that it was decided in
和接下来的状态
along with the state that comes next.
只要智能体对其观察到的所有环境状态
As long as the agent learns an appropriate action response
都能学到适当的动作响应
to any environment state that it can observe,
我们就得到了问题的解
we have a solution to our problem.
这时候“策略”就开始发挥作用
最基本的策略
是从一组环境状态到可能操作集的映射
可以将策略视为简单的输入输出函数
输入任何环境状态
输出智能体将采取的相关动作
如果希望智能体能够保持更新策略
则需指定映射关系
我们将此类策略称为确定性策略
因为策略采取的动作
完全取决于其输入 即状态
相反地
随机策略允许智能体随机选择动作
我们将随机策略定义为一种映射
它以环境状态s和动作a为输入
返回智能体在状态s下采取动作a的概率
顺便说一下 表示策略最常用的
是希腊字母π 可能是古希腊语
在传感器网络问题中
假设我们只是希望
能用最少的跳数在路由器间传输文件
为简单起见 我们可以将网络视为网格
确定性策略会指定类似于以下的规则
当网络传输所需跳数超过5时
重置该过程
当网络传输所需跳数不大于2时
将其记录在活动日志中 以供后续分析
随机策略的规则类似于
若网络传输所需跳数大于5
以50%的概率重置该过程
或者以40%的概率继续传输
否则以正常方式继续处理
若网络传输所需跳数小于或等于2
以90%的概率将其记录在活动日志中
否则执行正常操作
我们可以在表示确定性策略时
使用一般用来表示随机策略的数学符号
如果我们愿意的话
总之 指定策略是强化学习中重要的步骤
但是 找到最优策略同样重要
但是 我们如何找? 用布基胶带?
为找到答案 让我们回到传感器网络问题
并从一个非常糟糕的策略开始
以找到需要改进的地方
在我们的节点网络中
我们希望智能体能够将某个文件
通过路由从一个节点发送到另一个节点
每次传送都被视为一跳
为了使问题更有趣
假设应该避免某些节点
因为它们包含可能会损坏文件的虚拟环境
我们将初始策略设定为
让智能体访问每个状态 即所有设备
我们来计算这样做所能获得的奖励
从这个网络的左下角开始
并收集路径中所有必要的奖励
将它们加起来得到一个总和
这实际上是强化学习的正式术语
强化学习试图最大化累积未来奖励
用于描述累积未来奖励的词是“回报”
用大写字母R表示
奖励也可能“打折扣”
折扣因子描述智能体
对当前奖励与未来奖励的偏好
不过 我们假设现在不用考虑这个问题
如果我们遵循这一策略
从环境中的不同状态开始
对所有状态进行以上操作
我们将计算出一组重要的值
可将这个数字网格视为环境状态的函数
每个状态都有一个对应的数值
我们将此函数称为“状态值函数”
对每个状态 状态值函数产生预期的回报
如果智能体从某个状态开始
然后按照策略执行所有时间步骤
策略π的状态值函数是环境状态的函数
对每个状态s 这个函数返回的是
如果智能体从状态s开始
并用该策略为所有步骤选择操作时的期望回报
状态值函数总是与特定策略对应
因此 更改策略将更改状态值函数
在马尔可夫决策过程中
我们可以将任何状态的值表示为
即时奖励与随后状态值的和
通常将这种关系称为贝尔曼方程
命名于数学家和黑人领带爱好者
理查德·贝尔曼
贝尔曼方程也用于控制理论和经济学等领域
但它在强化学习中绝对至关重要
事实上 有四种不同类型的贝尔曼方程
但我们现在只关注这一个
它通过考虑其候选项来计算给定状态的值
可以用它来估算寻找最优策略的最佳行动
还有一种类型的值函数我们应该讨论
即动作值函数
状态值是环境状态的函数
动作值函数是一个关于
环境状态和智能体动作的函数
对每个状态s和动作a
动作值函数产生以下事件的预期回报:
智能体从状态s开始 然后选择动作a
并使用策略为所有时间步骤选择其操作
在状态值函数中
我们使用一个数字跟踪每个状态的值
在动作值函数中
每个状态使用四个值
每个值对应一个不同的动作
即 上下左右
如果智能体想要向上移动
它将遵循策略直到到达终止状态
然后记录奖励
然后我们对向左执行同样的操作
累积奖励是动作值
为每个状态的每个动作求动作值
就得到完整的动作值函数
我们在讨论智能体如何搜索最优策略之前
要定义动作值函数
其中的主要思想是 智能体与环境交互
从交互中估计出最佳动作值函数
然后智能体将使用该动作值函数
来计算最优策略
一旦得到了最优的动作值函数
我们就能确定最优策略
对于每个状态
我们需要选择能够产生最高预期回报的动作
如果我们循着每个状态的最大动作值
那么我们将能很快找到最优策略
但是 问题来了
如何找到最佳动作值函数?
它是找到最优策略的中间步骤
它也是下一个视频的主题
本视频需要记住的三点:
策略可以分为两类
确定性策略 采取的动作完全取决于状态
以及允许随机性的随机策略
为了学习最优策略 需要学习最优值函数
值函数也有两类
即状态动作函数和动作值函数
我们可以使用贝尔曼方程计算值函数
贝尔曼方程将任何状态的值表示为
即时奖励加上后续状态值的总和
欢迎订阅我们的视频节目
现在我要去计算正确的动作了
谢谢观看!

发表评论

译制信息
视频概述

本视频以无线传感器网络传输优化问题为例,介绍强化学习的相关概念。本视频解释了强化学习的两种策略,即确定性策略和随机策略;介绍了贝尔曼方程和两类值函数。

听录译者

收集自网络

翻译译者

水木風

审核员

审核员X

视频来源

https://www.youtube.com/watch?v=PYQAI6Td2wo

相关推荐