ADM-201 dump PMP dumps pdf SSCP exam materials CBAP exam sample questions

《第37步》#1 课程概述 – 译学馆
未登陆,请登陆后再发表信息
最新评论 (0)
播放视频

《第37步》#1 课程概述

Introduction (Move 37)

大家好 我是西拉杰
欢迎大家收看新的强化学习课程
“第三十七步”的首个视频
本课程持续十周
所有课程视频都会在我的Youtube频道免费发布
所以 记得订阅获取更新哟
学习本课程只需了解一点基础的Python语法
以及反向传播算法
视频简介中有这两个前置知识的教学视频链接
尽管人类在地球上存在的时间不长
但我们已经解决一些相对困难的问题了
借助我们的生物智能去分析数据提出解决方案
但有一些问题 比如重大疾病的防治
极度贫困以及 环境的长期可持续性
是难以解决的
这些难题可能需要大量训练有素的人
用几十年时间去解决
但时间太宝贵了 我们等不了这么久
我们现在就要解决方案
从五十年代诞生以来
人工智能研究者们一直都对
宇宙的运行机制非常好奇
并致力于利用机器学习系统
让人变得更聪明 造福人类
事实证明人工智能不是奢侈品而是必需品
在网络上产生的数据
每两年就会翻一倍 呈指数增长
许多谜团的答案
如《黑道家族》的大结局
都藏在这些数据的背后
一个人无法解析如此大量的数据
但借助于合适的算法就可以做到
因此如果你刚刚开始学习机器学习的运行机制
你会发现在推送的博客和课程中
遇到的绝大多数的
入门级算法及理论
都可以被划分在“监督学习”分类下
而机器学习流程的第一步就是创建数据集
数据文件的格式五花八门
看起来就像是一个excel表格的数据
根据其不同的特性每一个数据点都有不同的值
在监督学习中我们尝试预测数据中的已存在的值
它叫做标签
有时也称作目标变量
或者依赖变量
而其他特性则被称为独立变量
因此 如果有一个人的从业时间
年龄 以及教育背景数据
就能帮助机器学习系统预测这个人的薪酬
而如果有车龄及驾龄数据
就能帮助机器学习系统预测车祸的风险
最棒的莫过于 用于训练模型的任一数据
已经包含了理想的响应
也就是包含了一个依赖变量
这就像是在儿童自行车上装了辅助轮
是选择线性回归模型
还是逻辑回归 神经网络 决策树模型
它们会用不同的方式实现功能
也就是让不同的特性与标签建立联系
但多数数据无法打上明显的标签供我们使用
但我们仍想从中推得一些东西
这涉及到所谓的非监督学习领域了
接下来可以用一些技巧对数据分块
比如K-means或者混合模型
让有关联的数据点分群显示
而这很难经由其它方式看出来
我们还可以试试用 比如自编码器
找到数据的压缩表示
然后就可以将这个表示用于特定任务了
非监督学习还可以用于找到数据集中的异常
也就是找到与其它数据点不同的那个
比如欺骗性交易
非监督学习算法一般用于 比如在探索分析期
或者用于监督学习算法中 对数据进行预处理
监督和非监督学习算法都非常有用
他们是识别复杂数据规律的工具
想想这种情况
我们是新开的在线配送创业公司
刚刚部署了一个车队以及几个工厂
帮我们将货物从A运送到B
但在成功交货之前有很多可能的变数
比如货车可能坏在半路
天气可能导致封路
食物可能腐败
我们应该用什么学习机制来根据给定因素
预测最优的配送路线呢?
这是一个高度动态的问题域
我们需要一个非常适应变化的学习系统
而且很不幸 我们手中并没有可供学习的数据集
因此系统需要实时学习
在时间 这个带来全新的维度的设定中
什么是有效的 什么是无效的
这就是强化学习要去解决的问题了
它处在监督和非监督学习之间
在监督学习中
每一个训练样本都带有目标标签
而非监督学习中
完全没有标签
在强化学习中会有时间延迟标签
它们很少 并不常见
基于时间延迟标签的信号
也就是我们所说的奖励
系统会学到该如何在当前环境下运行
正是这种模式识别网络与称作深度强化学习的
基于环境的实时学习框架的强强联手
带来了近期人工智能领域的巨大成功
比如获得成功的DeepMind的AlphaGO
以及OpenAI的Five
我们会在课程接近结尾的时候详细讨论它们
但首先我们需要理解强化学习的算法和理论
机器学习是从定义一些数学框架开始的
数学框架中封装着人工智能与环境交互的理念
以及作为一个维度的时间
机器通过试错法学习
在1906年 一位叫做安德烈·马尔可夫的俄国数学家
对构建一系列连续事件的
系统模型很感兴趣
区块链?并不是
他定义了现在所谓的马尔可夫链来描述这一进程
马尔可夫链在每个进程中有若干状态
可以连续地从一个状态移动到另一个状态
每一次动作都是基于转移模型T的独立的一步
转移模型T定义了如何从一个状态转换到另一个
马尔可夫链基于马尔可夫性质 这也是由他提出的
它指出 在给定现在状态 未来是条件独立于过去的
也就是进程现有的状态
仅与该进程一时间步以前的状态有关
比如我们打算使用马尔可夫链预测
或是晴天或是阴天的天气
我们使用所谓的转移矩阵 用于表示环境变量
模型中有90%的可能连续出现两个晴天
而有50%的可能连续出现两个雨天
链上的每个状态都是链图中的一个节点
而边缘代表着状态转变的可能性
可能性越高 边缘越宽
表示人工智能在一定环境中代理学习的
强化学习问题 用最常见的框架表示
就是马尔可夫决策过程
这是马尔可夫链的一个拓展应用
区别在于额外包括了动作
也就是允许选择和奖励给予动机
每一个决策过程都由五个部分组成
一系列可能的状态
初始状态
一系列可能的动作
转移模型
以及奖励函数
如果在前一状态做出了动作后 转移模型
会返回到达下一状态的可能性
给定状态与动作
模型条件独立于所有以前的数据和操作
这就是马尔可夫性质
而奖励函数会在进程从一个状态移向
另一个状态后返回一个真实值
而因为有奖励函数的存在
可以说 相对于其它状态 更需要某些状态
因为进程向某一状态移动后会获得更高的奖励
反过来也一样
有些状态应会被避免
因为当进程移向这一状态
它得到的是负向奖励
问题也就变成了进程需要通过避免返回负值的
而选择返回正值的状态
从而最大化奖励
解决的办法就是找到一款策略
来选择奖励最高的动作
进程有很多策略可以选 但只有一款可被
称为最优策略
也就是最好的程序
假使我们有一架快递无人机
我们想要它沿最佳路线飞到室友那
我们可以用马尔可夫决策过程来解决这一问题
将环境定义为一个矩阵
起始状态在一角
环境中可能存在一些障碍
比如我们需要避开的吊灯以及学生
无人机可以上下左右移动
我们这里有一系列状态 动作以及奖励
而每一个独一无二的环境都会有它固定的特性
比如我们假设的环境是完全可视的
因为我们的无人机总是知道它所处的状态
我们还可以假定运送并无时限
也就是说这是个无时域问题
这些因素会影响我们找到最佳策略的算法
这个问题也就变成了进程如何选择最佳策略
我们会在下一期中谈谈这个问题
总结一下本视频的三个重点
在强化学习中 人工智能会学着在实时环境中
使用被称为奖励的时间延迟标签作为信号
最优化交互行为
马尔可夫决策过程是一个数学框架
用于使用状态 动作和奖励
定义强化学习问题
通过与环境交互 人工智能会选择一个策略
以在给定状态返回一个选择最高奖励的动作
很高兴你能看完这个视频
点击订阅 你会在前进道路上勇往直前
现在我要控制我的环境去了 感谢收看

发表评论

译制信息
视频概述

本视频概述了什么是监督学习 非监督学习 强化学习 马尔可夫链 马尔可夫性质 以及马尔可夫决策过程

听录译者

收集自网络

翻译译者

Aimik

审核员

审核员赖皮

视频来源

https://www.youtube.com/watch?v=fRmZck1Dakc

相关推荐